1 पॉइंट द्वारा GN⁺ 2 시간 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • EY Canada की 44-पेज की loyalty fraud रिपोर्ट एक ऐसे दस्तावेज़ के रूप में सामने आई, जिसमें झूठे citations, गलत source attribution, नकली आँकड़े और AI-लिखा टेक्स्ट मिला-जुला था
  • references table में दिए गए ज़्यादातर URL टूटे हुए या नकली थे, आधे से ज़्यादा शीर्षक असली sources से मेल नहीं खाते थे, और AI Scan ने 72% टेक्स्ट को AI-जनित बताया
  • BleepingComputer, Wired, Gartner, McKinsey, Forbes, Cisco Talos, TechCrunch के कई sources 404 error, tag pages, या अस्तित्वहीन दस्तावेज़ निकले
  • 200 billion dollar का आँकड़ा पूरे loyalty points market और unused points की value—इन दोनों परस्पर-विरोधी अर्थों में इस्तेमाल हुआ, और इसे support करने वाले 2 citations भी गढ़े हुए निकले
  • यह flawed रिपोर्ट Canberra Times और 60 से अधिक अख़बारों तक फैल गई, और Claude·ChatGPT·Perplexity ने भी वही hallucinated जानकारी दिखा दी

EY Canada रिपोर्ट की समस्या

  • EY Canada ने 2025 के अंत में loyalty systems में cyber threats और fraud पर 44-पेज की रिपोर्ट Points of Attack: Uncovering Cyber Threats and Fraud in Loyalty Systems प्रकाशित की
  • रिपोर्ट में 2 partners और 1 senior manager को credit दिया गया था, लेकिन इसमें झूठे citations, गलत source attribution, नकली आँकड़े और AI-लिखा टेक्स्ट एक साथ मिला
  • EY Canada, Ernst & Young का कनाडाई संगठन है, जो कनाडा सरकार को हर साल कई million dollar की सेवाएँ देता है
  • GPTZero का Hallucination Check हाल के महीनों में बड़ी consulting firms की public reports को खोजने और scan करने वाली automated pipeline में इस्तेमाल हुआ, और इससे संकेत मिला कि बड़ी corporate reports में भी vibe citing फैल रही है

citation तरीका और verification नतीजे

  • EY Canada रिपोर्ट ने footnotes या सामान्य academic citations की जगह मुख्य टेक्स्ट में सीधे sources का उल्लेख किया या page 41~43 की resources table में sources इकट्ठा किए
  • इस table में source title, description, URL, कुछ publishers और dates दी गई थीं, लेकिन ज़्यादातर URL टूटे हुए या नकली थे और आधे से ज़्यादा titles असली sources से मेल नहीं खाते थे
  • GPTZero ने false positives से होने वाली reputational cost को ध्यान में रखते हुए स्पष्ट मानदंडों से hallucinated citations को परिभाषित किया, और Hallucination Check के नतीजों को manually verify किया
  • रिपोर्ट का टेक्स्ट GPTZero AI Scan में 72% AI-जनित दिखा, और झूठे आँकड़े, गलत source attribution, internal contradictions जैसी LLM errors बार-बार दिखाई दीं

प्रमुख झूठे या गलत sources

  • BleepingComputer की airline loyalty breach story

    • Airline Loyalty Breach: BleepingComputer को एक ऐसी story के रूप में पेश किया गया, जिसमें कहा गया था कि credential stuffing attack से airline loyalty accounts के millions accounts breach हुए
    • https://bleepingcomputer.com/news/security/… 404 error लौटाता है, और पुष्टि हुई कि उस path पर article या तो हटाया जा चुका है या शुरू से था ही नहीं
  • Wired की voice deepfake और API security stories

    • AI Voice Deepfakes Targeting Call Centers को Wired की ऐसी story के रूप में पेश किया गया, जिसमें attackers AI-generated voices से customer service procedures का दुरुपयोग करते हैं
    • https://www.wired.com/story/voice-deepfakes-ai-scams/ path पर ऐसा कोई Wired article मौजूद नहीं है
    • Wired: API Security Gaps को भी consumer digital services की API vulnerabilities पर article बताया गया, लेकिन https://www.wired.com/story/api-security-risks-retail/ भी 404 error लौटाता है
  • Gartner और McKinsey reports

    • Gartner Market Trends – Loyalty Fraud को digital loyalty programs और mobile wallets में fraud के evolution पर strategic guidance के रूप में पेश किया गया
    • https://www.gartner.com/en/documents/4000201 सिर्फ Gartner की main site पर redirect करता है, और इस title का कोई Gartner document मौजूद नहीं है
    • McKinsey & Company – Loyalty Economics Report (2022) को ऐसी रिपोर्ट बताया गया, जिसमें दुनिया भर के unused reward points को 200 billion dollar आँका गया था, लेकिन ऐसी कोई रिपोर्ट मौजूद नहीं है
  • Forbes loyalty economy article

    • Forbes – The $200 Billion Loyalty Economy को loyalty programs को एक महत्वपूर्ण digital asset बताने के आधार के रूप में पेश किया गया
    • URL टूटा हुआ है, और हालांकि Blake Morgan ने Forbes में लिखा है, लेकिन इस title से मेल खाता कोई लेख नहीं है
    • हाँ, 2020 के एक Forbes article में “$200 billion loyalty economy” वाक्यांश इस्तेमाल हुआ था
  • Cisco Talos और TechCrunch

    • Cisco Talos: API Attacks on Retail को commerce और loyalty systems में insecure APIs के दुरुपयोग पर लेख बताया गया, लेकिन https://blog.talosintelligence.com/api-abuse-retail/ 404 error लौटाता है
    • TechCrunch: Loyalty Program Breaches को loyalty program breaches और user data leaks पर article बताया गया, लेकिन https://techcrunch.com/tag/loyalty-program/ किसी खास article की बजाय loyalty-program tag page है

200 billion dollar आँकड़े का internal contradiction

  • summary में दावा

    • Executive Summary में दावा किया गया कि global loyalty points market का आकार 200 billion dollar है, और उसका 30~50% उपयोग नहीं होता
    • इस दावे को नकली Forbes citation से support किया गया
  • page 10 पर बदला अर्थ

    • page 10 पर यही 200 billion dollar आँकड़ा global points की कुल value नहीं, बल्कि unused loyalty points का अनुमान बन गया
    • चूँकि पहले ही कहा गया था कि points का अधिकतम 50% unused है, इसलिए दोनों दावे एक साथ सही होने के लिए global loyalty points market कम-से-कम 400 billion dollar होना चाहिए
  • McKinsey citation का source tracing

    • page 43 पर गढ़ी गई McKinsey & Company रिपोर्ट को इस बाद वाले दावे के आधार के रूप में इस्तेमाल किया गया कि unused global points की value 200 billion dollar है
    • वही आँकड़ा दो ऐसे अर्थों में इस्तेमाल हुआ जो साथ-साथ टिकना मुश्किल है, और दोनों को support करने वाले 2 citations भी गढ़े हुए निकले
    • यह McKinsey citation, EY रिपोर्ट से 6 महीने पहले प्रकाशित Financial IT की fintech blog post तक पहुँचा
    • उस post में दावा था कि “more than $200 billion in points sit idle each year”, और source section में अस्तित्वहीन McKinsey & Company: Loyalty Economics Report (2022) का citation दिया गया था
    • यही fabricated citation EY रिपोर्ट की references table में जस का तस पहुँच गया, और low-quality blog का fake source Big Four publication के रूप में वैधता पा गया

source-mixing वाले 72% और 89% आँकड़े

  • loyalty program 72% fraud statistic

    • page 6 पर दावा किया गया कि customer loyalty programs में 72% ने theft या fraud report किया
    • इस आँकड़े को कनाडाई payment processor Paystone की 2019 post से जोड़ा गया
    • page 11 पर यही आँकड़ा digital fraud prevention company Forter की NRF 2020 summary से जोड़ा गया
    • Paystone और Forter, दोनों में से कोई भी रिपोर्ट की references table में शामिल नहीं था, और मूल source संभवतः Ipsos का 2017 survey था
  • loyalty fraud attacks 89% increase statistic

    • page 6 पर दावा किया गया कि loyalty program fraud attacks 2019 के बाद से 89% बढ़े हैं
    • page 11 पर यही 89% बढ़ोतरी 2018 से 2019 के बीच एक single-year change तक सीमित हो गई, और इसे Forter के Fraud Attack Index से जोड़ा गया
    • यह source वास्तव में मौजूद है और दावे के दूसरे version को आंशिक रूप से support करता है, लेकिन EY रिपोर्ट में इस्तेमाल कई sources की तरह यह भी पुराना data है
    • परस्पर-विरोधी sources, low-quality sources, पुराने आँकड़े, और inaccurate restatement को AI slop के संकेत के रूप में पेश किया गया

सार्वजनिक असर और data pollution का जोखिम

  • Points of Attack ने कनाडा में शायद बड़ा असर नहीं डाला, लेकिन हाल की Canberra Times story में इसे cite किया गया, और यह story ऑस्ट्रेलिया भर के 60 से अधिक अख़बारों में distribute हुई
  • संभव है कि रिपोर्ट public domain से बाहर भी client briefings, internal presentations, और proprietary media के ज़रिए फैली हो
  • online report publication इंटरनेट के knowledge pool में data injection जैसा है, और जब कोई जानी-मानी consulting firm high-traffic website पर गलत जानकारी या hallucinated citations डालती है, तो वह बाद के researchers को गुमराह कर सकती है
  • AI “deep research” tools इंसानों से अलग signals के आधार पर sources चुनते हैं, इसलिए वे ऐसे data pollution के प्रति और अधिक संवेदनशील हो सकते हैं
  • Claude, ChatGPT, Perplexity ने EY की flawed रिपोर्ट से निकली hallucinated जानकारी दिखा दी

Hallucination Check का उद्देश्य

  • GPTZero का मानना है कि vibe citing अब researchers, academia, consultants और web search पर निर्भर लोगों के लिए एक मौजूदा जोखिम बन चुका है
  • Hallucination Check को ऐसा tool बताया गया है, जो हर citation को manually verify किए बिना hallucinated citations और गलत जानकारी की पहचान करने में मदद करता है
  • इस tool का उपयोग IJCAI, ICLR, ICSE जैसे academic conferences की submissions review करने में भी हो रहा है
  • निष्कर्ष यह है कि Ernst & Young जैसे प्रतिष्ठित source के citations भी अब सिर्फ भरोसे के आधार पर स्वीकार करना मुश्किल हो गया है
  • GPTZero के Hallucination Check का लिंक दिया गया है

1 टिप्पणियां

 
GN⁺ 2 시간 전
Hacker News की राय
  • कई पेशों में दिखने वाली समस्या यह है कि AI outputs की ठीक से समीक्षा जानकार लोगों—जैसे अनुभवी analyst, senior engineer, विशेषज्ञ वकील, resident doctor—द्वारा नहीं की जाती
    ज़्यादा से ज़्यादा ऊपर-ऊपर से देख लिया जाता है, और सबसे खराब स्थिति में publish, distribute, production में डालने, customer को भेजने, या court में जमा करने से पहले देखा ही नहीं जाता
    कई मामलों में संगठन के भीतर ज़रूरी review क्षमता मौजूद होती है, लेकिन वे लोग पहले से ही रोज़मर्रा के काम से ओवरलोड होते हैं
    कुछ महीने पहले Amazon के बारे में एक पोस्ट देखी थी कि वह generative AI outputs की senior engineers से समीक्षा करवाता है (https://news.ycombinator.com/item?id=47323017)। यह पढ़कर हँसी ही आई। लोग पहले से ही व्यस्त हैं, और यह मानना मुश्किल है कि Amazon project और core infrastructure development में बढ़ते human bottleneck को सचमुच स्वीकार करेगा

    • समस्या का एक हिस्सा यह है कि review के लिए दस्तावेज़ तब फेंक दिया जाता है जब वह पूरी तरह पककर तैयार हो चुका होता है
      मैं पूरे संगठन में बुनियादी engineering principles की ज़रूरत पर ज़ोर दे रहा हूँ
      आप किसी engineer से यह नहीं कहेंगे कि बिना original spec जाने, कि हासिल क्या करना था, 1000 lines of code review कर लो। कम से कम context होना चाहिए, और आदर्श रूप से reviewer उस समय मौजूद हो जब काम पहली बार introduce किया जाए, ताकि पूरा context समझ सके
      लेकिन ऐसे दस्तावेज़ सब-कुछ-या-कुछ-भी-नहीं के रूप में आते हैं। 39वें metric तक बारीकी से define हो जाने के बाद क्या अब इसे पलटना है, या फिर मान लेना है कि अब तो यही हो गया
      एक one-pager, या Amazon स्टाइल में शायद 6-page document भी हो सकता है, लेकिन कम से कम इतना कि “मैं यह propose कर रहा हूँ” — तभी idea की skeletal stage में उसके overall shape पर आपत्ति और refinement हो सकता है
      यह उस emotional investment के बनने से पहले होना चाहिए जिसमें लगता है कि कीमती report अब पूरी हो चुकी है
      पारंपरिक रूप से यह वैसा ही है जैसे product टीम SCRUM environment में spec को देखती है और engineers ठीक से code review करते हैं। हाँ, SCRUM मर चुका है, लेकिन वह अलग बात है
    • वकील के नज़रिए से AI output review शुरू से खुद करने की तुलना में ज़्यादा समय लेता हुआ लगता है। मौजूदा templates इस्तेमाल करने की तुलना तो छोड़ ही दें
      AI इस्तेमाल करने पर सब कुछ पढ़ना पड़ता है, समझाना पड़ता है कि क्या गलत है, और अक्सर अंत में सब कुछ फिर से लिखना पड़ता है
      billable hours काफ़ी बढ़ जाते हैं, लेकिन यह इस बात का लक्षण लगता है कि AI का वह फ़ायदा—कि यह विषय न समझने वाले व्यक्ति के लिए तेज़ और accessible है—कैसे गायब हो जाता है
    • “जानकार लोग AI outputs की समीक्षा नहीं करते” — क्या इसका मतलब वही लोग हैं जिन्हें निकाला गया और demoralize कर दिया गया?
      “महान पुरुषों और महिलाओं” को vibe coding पसंद आने की एक वजह यह है कि अब उन्हें लगता है कि वे ऐसे काम खुद कर सकते हैं जिन्हें पहले “context expert” के पास भेजने की तकलीफ़ उठानी पड़ती थी
      अब LLM ही उनका “built-in context expert” बन गया है, इसलिए उन्हें लगता है कि outputs की समीक्षा करने की ज़रूरत नहीं रही
    • समस्या यह है कि कभी-कभी output verify करने में शुरू से खुद बनाने से भी ज़्यादा समय लग जाता है
      तब AI कई उपयोगों में ROI के हिसाब से बहुत बड़ा negative सिस्टम बन जाता है
    • मेरी खास दिलचस्पी education और human knowledge management में है। मैंने IT education की रफ़्तार को लगभग शून्य के करीब जाते देखा है
      ज़रा उस professional training के बारे में सोचिए जहाँ गलती का नतीजा शाम की खबरों में आ सकता है
      numbers की matrix से निकली strings को suspended judgment की हालत में स्वीकार कर लेना, जबकि हर कोई सिर्फ अपनी जवाबदेही से बचना चाहता हो—यह विचार ही डरावना है
      यह कुछ वैसा है जैसे South Asian airlines ने pilots को manual landing से रोका, जिससे skill degrade हुई और आखिरकार वह कई मशहूर आपदाओं तक जा पहुँचा
      अगर high-paid consultants भी links verify नहीं करते, तो चिंता और बढ़ जाती है
  • क्या इसका कोई source है जिसे बस plain text में देखा जा सके? CSS styling की वजह से सिर दर्द हो रहा है, और reading mode काम नहीं कर रहा या block हुआ लगता है

    • scroll करना सच में बहुत तकलीफ़देह है, और reading mode में बदलने पर भी सब टूटा हुआ था
    • Firefox में एक आसान Reader view होता है जो page से सिर्फ text निकालकर simplified form में दिखाता है। Mac पर इसे Opt + CMD + R से चालू कर सकते हैं
      लेकिन इसमें भी यह समस्या है कि इस्तेमाल किए गए कुछ sources वाली images हट जाती हैं
    • iOS के Lockdown Mode में भी यही हाल है
  • असली कॉमेडी यह देखना है कि ऐसा कचरा senior management से नीचे आता है। घटिया prompts, hallucinated कचरा, actionable information शून्य, और असल जानकार analysis भी शून्य—सिर्फ बकवास
    “Jira से निकाले गए support issues का analysis देखिए। इन top three समस्याओं को ज़रूर ठीक करना होगा!!!” — लेकिन असलियत में यह सब बातें सभी को सालों से पता थीं, बस management ने किसी को इन्हें ठीक करने का अधिकार नहीं दिया था
    यह दो बार से ज़्यादा देख चुका हूँ, इसलिए इसके लिए कोई नाम होना चाहिए। शायद Garbagemaxxing

    • अगर “top three समस्याओं को ठीक करना होगा” असल में वही पुरानी समस्याएँ हैं जिन्हें सभी पहले से जानते थे और management ने हल करने का अधिकार नहीं दिया था, तो क्या net effect positive नहीं है?
  • यह page explore करने के लिहाज़ से सचमुच भयानक है

    • mobile पर यह scroll hijack कर लेता है, इसलिए शाब्दिक रूप से नीचे जाना संभव नहीं होता। reading mode भी बस पहला paragraph जैसा कुछ ही दिखाता है
      बाद में desktop पर फिर देखूँगा। content दिलचस्प लगता है, लेकिन असल में पढ़ पाना लगभग असंभव है। Ernst and Young का introduction section पार ही नहीं किया जा सकता
    • मुझे लग रहा है मेरी scrolling खुद hallucinate कर रही है
    • यह user hostility के बिल्कुल अलग स्तर की चीज़ है। ऐसा पहले कभी नहीं देखा
    • iPhone ने अपने आप reading mode चालू कर दिया था, लेकिन मैंने यह देखने के लिए बंद किया कि बात क्या है—और फिर सहमत हो गया
    • शाब्दिक रूप से रुकावटों वाला nonlinear feedback, कितना भयानक
      कुछ लोगों को websites बनानी ही नहीं चाहिए
  • क्या किसी ने इस बात पर भी hallucinate कर लिया कि webpage में scroll कैसे काम करना चाहिए?

  • अजीब बात यह है कि 12–18 महीने पहले यह report बहुत बड़ा scandal बन जाती और लंबे समय तक चलने वाला brand damage करती, लेकिन अब लगता है कि कोई इसे याद भी नहीं रखेगा या notice भी नहीं करेगा

  • पहले website ठीक करनी चाहिए। यह बेहूदा JavaScript animations फेंक देनी चाहिए। ऐसी चीज़ें तो 2014 में ही D3JS और jQuery से effectively हल हो चुकी थीं

  • समझ नहीं आता कि ऐसा आखिर होता कैसे है। उदाहरण के लिए Qwen Chat या Perplexity generated हर sentence के अंत में citations देते हैं
    इसलिए आप हर citation पर mouse hover करके देख सकते हैं कि वह किस website से आया
    क्या किसी ने बस web search के बिना ChatGPT में prompt डालकर copy-paste कर दिया?

  • EY पिछले एक साल से चुपचाप लोगों को निकालता आ रहा है
    कम लोगों से ज़्यादा काम करवाने की कोशिश का quality drop में बदलना कोई हैरानी की बात नहीं है

    • दिलचस्प बात यह है कि ऐसी service की भी अच्छी-खासी demand हो सकती है जो असल में कुछ नहीं करती
      बहुत-सा corporate काम बस checkbox भरना होता है
      boss कहता है, “X पर एक report लाओ। मैं वह report अपने boss को दूँगा, और वह उसे पढ़ेगा नहीं”
      फिर ढाँचा बन जाता है: “E&Y, एक report बना दीजिए। यह रहे 200,000 dollars”
  • संभव है कि webpage खुद भी vibe coding से बना हो, और लेखक को इसकी परवाह ही न रही हो