- European Broadcasting Union (EBU) और BBC के नेतृत्व में हुए अंतरराष्ट्रीय संयुक्त अध्ययन में पाया गया कि प्रमुख AI असिस्टेंट के 4 प्रकार (ChatGPT, Copilot, Gemini, Perplexity) न्यूज़ कंटेंट पहुँचाते समय 45% मामलों में विकृति या त्रुटि दिखाते हैं
- इस अध्ययन में 18 देशों के 22 सार्वजनिक प्रसारकों ने भाग लिया और 14 भाषाओं में 3,000 से अधिक प्रतिक्रियाओं का मूल्यांकन किया गया, जिसमें स्रोत का छूटना या गलत होना (31%), तथ्यगत त्रुटियाँ और hallucination (20%) जैसी समस्याएँ बड़ी संख्या में मिलीं
- खास तौर पर Gemini में समस्या दर 76% रही, जो सबसे अधिक थी, और इसका मुख्य कारण स्रोत का सही उल्लेख न करना माना गया
- BBC के पिछले अध्ययन की तुलना में कुछ सुधार दिखा, लेकिन फिर भी व्यवस्थित और बहुराष्ट्रीय स्तर की समस्याएँ बनी हुई पाई गईं
- ऐसे समय में जब AI असिस्टेंट न्यूज़ सर्च की जगह लेते जा रहे हैं, सार्वजनिक भरोसे और लोकतांत्रिक भागीदारी के कमजोर पड़ने का जोखिम उठाया गया
अध्ययन का अवलोकन
- EBU News Assembly (Naples) में प्रस्तुत यह अध्ययन अब तक का सबसे बड़ा बहुराष्ट्रीय प्रयोग था, जिसने निष्कर्ष निकाला कि AI असिस्टेंट भाषा, देश और प्लेटफ़ॉर्म से परे लगातार न्यूज़ को विकृत करते हैं
- भाग लेने वाले संस्थान: BBC, ARD, ZDF, CBC, NPR सहित दुनिया के 22 सार्वजनिक प्रसारक
- मूल्यांकन के मानदंड: सटीकता, स्रोत का स्पष्ट उल्लेख, तथ्य और राय में अंतर, संदर्भ की उपलब्धता जैसे प्रमुख पत्रकारिता नैतिकता संकेतक
मुख्य निष्कर्ष
- कुल प्रतिक्रियाओं में 45% में गंभीर समस्याएँ मिलीं
- 31% में स्रोत संबंधी त्रुटियाँ थीं (छूटना, गलत उद्धरण, गलत स्रोत पहचान)
- 20% में सटीकता संबंधी कमियाँ थीं (hallucination, पुरानी जानकारी, misinfo सहित)
- Gemini में समस्या दर 76% रही, जो दूसरे मॉडलों की तुलना में लगभग दोगुनी थी
- BBC द्वारा इस साल की शुरुआत में प्रकाशित अध्ययन की तुलना में कुछ संकेतकों में सुधार हुआ, लेकिन फिर भी कुल विकृति दर ऊँची बनी रही
यह विकृति क्यों महत्वपूर्ण है
- AI असिस्टेंट पहले ही कई लोगों के लिए सर्च इंजन की जगह लेने वाला न्यूज़ एक्सेस पॉइंट बन चुके हैं
- Reuters Institute की ‘Digital News Report 2025’ के अनुसार, सभी ऑनलाइन न्यूज़ उपभोक्ताओं में 7% (25 वर्ष से कम आयु वालों में 15%) AI असिस्टेंट को न्यूज़ स्रोत के रूप में इस्तेमाल कर रहे हैं
- Jean Philip De Tender (EBU Media Director) ने चेतावनी दी कि “AI असिस्टेंट की समस्या सीमाओं और भाषाओं से परे एक व्यवस्थित परिघटना है, और यह सार्वजनिक भरोसे को खतरे में डालती है”
- BBC के Peter Archer ने जोर देकर कहा कि “AI की संभावनाएँ बड़ी हैं, लेकिन विश्वसनीय जानकारी की डिलीवरी पहले आनी चाहिए, और इसके लिए मीडिया संगठनों और AI कंपनियों की संयुक्त प्रतिक्रिया जरूरी है”
प्रतिक्रिया और अगले कदम
- शोध टीम ने समस्या के समाधान के लिए ‘News Integrity in AI Assistants Toolkit’ जारी किया
- इसमें अच्छे AI response के मानदंड और समस्या समाधान की दिशा दी गई है
- इसका लक्ष्य AI responses की गुणवत्ता में सुधार और उपयोगकर्ताओं की media literacy बढ़ाना है
- EBU ने EU और विभिन्न देशों के नियामकों से सूचना अखंडता और डिजिटल सेवाओं से जुड़े कानूनों के कड़े प्रवर्तन की अपील की, और AI असिस्टेंट की निरंतर स्वतंत्र मॉनिटरिंग का प्रस्ताव रखा
अतिरिक्त अध्ययन और धारणा सर्वेक्षण
- BBC ने अलग ‘Audience Use and Perceptions of AI Assistants for News’ रिपोर्ट के माध्यम से बताया कि,
- एक तिहाई से अधिक (UK वयस्कों में) ने कहा कि वे AI द्वारा बनाए गए न्यूज़ सारांशों पर भरोसा करते हैं, और
- त्रुटि मिलने पर वे केवल AI ही नहीं बल्कि मीडिया संस्थानों को भी जिम्मेदार ठहराने की प्रवृत्ति रखते हैं
- यह दिखाता है कि AI असिस्टेंट की त्रुटियाँ न्यूज़ ब्रांड की विश्वसनीयता पर भी नकारात्मक असर डाल सकती हैं
भाग लेने वाले प्रसारकों की सूची
- बेल्जियम (RTBF, VRT), कनाडा (CBC-Radio Canada), चेक गणराज्य (Czech Radio), फ़िनलैंड (YLE), फ़्रांस (Radio France),
जॉर्जिया (GPB), जर्मनी (ARD, ZDF, Deutsche Welle), इटली (Rai), लिथुआनिया (LRT),
नीदरलैंड्स (NOS/NPO), नॉर्वे (NRK), पुर्तगाल (RTP), स्पेन (RTVE), स्वीडन (SVT),
स्विट्ज़रलैंड (SRF), यूक्रेन (Suspilne), यूनाइटेड किंगडम (BBC), संयुक्त राज्य अमेरिका (NPR)
1 टिप्पणियां
Hacker News राय
अगर आप असली रिपोर्ट देखें, तो समझ आ जाता है कि ये आंकड़े कैसे निकाले गए। ज़्यादातर गलतियां “source problem” की हैं, जहां AI assistant दावे के लिए source quote नहीं करता, या (चौंकाने वाली बात यह है कि) BBC की बजाय Wikipedia को cite करता है। इसके अलावा, इस रिपोर्ट में यह भी साफ़ नहीं बताया गया कि कौन-से models इस्तेमाल किए गए थे (हालांकि appendix में उनका ज़िक्र था)। Anthropic (मेरे हिसाब से ऐसे काम में सबसे अच्छा) को छोड़ दिया गया, और सिर्फ़ Perplexity या Copilot को देखा गया। इसमें हाल की रिपोर्ट और एक साल पुरानी research को मिलाकर context भी खो दिया गया है, जबकि इस दौरान बहुत कुछ बदल चुका है। इस लेख में कई गंभीर समस्याएं हैं
human journalists भी white paper की बातों को लगभग 85% तक गलत ढंग से पेश करते हैं। इसे देखें तो 45% का आंकड़ा इतना बुरा नहीं लगता
citation की समस्या शायद BBC के robots.txt की वजह से भी हो सकती है, क्योंकि वह ज़्यादातर AI crawlers और user agents को block करता है
मैं इस बात से सहमत हूं कि इंसानों द्वारा लिखी चीज़ों को समझने में बहुत बड़ी समस्या है। भले यह लेख अच्छा न हो, लेकिन जिस तरह की समस्या की इसमें बात की गई है, वह सचमुच गंभीर है। LLM अक्सर अलग-अलग वाक्यों को गलत समझ लेते हैं, या किसने क्या कहा इसका ट्रैक खो देते हैं, और यह बात नए models (GPT-5 सहित) में भी कभी-कभी दिखती है। खासकर जब आप इन्हें इंसानों द्वारा लिखी गई discussions का analysis करने को कहते हैं। यह समस्या शायद हल की जा सकती है, लेकिन अभी बिल्कुल हल नहीं हुई है
मैं इस बात में एक और चीज़ जोड़ना चाहूंगा कि Wikipedia को BBC की जगह cite करना ही असली समस्या नहीं है। उससे भी बड़ी समस्या यह है कि ये कभी-कभी “मौजूद ही नहीं” करने वाले Wikipedia articles को cite करते हैं। उदाहरण के लिए, ChatGPT ने “European Union Enlargement Goals for 2040” नाम के एक ऐसे wiki article का link दिया जो असल में था ही नहीं, और वह कोई आधिकारिक EU policy भी नहीं थी। उसने एक non-existent URL, काल्पनिक EU goals और policies तक गढ़ दिए
मुझे लगता है कि यह लेख अपना असली काम ठीक से कर रहा है। यानी लोगों के लिए ऐसे headlines उछालना जिन्हें वे बाद में cite करेंगे। अगले एक-दो महीनों में हम यहीं-वहीं इस article का link या “AI projects के 95% fail हो जाते हैं” जैसी ढीली-ढाली quotes घूमती देखेंगे। POSIWID ("the purpose of a system is what it does" का संक्षेप, यानी किसी system का purpose वही है जो वह वास्तव में करता है)
मैं सोच रहा हूं कि वास्तव में कितने लोगों ने AI summary को original text से compare किया है। मैंने कुछ बार खुद तुलना की है, और नतीजे बहुत खराब थे। यह summary कम और “random compression” ज़्यादा लगती है, और यह summary से बिल्कुल अलग चीज़ है। गंभीर मामलों में तो मुख्य निष्कर्ष असली बात के ठीक उलट हो जाते हैं। इसलिए अब मैं AI summary features पर बिल्कुल भरोसा नहीं करता
अगर आप Gemini का call summary feature खुद जांचें, तो उसमें लगभग हमेशा गंभीर समस्याएं मिलती हैं। कल ही Gemini ने ऐसी बात को तय हो चुकी decision की तरह दर्ज कर दिया जिस पर हमने सहमति बनाई ही नहीं थी। वही सबसे अहम बात थी, और नतीजा पूरी तरह उलटा निकला। ऐसा होना तो न होने से भी बदतर है
“random compression” सच में बहुत सही phrase है। मुझे लगता है कि email या text message summaries में यह चीज़ खास तौर पर दिखती है। यह message की असली बात पकड़ ही नहीं पाता, बस random sentences चुन लेता है, और 99.9% मामलों में वही असली core point नहीं होते। इसलिए मैं इन्हें पूरी तरह ignore करता हूं
मेरे अनुभव में यह समस्या ज़्यादातर lightweight open source models या mini models में दिखती है। SOTA-level models (जैसे Sonnet-4.5, Opus-4.1, GPT-5-Thinking आदि) में यह समस्या लगभग नहीं होती। लेकिन उनकी लागत बहुत ज़्यादा है, इसलिए ज़्यादातर कंपनियां cost या speed की वजह से सस्ते models या unimplemented TTC का इस्तेमाल करती हैं
क्या ऐसा इसलिए भी हो सकता है कि news headlines अक्सर clickbait होती हैं? अगर AI सिर्फ़ title देखकर content summarize कर दे, तो यह हैरानी की बात नहीं कि वह original का आधे से ज़्यादा हिस्सा गलत समझ ले
कभी-कभी AI बिल्कुल मनगढ़ंत बातें भी बना देता है। मैंने ऐसे citations देखे हैं जहां paper title, author और results सब कुछ बिना किसी आधार के गढ़ा गया था
मैंने Gemini से कहा कि वह ताज़ा खबरें इकट्ठी करके दिखाए, लेकिन उसने search का इस्तेमाल ही नहीं किया और title, summary, link सब कुछ गढ़ लिया। ऐसा एक-दो बार नहीं, कई बार हुआ। इसलिए अब मुझे Gemini को web search वाले किसी भी काम में इस्तेमाल करने से डर लगता है। उदाहरण के तौर पर, उसने “Google DeepMind और Harvard researchers ने LLM की ‘theory of mind’ जांचने का नया तरीका प्रस्तावित किया” जैसी बात और उसका link दिया, लेकिन link काम नहीं करता था और वह title search में भी नहीं मिला
Gemini के जवाब दस बार देखें तो सात बार से ज़्यादा गलत होते हैं। कभी वह product names गड़बड़ा देता है, कभी business hours गलत बता देता है। उदाहरण के लिए, उसने बताया कि एक restaurant Mon–Fri खुला रहता है, लेकिन असल में वह Tue–Sat खुला था, और मैं पत्नी के साथ बेकार चला गया। कभी-कभी तो वह दर्जनों “facts” ही बना देता है। अब मेरी पत्नी खुद ज़्यादा सावधानी से verify करती है, और restaurant owner तक मज़ाक में कहता है, “अगर Gemini कहे X, तो शायद असल में Y होगा?”
मैं ठीक ऐसा behavior reproduce नहीं कर पा रहा हूं। जानना चाहूंगा कि आपने कौन-सा prompt इस्तेमाल किया था। आज की top news पूछने पर यह Google search इस्तेमाल करके असली links देता है
यह भी जानना चाहूंगा कि आपने Gemini का कौन-सा version इस्तेमाल किया, API से सीधा call किया या web app (Gemini या AI Studio आदि) से। सभी LLM apps में web/news search features enabled नहीं होते, इसलिए access के हिसाब से results पूरी तरह बदल सकते हैं। बेशक, अगर AI के पास web search access नहीं है तो उसे यह बताना चाहिए, नकली links नहीं गढ़ने चाहिए। और अगर web search enabled था लेकिन उसने search ठीक से चलाया ही नहीं, तो वह अपने-आप में एक समस्या है
ऐसे में क्या सीधा किसी सामान्य news site पर जाकर headlines पढ़ लेना बेहतर नहीं होगा?
AI द्वारा दिए गए links को भी खुद click करके यह ज़रूर देखना चाहिए कि वे सच में सही content समझा रहे हैं या नहीं
मुझे हैरानी होती है कि LLM evangelists क्या समझते हैं कि जब वे ऐसे tools की कमजोर performance को तुरंत rationalize कर देते हैं, तो users कितने निराश होते हैं। यह तकनीकी सीमा से ज़्यादा किसी “आस्था” जैसी चीज़ लगती है। जैसे “capability” खुद ही कोई बहुत ज़्यादा मांग हो गई हो
मुझे लगता है कि ऐसे evangelists में से काफ़ी लोग आखिरकार वे startup founders होंगे जो AI से बने prototypes दिखाते रहेंगे और hype ठंडी पड़ते ही ढह जाएंगे (या ऐसे developers जो किसी leader के पीछे-पीछे चलकर खुद को smart महसूस करते हैं)। tech industry में “fake-it-till-you-make-it” culture बहुत ज़्यादा फैल गया है, और यह निराशाजनक है
मेरा मानना है कि हम पहले से ही ‘post-truth’ society में रह रहे हैं, जहां कोई बात सच है या नहीं यह मायने नहीं रखता; मायने सिर्फ़ यह रखता है कि उसे कहने से खुद की या जिस चीज़ को आप push कर रहे हैं उसकी ताकत बढ़ती है या नहीं
जो लोग इस circular Ponzi structure में invest कर चुके हैं, वे LLM failures का अंधाधुंध बचाव करेंगे। वे token distribution जैसी बेमतलब चीज़ को ‘machine cognition’ मानने के भ्रम पर यकीन करना चाहते हैं, या फिर यह तर्क देते हैं कि भले perfect न हो, ज़्यादातर काम का तो है। इसी तरह के भ्रम का इस्तेमाल सामूहिक रूप से trillion-dollar valuations को जायज़ ठहराने में होता है
क्या यह सिर्फ़ LLM की समस्या है? मुझे लगता है कि समाज में काफ़ी पहले से ही ‘capability’ का महत्व कम कर दिया गया है। जैसे पांचवीं कक्षा के स्तर का पढ़ना भी न जानने वाले छात्र को graduation certificate दे देना, या कमजोर English वाले स्थान पर call center outsourcing करना
मैं आंशिक रूप से सहमत हूं, लेकिन मुझे लगता है कि हाल की बहस बार-बार news media criticism या दूसरी दिशाओं में भटक जाती है। इस research result में भी कई संदिग्ध बातें हैं। यह paper नहीं बल्कि paid Ipsos study है, इसलिए baseline इतना कम क्यों है, यह समझ नहीं आता। कम-से-कम यह तो होना चाहिए कि कौन-से models इस्तेमाल हुए, search R@k value क्या थी, BLEU/ROUGE जैसे summary accuracy metrics क्या थे, और human evaluation metrics क्या थे। अगर यह सब भी नहीं है, तो मेरे हिसाब से यह न इस field के अंदर किसी काम की है, न बाहर
PDF के page 10 से ठोस गलती के examples दिए गए हैं: BBC official report
उदाहरण: ChatGPT ने “European Union Enlargement Goals for 2040” नाम के एक non-existent Wikipedia article को cite किया। EU में उस नाम की कोई policy नहीं है। इसने सिर्फ़ नकली URL ही नहीं, बल्कि EU goals और policy तक गढ़ दिए
यह हमेशा याद रखना चाहिए कि अगर आप meetings, emails या communication का summary बनाना LLM को सौंपते हैं, तो हो सकता है कि उस व्यक्ति तक असली message पहुंचे ही नहीं
यह बात डरावनी लगती है। हम सिर्फ़ सोचने का काम delegate नहीं कर रहे, बल्कि उस एकमात्र tool को भी खुद खराब कर रहे हैं जो इसका विकल्प बन सकता था। मेरा भी कुछ ऐसा ही अनुभव है; एक बार मैं AI से ऐसे document edit history का सार निकलवाने पर विचार कर रहा था जिसकी provenance साफ़ नहीं थी, लेकिन समय न होने से छोड़ दिया। अगर करवाया होता तो शायद बहुत convincing history मिलती, लेकिन असल में क्या बदलाव हुए यह जानने की बजाय मैं उलटा distorted version मान बैठता। यानी सिर्फ़ knowledge की कमी नहीं, बल्कि उसके उलट गलत knowledge, anti-knowledge, मिलती
अगर यह सच है तो यह अहम warning है, लेकिन मेरा अनुभव अलग रहा है। मैं रोज़ sales meetings करता हूं और अलग-अलग AI summary tools से meeting notes लेता हूं। CRM में saved summaries को खुद check करने पर वे लगभग हमेशा बहुत accurate रही हैं। मैं खुद meeting में मौजूद था, इसलिए verify कर सकता था
हम कई महीनों से meetings में MS Copilot इस्तेमाल कर रहे हैं, और यह बहुत अच्छी तरह summarize करता है कि किसने क्या कहा और किसे कौन-सा काम मिला। यह बेहद useful है, और मेरे अनुभव में इसकी clarity भी अच्छी रही है
मुझे Kagi News काफ़ी accurate लगता है। यह original source और key details के साथ summary देता है। AI summary यह तय करने में मदद करती है कि article पूरा पढ़ना है या नहीं। फिर भी महत्वपूर्ण facts मैं खुद दोबारा verify करता हूं
fact-checking आखिर कितनी दूर तक की जा सकती है, यह भी सवाल है। summary सही है या नहीं यह जानने के लिए क्या आपको खुद मौके पर जाकर reporting करनी होगी, या हर field की papers और references तक पढ़ने होंगे? आखिर कहीं न कहीं trust तो अनिवार्य रूप से शामिल रहेगा ही
मैंने भी इसी तरह का project किया है और अनुभव से कह सकता हूं कि RSS articles summarize करने में काफ़ी अच्छे results मिले। खासकर जब “reasoning” वाले models इस्तेमाल किए जाएं, तो output बहुत बेहतर होता है
Kagi News कई news articles को context में डालकर summary बनाता है। यह original post में बताए गए “LLM से web search द्वारा news दिलाने” वाले setup से अलग structure है
ऐसी एक service भी है: rawdiary.com
Kagi News से मैं सहमत हूं, और Particle News भी अच्छा लगा। हालांकि Particle News को The Atlantic से funding मिली थी और उसने उस media outlet के articles को “Featured Article” slot दिया, लेकिन इस तरह के मामलों में भले bias दिखाने वाले graphics हों, वे Featured Article पर लागू नहीं होते। बाकी investors के साथ भी शायद ऐसा ही हो, लेकिन Atlantic वाला promotion अपेक्षाकृत हाल का मामला है
रिपोर्ट के मुताबिक सिर्फ़ ChatGPT, Copilot, Perplexity और Gemini के free/consumer versions का इस्तेमाल किया गया था। Copilot ChatGPT model इस्तेमाल करता है, और इसका मतलब है कि Grok जैसे बाकी tools को test में शामिल ही नहीं किया गया
मैं DeepSeek V3 को automated crypto news analysis में इस्तेमाल कर रहा हूं, और सबसे हालिया accuracy report में मुझे 98.5% का score मिला है। इसलिए इस लेख का नतीजा थोड़ा चौंकाने वाला लगा
मेरी accuracy report
लेख में शामिल आधे सवाल politically sensitive issues से जुड़े हैं। यह दिलचस्प है, लेकिन अगर यह देखना है कि AI कम उत्तेजक, सामान्य news पर कैसा perform करता है, तो अधिक general-purpose questions की भी ज़रूरत है। कुछ सवाल ऐसे हैं जिनके लिए तेज़ जवाब के बजाय deeper research mode ज़्यादा उपयुक्त होगा। असली news में भी अक्सर answers को लेकर ढेरों राय मौजूद होती हैं