ICLR 2026 सबमिशन पेपर्स में 50 से अधिक hallucination मामलों का पता चला

(gptzero.me)

3 पॉइंट द्वारा GN⁺ 2025-12-08 | 4 टिप्पणियां | WhatsApp पर शेयर करें

GPTZero ने ICLR 2026 के सबमिशन पेपर्स में 50 से अधिक उद्धरण त्रुटियाँ और फर्जी लेखक जानकारी खोजी
प्रत्येक पेपर की वास्तविक मौजूदगी और उद्धरण मिलान की OpenReview लिंक के साथ जाँच की गई
कई मामलों में गैर-मौजूद लेखक, गलत वर्ष और अलग शोध-पत्र शीर्षक पाए गए
कुछ पेपर वास्तविक शोध-पत्र से आंशिक रूप से मेल खाते हैं, लेकिन विस्तृत मेटाडेटा विकृत पाया गया
यह दिखाने वाला उदाहरण कि अकादमिक सबमिशन में भी AI जनरेटेड hallucination समस्या फैल रही है

GPTZero के ICLR 2026 hallucination डिटेक्शन परिणाम

GPTZero ने ICLR 2026 सबमिशन पेपर्स पर उद्धरण और लेखक जानकारी का स्वचालित सत्यापन किया
- प्रत्येक पेपर के साथ OpenReview लिंक, GPTZero सत्यापन लिंक और उद्धरण जानकारी दी गई
- सत्यापन परिणाम में 50 से अधिक मामलों में गलत उद्धरण या गैर-मौजूद लेखक पाए गए

प्रतिनिधि hallucination उदाहरण

TamperTok पेपर वास्तविक है, लेकिन सभी लेखक जानकारी गलत है
MixtureVitae पेपर में पहले तीन लेखक मेल खाते हैं, जबकि बाकी सात मौजूद नहीं हैं
OrtSAE, Principled Policy Optimization, IMPQ आदि में वास्तविक पेपरों के शीर्षक या लेखक मेल नहीं खाते
PDMBench में समान पेपर मौजूद है, लेकिन वर्ष और शीर्षक अलग हैं
C3-OWD, GRF-LLM आदि को आंशिक मिलान के रूप में वर्गीकृत किया गया

पूर्णतः असंगत केस

Catch-Only-One, TopoMHC, ThinkGeo, Reflexion, LOSI आदि में उद्धृत पेपर मौजूद नहीं है
SAFE-LLM, Typed Chain-of-Thought, MANTA आदि में समान पेपर है, लेकिन मेटाडेटा मेल नहीं खाता
AI-Assisted Medical Triage Assistant, QUART, KARMA आदि में पूरी तरह असंबंधित पेपर के उद्धरण हैं

सत्यापन पद्धति और परिणाम प्रकार

GPTZero प्रत्येक उद्धरण को वास्तविक डेटाबेस (उदा. arXiv, NeurIPS, ICLR, ACL आदि) से तुलना करता है
- परिणामों को “वास्तविक”, “आंशिक मिलान”, “असंगत”, “फर्जी लेखक” आदि में वर्गीकृत किया जाता है
- कुछ प्रविष्टियों को वास्तविक पेपर मौजूद होने के बावजूद लेखक, वर्ष और शीर्षक सभी अलग के रूप में दिखाया गया

महत्व और निहितार्थ

ICLR 2026 सबमिशन सामग्री में कई मामलों में AI जनरेटेड टेक्स्ट hallucination समस्या सीधे मौजूद है
शैक्षणिक शोध-पत्र लेखन प्रक्रिया में भी फैक्ट-चेक ऑटोमेशन टूल की जरूरत स्पष्ट हुई
GPTZero के खोज परिणाम AI जनरेटेड कंटेंट की विश्वसनीयता सत्यापन प्रणाली मजबूत करने की जरूरत को रेखांकित करते हैं

4 टिप्पणियां

shakespeares 2025-12-09

क्या बार-बार लगभग समान ज्ञान-स्तर वाले AI में आगे और विकास की बहुत गुंजाइश है?
अगर ऐसा नहीं है, तो लगता है कि दुनिया बस एक जैसे क्लोन इंसानों की क्लोन-लिखी सामग्री से भर जाएगी, और उसके बीच असली रत्नों को छाँटना और भी मुश्किल हो जाएगा.

GN⁺ 2025-12-08

Hacker News राय

मुझे लगता है कि यह साफ़ तौर पर पेशेवर नैतिकता का उल्लंघन है
अगर मेरे किसी शोधकर्ता ने ऐसा किया होता, तो उसकी नौकरी जाने का ख़तरा होता
एक reviewer के रूप में जब लेखक को झूठ बोलते देखता हूँ, तो पूरे paper पर भरोसा नहीं किया जा सकता, और नैतिक रूप से उसे तुरंत reject करना सही है
गलतियाँ आम हैं, लेकिन यह बिल्कुल अलग स्तर की समस्या है
- यह सांस्कृतिक अंतर का मामला भी लगता है
  पश्चिमी देशों में व्यक्तिगत ईमानदारी को अकादमिक जगत के पूरे भरोसे की नींव माना जाता है, लेकिन मध्य पूर्व, भारत और चीन में ऐसे व्यवहार की ज़िम्मेदारी journal पर डालने की प्रवृत्ति होती है
  इन अंतरों को न समझने पर collaboration बहुत भ्रमित करने वाला हो जाता है
मेरे अनुभव में papers की गुणवत्ता गिराने वाली मुख्य समस्या गलत citation है
citation का न होना जितना बड़ा मुद्दा नहीं, उससे कहीं ज़्यादा आम यह है कि cited material वास्तव में वह बात कहता ही नहीं, या उसका context तोड़-मरोड़ दिया जाता है
ऐसी गलतियाँ पकड़ने के लिए मूल पाठ को पढ़ना और समझना पड़ता है, इसलिए बहुत समय लगता है
यह सिर्फ़ साधारण गलती नहीं, बल्कि ज्ञान का क्षरण पैदा करता है, इसलिए ‘3 चेतावनी के बाद निष्कासन’ जैसी सज़ा होनी चाहिए
- यह verification शायद वह क्षेत्र है जहाँ LLM अच्छा काम कर सकता है
  paper के दावों और citation सूची की तुलना करके यह अपने-आप जाँचा जा सकता है कि वे सच में supporting evidence हैं या नहीं
- लेकिन कुछ शोधकर्ता funding देने वालों (Exxon, Meta, Pfizer आदि) को पसंद आने वाले नतीजे देने के लिए जानबूझकर विकृति करते हैं
  ऐसे मामलों में यह सिर्फ़ लापरवाही नहीं, बल्कि हितों के टकराव से प्रेरित हेरफेर है
- नकली citation तो सिर्फ़ हिमशैल का सिरा है; citation का दुरुपयोग उससे भी पुरानी और ज़्यादा गंभीर समस्या है
AI समस्या नहीं है, बल्कि आलस्य और लापरवाही समस्या है, ऐसा मुझे लगता है
अगर कोई वैज्ञानिक LLM की मदद से झूठे citation वाला paper लिखता है, तो वह खराब वैज्ञानिक है
अगर ऐसे व्यवहार पर सामाजिक दंड न हो, तो अंततः इसे अनदेखा किया जाने लगेगा
- मैं industrial electrician हूँ, और खराब electrical work को अक्सर सिर्फ़ विशेषज्ञ ही पहचान सकते हैं
  तकनीकी verification के लिए अनुभवी inspector चाहिए
- लेकिन “AI समस्या नहीं है” वाली बात बंदूक बहस के “समस्या बंदूक नहीं, इंसान है” जैसे बचाव-तर्क की तरह लगती है
  आख़िरकार मुझे लगता है कि AI ख़ुद समस्या है
- बढ़ई वाली उपमा आगे बढ़ाएँ तो, LLM से बनी shelf ऊपर से ठीक दिखती है, लेकिन संरचनात्मक रूप से कमज़ोर होती है
  उसका अच्छा दिखना ही उल्टा समस्या को छिपा देता है
- मैं भी Gemini Pro से papers खोजता हूँ, लेकिन citation अब भी बेतरतीब रहते हैं
  फिर भी पिछले एक साल में hallucination कम हुए हैं, और verified papers तक सीमित करने पर यह काफ़ी उपयोगी हो सकता है
  लेकिन अगर शोधकर्ताओं को ऐसे tools पर निर्भर होने से रोकना है, तो लगातार funding competition की संरचना पहले बदलनी होगी
- Bruce Schneier के शब्दों में, कोई भी ऐसा algorithm बना सकता है जिसे वह ख़ुद verify नहीं कर सकता
  LLM भी वैसे ही उपयोगकर्ता को वही जवाब लौटा देता है जो वह सुनना चाहता था, और confirmation bias को मज़बूत करता है
  मुझे नहीं लगता कि वैज्ञानिक अनुसंधान में LLM का सुरक्षित उपयोग करने का कोई तरीका है
जब papers को वास्तव में पढ़ते हैं, तो कई बार साफ़ लगता है कि सिर्फ़ लेखन ही AI से नहीं हुआ, बल्कि विचार भी AI-जनित हैं
ऊपर-ऊपर से वे विश्वसनीय लगते हैं, लेकिन भीतर से बेतुके होते हैं
अगर कोई असली शोधकर्ता सिर्फ़ एक साधारण .bib गलती की वजह से ऐसी सूची में आ गया हो, तो यह दुर्भाग्यपूर्ण है
Avi Loeb (Harvard के सैद्धांतिक भौतिकविद) ने कहा कि छात्रों द्वारा अस्तित्वहीन papers को cite करने के मामले तेज़ी से बढ़ रहे हैं
वे LLM द्वारा गढ़ी गई बातों पर सीधे भरोसा कर लेते हैं और जाँच भी नहीं करते
संबंधित लेख: How AI is making us dumber
- हालाँकि Loeb UFO दावों के लिए भी जाने जाते हैं, इसलिए उनकी विश्वसनीयता पर बहस है
- कुछ लोग उन्हें अविश्वसनीय व्यक्ति मानते हैं
- मुझे लगता है कि यह घटना नेतृत्व की ज़िम्मेदारी से बचने वाली संस्कृति से पैदा होती है
  ऊपर वाले लोग ख़राब उदाहरण पेश करें और फिर नीचे वालों को डाँटें, तो वह बुरी शिक्षा है
मैं जानना चाहूँगा कि क्या इस शोध ने सभी गलत citations को LLM hallucination मान लिया है
क्या LLM से पहले के papers में भी ऐसी गलतियाँ थीं, इसका baseline analysis ज़रूरी है
- paper में ‘Defining Hallucitations’ section है, जहाँ झूठे citation की परिभाषा और false positive की समस्या समझाई गई है
  यह जानना रोचक होगा कि अगर यही tool 2010s के papers पर लगाया जाए तो क्या नतीजे आएँगे
- मेरे graduate school के समय मेरी .bib file में भी एक छोटी गलती थी
  ज़्यादातर journals DOI के आधार पर citation verify करते हैं, इसलिए पुराने papers का भी comparative analysis होना चाहिए
- वास्तव में सार्वजनिक papers को देखें तो AI-जनित निशान काफ़ी स्पष्ट हैं
  सिर्फ़ topic दे देने पर भी LLM वैसे ही मिलते-जुलते papers बना सकता है
- सच कहें तो LLM से पहले भी लोग गलतियाँ करते थे, और किताबों व papers में त्रुटियाँ भरी रहती थीं
  वजह इंसानी अपूर्ण ज्ञान-प्रणाली है, सिर्फ़ LLM नहीं
- संक्षेप में कहें तो, उनका tool यही verification कर रहा है
peer review का उद्देश्य सिर्फ़ त्रुटि पकड़ना नहीं, बल्कि नवीनता और परिपक्वता का आकलन भी है
इसलिए लापरवाही रोकने के लिए incentive चाहिए
उदाहरण के लिए, publisher इनाम प्रणाली बना सकते हैं, जिसमें गंभीर लापरवाही पकड़ने वाले को पुरस्कार मिले, या
बार-बार लापरवाह शोधकर्ताओं को सार्वजनिक रूप से दिखाने के लिए Wall of Shame चलाया जा सकता है
- या paper submit करते समय automatic citation check चलाकर एक-दो दिन में गलतियाँ बता देने वाला system लाया जा सकता है
मैं 15 साल से Zotero जैसे citation management tools इस्तेमाल कर रहा हूँ, फिर भी इतने सारे citations में author name गलत होना चौंकाने वाला है
अगर .bib file जमा करना अनिवार्य हो, तो DOI verification से बुनियादी quality control संभव होना चाहिए
यह और भी हैरान करने वाली बात है कि ऐसी बुनियादी जाँच भी नहीं हो रही
- लेकिन Zotero भी पूर्ण नहीं है
  कभी-कभी लेखक ख़ुद अपने paper को गलत cite कर देते हैं, और DOI सही होने पर भी author name typo आम है
  tools की वजह से citations की संख्या बढ़ी है और error rate कम हुआ है, लेकिन फिर भी हर paper में कम-से-कम एक गलती रह जाती है
20,000 submissions में से सिर्फ़ 300 की जाँच की गई, और उनमें ही सैकड़ों hallucinated papers मिल गए, तो असली पैमाना इससे कहीं बड़ा होगा
- एक ही conference में 20,000 submissions होना अपने-आप में ही असामान्य पैमाना है
LLM की hallucination उसकी design की गई विशेषता है
सांख्यिकीय रूप से plausible output बनाने की प्रक्रिया में नकली citation स्वाभाविक रूप से पैदा हो जाते हैं
लेकिन मशीन से असली citation बनवाना तकनीकी रूप से संभव है
बस मौजूदा LLM वह नहीं कर रहे जो हमने उनसे माँगा था—‘सटीक citation generation’—बल्कि वे सिर्फ़ दिखने में मिलते-जुलते नतीजे दे रहे हैं

dbs0829 2025-12-08

मैं लंबे समय से सोच रहा हूँ कि LLM कहीं मानवता की प्रगति को उल्टा बाधित न करने लगें, और उसी संदर्भ में वह समस्या अब सामने आती दिख रही है जिसके बारे में मैं सोचता था। Cognitive load को कम करना इंसानों के लिए किसी नशे जैसा लगता है। मैं भी research करता हूँ, लेकिन हमारी टीम के भीतर भी यह चिंता रहती है कि LLM models का जितना अधिक इस्तेमाल करते हैं, उतनी ही बिना सोचे काम करने की आदत बनती जाती है। शायद यह समस्या आगे भी लगातार और गहरी होती जाएगी। submissions की मात्रा इतनी बढ़ जाती है कि उसे peer review से संभालना मुश्किल हो जाता है, इसलिए कोई दूसरा तरीका ढूँढना पड़ेगा। हाल में ऐसा लग रहा है कि मशहूर conferences में paper submissions की संख्या बहुत बढ़ रही है, और मुझे लगता है कि शायद इसकी वजह भी कुछ ऐसी ही है।