वास्तविक fact-checking में frontier LLMs के बीच असहमति

(lenz.io)

1 पॉइंट द्वारा GN⁺ 2026-05-29 | 1 टिप्पणियां | WhatsApp पर शेयर करें

5 frontier LLMs में वास्तविक उपयोगकर्ताओं द्वारा जमा किए गए 1,000 claims में से 67% मामलों में फैसले अलग-अलग रहे, और सभी 5 के पूरी तरह सहमत होने के मामले 33% थे
बहुमत का फैसला सही label नहीं है, बल्कि असहमति मापने का मानदंड है; 67% गैर-सर्वसम्मत मामलों में कम-से-कम 1 मॉडल का गलत होना तय है
4-स्तरीय rubric में 2 या उससे अधिक स्तर का अंतर रखने वाली सार्थक असहमति 34% थी, और True बनाम False जैसी चरम विभाजन की दर 21% रही
मॉडल जोड़ों के बीच label agreement 53~75% था, और एक ही base model वाले Gemini 3 Pro और उसके Search version का agreement सबसे अधिक था
डेटा Lenz के हाल के वास्तविक claims से लिया गया था, और इसे सही labels या LLM grader के बिना मापा गया, जिससे accuracy से अधिक निर्णय संरचना की अस्थिरता सामने आती है

वास्तविक claims में फैसले कितनी बार बंटे

विश्लेषण किए गए 1,000 claims में से 672, यानी 67% (95% CI 64–70%) में 5 frontier models के फैसले एक जैसे नहीं थे
- जिन claims पर सभी 5 models ने एक ही फैसला दिया, वे 328, यानी 33% (95% CI 30–36%) थे
- जिन claims में सिर्फ 1 model का फैसला अलग था, वे 224, यानी 22% (95% CI 20–25%) थे
- जिन claims में 2 models के फैसले अलग थे, वे 316, यानी 32% (95% CI 29–35%) थे
- 2-2-1 या 2-1-1-1 जैसी ऐसी विभाजित स्थिति, जहाँ सख्त बहुमत नहीं बन पाया, 132, यानी 13% (95% CI 11–15%) थी
- जिन मामलों में कम-से-कम 2 models के फैसले अलग थे, वे 448, यानी 45% (95% CI 42–48%) थे
बहुमत का फैसला accuracy का proxy नहीं, बल्कि असहमति गिनने के लिए एक संरचनात्मक मानदंड है
- बहुमत का फैसला गलत हो सकता है, और अल्पमत वाला model सही हो सकता है
- अगर 4 निर्णय buckets में से केवल एक को सही माना जाए, तो 67% गैर-सर्वसम्मत claims में कम-से-कम 1 model गलत है
- 3-2, 3-1-1, और बिना बहुमत वाली विभाजित स्थितियों सहित 45% मामलों में कम-से-कम 2 models गलत हैं
- जिन 13% मामलों में बहुमत नहीं था, उनमें कोई भी bucket 3 वोट तक नहीं पहुँचा, इसलिए कम-से-कम 3 models गलत हैं
- जिन 33% मामलों में सभी 5 models सहमत थे, उनमें भी साझा blind spots हो सकते हैं
panel agreement Krippendorff’s α(ordinal)=0.639 था
- model फैसले random के करीब नहीं थे, लेकिन इतने consistent भी नहीं थे कि 5 models को एक-दूसरे के बदले इस्तेमाल होने वाले निर्णायक माना जा सके
- चूँकि True / Mostly True / Misleading / False क्रमबद्ध categories हैं, इसलिए ordinal α का उपयोग किया गया

nuance का अंतर और सार्थक असहमति

1,000 claims में से 343, यानी 34% (95% CI 31–37%) में कम-से-कम दो models के फैसलों में 4-स्तरीय rubric पर 2 या अधिक स्तर का अंतर था
- True और Mostly True के बीच का अंतर भरोसे के fine-tuning जैसा nuance difference माना गया
- True और False के बीच का अंतर उत्तर के स्तर पर वास्तविक असहमति माना गया
मापन 5 फैसलों के maximum pairwise bucket distance से किया गया
- निर्णय क्रम True (0) → Mostly True (1) → Misleading (2) → False (3) था
- distance 0 वाले मामले 328, यानी 33% (95% CI 30–36%) थे, जहाँ सभी 5 models ने एक ही bucket चुना
- distance 1 वाले मामले 329, यानी 33% (95% CI 30–36%) थे, जो True ↔ Mostly True जैसे nuance differences को दिखाते हैं
- distance 2 वाले मामले 132, यानी 13% (95% CI 11–15%) थे, जो True ↔ Misleading या Mostly True ↔ False जैसी सार्थक असहमति को दिखाते हैं
- distance 3 वाले मामले 211, यानी 21% (95% CI 19–24%) थे, जो True ↔ False जैसी चरम विभाजन स्थिति थी
bucket distance गलती के आकार का सटीक माप नहीं, बल्कि एक मोटा संकेतक है
- इसमें True / Mostly True / Misleading / False को समान अंतर वाली ordinal scale मानने जैसा सरलीकरण शामिल है
- 2 स्तर का अंतर rubric की अस्पष्टता, समय-आधारित मानदंडों के अंतर, या “Misleading” की अलग व्याख्या से भी पैदा हो सकता है

models के बीच agreement rate

5 model जोड़ों के label agreement की range 53%~75% थी
- सबसे अधिक agreement Gemini 3 Pro × Gemini 3 Pro + Search का 75% (95% CI 72–77%) था, और दोनों models एक ही base model साझा करते हैं
- सबसे कम agreement 53% (95% CI 50–56%) था, जो 3 जोड़ों में देखा गया
मुख्य pairwise agreement rates
- GPT-5.4 × Claude Opus 4.7: 65%(95% CI 62–68%)
- GPT-5.4 × Gemini 3 Pro: 65%(95% CI 62–68%)
- GPT-5.4 × Gemini 3 Pro + Search: 60%(95% CI 57–63%)
- GPT-5.4 × Sonar Pro: 60%(95% CI 57–63%)
- Claude Opus 4.7 × Gemini 3 Pro: 53%(95% CI 50–56%)
- Claude Opus 4.7 × Gemini 3 Pro + Search: 53%(95% CI 50–56%)
- Claude Opus 4.7 × Sonar Pro: 58%(95% CI 55–61%)
- Gemini 3 Pro × Sonar Pro: 53%(95% CI 50–56%)
- Gemini 3 Pro + Search × Sonar Pro: 58%(95% CI 55–61%)

model-वार निर्णय रुझान

निर्णय वितरण
- हर model में True/False ध्रुवों की ओर झुकाव और Mostly True/Misleading जैसे मध्य buckets के उपयोग में अंतर था
- सही labels न होने की वजह से model की पूर्व-प्रवृत्ति और claim की विशेषताओं के प्रभाव को अलग नहीं किया जा सकता
- GPT-5.4: True 42%(95% CI 39–45%), Mostly True 16%(14–19%), Misleading 12%(10–14%), False 30%(28–33%)
- Claude Opus 4.7: True 38%(35–41%), Mostly True 26%(23–29%), Misleading 19%(17–22%), False 17%(15–20%)
- Gemini 3 Pro: True 54%(51–57%), Mostly True 3%(2–4%), Misleading 3%(2–4%), False 40%(37–43%)
- Gemini 3 Pro + Search: True 52%(49–55%), Mostly True 4%(3–5%), Misleading 9%(7–11%), False 35%(32–38%)
- Sonar Pro: True 35%(32–38%), Mostly True 23%(21–26%), Misleading 16%(14–18%), False 26%(23–28%)
बाकी panel के बहुमत के साथ agreement
- प्रत्येक model ने बाकी 4 models में से 3 या अधिक द्वारा बनाए गए सख्त बहुमत के साथ 69%~81% मामलों में वही फैसला दिया
- यह मान इस corpus में peer alignment दिखाता है, accuracy नहीं
- गणना में केवल वे claims शामिल थे, जहाँ बाकी 4 models ने 3/4 या उससे अधिक का बहुमत बनाया; इसलिए model-वार eligible n अलग है
- GPT-5.4: 81%(95% CI 78–84%), eligible n=650, ineligible=350
- Claude Opus 4.7: 70%(95% CI 67–74%), eligible n=691, ineligible=309
- Gemini 3 Pro: 77%(95% CI 74–80%), eligible n=683, ineligible=317
- Gemini 3 Pro + Search: 76%(95% CI 73–79%), eligible n=693, ineligible=307
- Sonar Pro: 69%(95% CI 66–73%), eligible n=675, ineligible=325

क्षेत्रवार असहमति

क्षेत्रवार denominator उस क्षेत्र में दावों की संख्या है, और अधिकांश क्षेत्रों में असहमति दर आधे से काफी अधिक थी
- Finance: 75, मनमानी असहमति 67%(95% CI 55–76%), सार्थक असहमति 39%(28–50%), कोई बहुमत नहीं 20%(13–30%)
- General: 179, मनमानी असहमति 68%(60–74%), सार्थक असहमति 40%(33–48%), कोई बहुमत नहीं 12%(8–17%)
- Health: 171, मनमानी असहमति 71%(64–78%), सार्थक असहमति 29%(23–36%), कोई बहुमत नहीं 12%(8–17%)
- History: 131, मनमानी असहमति 53%(44–61%), सार्थक असहमति 24%(17–32%), कोई बहुमत नहीं 13%(8–20%)
- Legal: 48, मनमानी असहमति 77%(63–87%), सार्थक असहमति 40%(27–54%), कोई बहुमत नहीं 19%(10–32%)
- Politics: 168, मनमानी असहमति 70%(62–76%), सार्थक असहमति 38%(31–46%), कोई बहुमत नहीं 8%(5–13%)
- Science: 151, मनमानी असहमति 68%(60–75%), सार्थक असहमति 36%(29–44%), कोई बहुमत नहीं 21%(15–28%)
- Tech: 77, मनमानी असहमति 69%(58–78%), सार्थक असहमति 31%(22–42%), कोई बहुमत नहीं 8%(4–16%)
क्षेत्र विभाजन Lenz के ट्रैफ़िक पैटर्न को दर्शाता है, और यह सभी fact-check योग्य दावों का समान रूप से निकाला गया sample नहीं है

निर्णय bucket के अनुसार सहमति

जब पैनल मध्य bucket तक पहुँचा, तब लगभग कोई convergence नहीं था
- Mostly True और Misleading के बहुमत निर्णयों में सर्वसम्मति अधिकतम क्रमशः 5% तक ही रही
- True और False बहुमत निर्णयों की सर्वसम्मति दर क्रमशः 47% और 43% थी
आधार वे दावे हैं जिनमें सख्त 3/5 या उससे अधिक बहुमत ने वह निर्णय दिया
- True: eligible n=438, सर्वसम्मति 47%(95% CI 42–51%), 3~4 वोट बहुमत 53%(49–58%)
- Mostly True: eligible n=76, सर्वसम्मति 0%(95% CI 0–5%), 3~4 वोट बहुमत 100%(95% CI 95–100%)
- Misleading: eligible n=74, सर्वसम्मति 5%(95% CI 2–13%), 3~4 वोट बहुमत 95%(87–98%)
- False: eligible n=280, सर्वसम्मति 43%(95% CI 37–49%), 3~4 वोट बहुमत 57%(51–63%)
वे 328 दावे भी, जिनमें सभी 5 मॉडलों ने एक ही निर्णय दिया, दोनों ध्रुवों पर केंद्रित थे
- True: 204, सर्वसम्मति में 62%(95% CI 57–67%)
- Mostly True: 0, 0%(95% CI 0–1%)
- Misleading: 4, 1%(95% CI 0–3%)
- False: 120, 37%(95% CI 32–42%)
17,856 PolitiFact दावों पर single-family Llama-3 ablation study, Schwab et al. 2025 में भी संबंधित परिणाम मिले, जहाँ सूक्ष्म labels पर fact-check निर्णय मॉडलों की त्रुटियाँ केंद्रित होती हैं

डेटासेट और बहिष्करण मानदंड

विश्लेषण का लक्ष्य 1,000 दावे हैं
- Lenz fact-check प्लेटफ़ॉर्म पर जमा किए गए वास्तविक user requests में से वे सबसे हाल के दावे जो exclusion conditions पार करते थे
- सभी दावे 15 फ़रवरी 2026 के बाद बनाए गए थे
- Lenz का अपना निर्णय विश्लेषण में उपयोग नहीं किया गया, और विश्लेषण Lenz और frontier models की तुलना नहीं बल्कि frontier models के बीच असहमति को ही मापता है
atomic_claim फ़ील्ड user द्वारा डाला गया मूल पाठ नहीं, बल्कि Lenz के framing stage से गुजरकर व्यवस्थित किया गया एक तटस्थ और सत्यापन योग्य proposition है
- उदाहरण के लिए, “Canadian authorities are throwing Christians in jail for quoting the Bible!!!” इनपुट को “As of April 4, 2026, Canadian authorities have jailed individuals for publicly quoting the Bible because of their Christian beliefs.” proposition में बदला जाता है
बहिष्कृत दावे
- वे दावे जिन्हें submitter ने private के रूप में चिह्नित किया हो
- प्लेटफ़ॉर्म कर्मचारियों, internal accounts, agents/API submissions के दावे
- जिन दावों की editing state pending या hidden हो
- गैर-सार्वजनिक व्यक्तियों के बारे में personal information शामिल होने के कारण Lenz के PII screening stage में auto-flag किए गए दावे
- OpenAI text-embedding-3-small 1536-dimensional embeddings में atomic_claim के बीच cosine distance 0.2 के भीतर आने वाले near-duplicate दावे
- वे दावे जिनमें 5 मॉडलों में से कोई एक भी एक बार retry के बाद parseable निर्णय देने में विफल रहा
- संग्रह के समय से 180 दिनों से अधिक पुराने दावे
near-duplicate मामलों में, समय-निर्भर propositions के लिए अधिक नया दावा लिया गया, और अन्य मामलों में Lenz पर सबसे अधिक views वाला मौजूदा दावा representative row बनाया गया

कार्यप्रणाली

मॉडल और prompt
- Parametric models: GPT-5.4(OpenAI), Claude Opus 4.7(Anthropic), Gemini 3 Pro(Google)
- Search-augmented models: Gemini 3 Pro + Search(Google), Sonar Pro(Perplexity)
- प्रत्येक दावे को उसके submit date के अनुरूप “as of YYYY-MM-DD” reference date के साथ प्रस्तुत किया गया
- मॉडल को True, Mostly True, Misleading, False में से एक को अनिवार्य रूप से चुनना था

Classify this claim as of <date>: "<atomic claim>"

Output exactly one label: True, Mostly True, Misleading, or False.
No explanations, no qualifiers.

Abstain विकल्प नहीं दिया गया, और forced choice से मॉडलों के बीच तुलना को symmetric रखा गया
कॉल सेटिंग्स और scoring
- सभी मॉडलों को वही system placeholder . और वही user prompt template usr_v2 दिया गया
- structured output schema, tool-calling schema, seed, top-p, logit-bias controls का उपयोग नहीं किया गया
- जहाँ समर्थित था, deterministic decoding के लिए temperature=0.0 उपयोग किया गया
- GPT-5.4 और Claude Opus 4.7 में provider adapters ने custom temperature setting अस्वीकार की, इसलिए इन्हें explicit temperature के बिना कॉल किया गया
- GPT-5.4, Claude Opus 4.7, Sonar Pro के लिए output length 16 tokens तक सीमित थी; Gemini 3 Pro और Gemini 3 Pro + Search के लिए 1024-token limit उपयोग हुई
- Gemini 3 Pro + Search में Google Search grounding चालू था, और Sonar Pro को Perplexity की search-backed API के माध्यम से search-augmented model माना गया
- normalization के बाद output तभी parseable माना गया जब वह चार labels में से ठीक एक से मेल खाता हो
- LLM judge और reference ground-truth labels का उपयोग नहीं किया गया; सभी माप 5 मॉडलों के सीधे parse किए गए labels की समानता से आए
सांख्यिकीय प्रसंस्करण
- corpus एक ही fact-check प्लेटफ़ॉर्म पर जमा हुए सबसे हाल के 1,000 eligible दावों का है; यह किसी व्यापक population का probability sample नहीं है
- Wilson 95% confidence intervals, उसी screening rules का पालन करने वाले समान eligible submission flow में प्रत्येक दावे के स्वतंत्र रूप से चुने जाने वाले मॉडल के तहत nominal binomial intervals हैं
- Lenz दावे समाचार घटनाओं के आसपास cluster होकर जमा होते हैं, और एक ही user एक session में संबंधित कई दावे जमा कर सकता है, इसलिए वे independent and identically distributed नहीं हैं
- अधिक ईमानदार cluster model में वास्तविक sample variability Wilson intervals से अधिक हो सकती है
- मॉडलों के बीच significance testing नहीं की गई; pairwise agreement rates और Wilson 95% CI को descriptive statistics के रूप में रिपोर्ट किया गया

पुनरुत्पादनयोग्यता और सार्वजनिक आउटपुट

पूरा claim-स्तरीय डेटा CSV के रूप में उपलब्ध है
- हर पंक्ति में claim ID और URL, atomic claim टेक्स्ट, 5 frontier verdicts, अधिकतम pairwise bucket distance, domain, और creation date शामिल हैं
- अगर submitter बाद में claim हटा दे या उसे private कर दे, तो कुछ pages उपलब्ध नहीं रह सकते
PDF offline reading, citation, और arxiv-style preprint hosting के लिए browser-independent rendered संस्करण है
snapshot v1.0 है और data cutoff date 21 मई 2026 है
- archive URL https://lenz.io/research/llm-disagreement/v1.0 v1.0 snapshot को स्थायी रूप से उपलब्ध कराता है
- इससे citation stability बनी रहती है, भले ही सामान्य URL भविष्य के versions पर बदल जाए
स्थायी रिकॉर्ड और citation doi.org/10.5281/zenodo.20344847 पर उपलब्ध हैं

सीमाएँ

pigeonhole principle-आधारित error lower bound rubric disagreement का lower bound है, यह किसी खास claim पर किस model की factual गलती है, इसका फैसला नहीं है
- चार buckets में से केवल एक ही सही हो सकता है, इसलिए किसी भी disagreement का मतलब कम-से-कम एक inconsistent verdict है
- लेकिन यह पता नहीं चलता कि किस claim पर कौन-सा model गलत था
bucket distance की ordinal nature एक सरलीकरण है
- True / Mostly True / Misleading / False को समान-अंतर वाली ordinal scale के रूप में माना गया है
- 2-बकेट का अंतर rubric ambiguity, समय-आधारित अंतर, या “Misleading” की अलग व्याख्या से आ सकता है; इसका मतलब जरूरी नहीं कि factual error बड़ा ही हो
verdict ambiguity सिर्फ LLM की समस्या नहीं, बल्कि task की अपनी property भी है
- AVeriTeC 50 fact-checking organizations के आधार पर कई rounds की review से गुजरा 4,568 claims का corpus है, और verdicts पर annotator agreement κ=0.619 तक ही पहुँचता है
- frontier models के बीच कुछ disagreement ऐसे labels की प्रकृति को दर्शाते हैं जो किसी भी evaluator के लिए कठिन हैं
snapshot एक निश्चित तारीख और निश्चित model versions पर स्थिर है
- frontier LLMs non-deterministic हैं, इसलिए उसी model और prompt के साथ दोबारा चलाने पर भी numbers कुछ हद तक बदल सकते हैं
- नए models या अलग prompts के साथ rerun करने पर numbers और अधिक बदल सकते हैं
search-enabled models ने inference के समय sources देखे हो सकते हैं, लेकिन उन्होंने क्या search किया, इसे न नियंत्रित किया गया है और न audit किया गया है

पूर्व शोध और आगे की योजना

Yang & Wang (2026) दिखाते हैं कि शीर्ष frontier models कुल accuracy को match करने के बावजूद MMLU-Pro और GPQA items के 16~38% पर असहमत होते हैं
वास्तविक claim verification के लिए सख्त human-annotation benchmark के रूप में AVeriTeC प्रस्तुत किया गया है
बड़े fact-check corpus के रूप में single-family Llama-3 ablation setup के 17,856 PolitiFact claims उपलब्ध हैं
Lenz corpus पिछले 180 दिनों के वास्तविक user submissions से बना है, केवल lenz.io पर indexed है, और इसे कभी किसी सार्वजनिक training set में standard verdicts के साथ pair नहीं किया गया है
आगे के शोध में इसी पूरे corpus को humans द्वारा label किया जाएगा, और उन labels को ground truth मानकर 5 frontier models तथा Lenz के अपने verdict का मूल्यांकन किया जाएगा
लक्ष्य leaderboard बनाना नहीं, बल्कि यह विश्लेषण करना है कि frontier panel कहाँ human consensus से अलग होता है, Lenz कहाँ दोनों से अलग होता है, और कौन-सी categories disagreement को trigger करती हैं

नैतिकता और डेटा उपयोग

उपयोग किए गए fields सिर्फ सार्वजनिक claim fields atomic claim टेक्स्ट और creation date थे
- personal information का उपयोग नहीं किया गया
- private claims और employee claims को बाहर रखा गया
- frontier models को केवल claim टेक्स्ट और reference date दी गई; submitter की identity या analysis signals नहीं दिए गए
अगर submitter बाद में claim को private कर दे या हटा दे, तो वह claim snapshot और भविष्य के downloads से हटाया जा सकता है

frontier panel में बड़े मतभेद के उदाहरण

appendix उन 20 claims को प्रस्तुत करता है जिनमें highest bucket और lowest bucket के बीच का अंतर सबसे बड़ा था
- ये ऐसे substantive disagreement claims हैं जिनमें कम-से-कम एक model का verdict दूसरे models से 2 buckets या उससे अधिक दूर था
- इन्हें maximum pairwise bucket distance के descending order में रखा गया है, फिर no-majority cases को पहले tie-break किया गया है, और उसके बाद claim ID के stable hash के अनुसार क्रम दिया गया है
प्रतिनिधि distance 3 · no majority cases
- यह claim कि Muthiah Muralidaran ने कहा था कि Indian Premier League शुद्ध business है और low-scoring matches sponsors को उबाऊ लगते हैं, इसलिए flat pitches तैयार की जाती हैं: GPT-5.4 True, Claude Opus 4.7 Mostly True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro Misleading
- यह claim कि 2025 के अनुसार Nigeria में World Bank का active portfolio 16.4 अरब डॉलर से अधिक है: GPT-5.4 Mostly True, Claude Opus 4.7 True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro Misleading
- यह claim कि जो लोग कम positive emotional content वाले music को पसंद करते हैं, उनकी intelligence अधिक होने की प्रवृत्ति होती है: GPT-5.4 Misleading, Claude Opus 4.7 Mostly True, Gemini 3 Pro False, Gemini 3 Pro + Search True, Sonar Pro Misleading
- यह claim कि Kota, Rajasthan के hostels छात्र suicide prevention उपाय के रूप में आम तौर पर cage-type ceiling fans का उपयोग करते हैं: GPT-5.4 Mostly True, Claude Opus 4.7 True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro False
- यह claim कि 6 मई 2026 तक कई देशों के मुसलमान India के West Bengal के Hooghly district में इकट्ठा हुए थे: GPT-5.4 True, Claude Opus 4.7 Mostly True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro True

1 टिप्पणियां

GN⁺ 2026-05-29

Hacker News की राय

इस्तेमाल किया गया prompt यह था: Classify this claim as of : "" / Output exactly one label: True, Mostly True, Misleading, or False. No explanations, no qualifiers.
दावों की सूची https://lenz.io/research/llm-disagreement/data.csv पर है, और इसे आसानी से देखने के लिए Datasette Lite में डाला गया है। असहमति के उदाहरण https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwil... पर हैं
“सभी almonds अमेरिका के California राज्य में उगाए जाते हैं” यह दावा false है, लेकिन केवल Opus 4.7 ने “misleading” कहा। ऊपर से “mostly true” और “misleading” जैसे विकल्प दिए गए थे, और “कोई explanation नहीं” का नियम भी था, इसलिए इस बात की ताकत कम हो जाती है
एक बेहतर उदाहरण है: “अधूरा Egypt visa application, Egypt visa application के reject होने की सबसे आम वजहों में से एक है” — इस पर models “true” और “mostly true” में बंट गए, लेकिन “among the most” जैसी अभिव्यक्ति के हिसाब से दोनों का मतलब लगभग एक ही है
इससे भी ज़्यादा निर्णायक उदाहरण: “18 मई 2026 को Ukraine ने Russia के Moscow पर drone attack किया” — search tool के बिना इसका सही जवाब सिर्फ “verify नहीं किया जा सकता” हो सकता था, लेकिन ऐसा कोई विकल्प नहीं था, इसलिए जवाब true/false में बंट गए: https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwil...
- अगर हर evaluator को True / Mostly True / Misleading / False की definitions नहीं दी गई थीं, तो मैं लेख के इस दावे को ही false मानूंगा कि “हर claim के लिए सिर्फ एक ही सही category होती है”
  कुछ दावे एक साथ “misleading” भी हो सकते हैं और true या false भी। “ज़्यादातर false” जैसी स्थिति को किस category में रखा जाए, यह भी साफ नहीं है
  कितना गलत होने पर “mostly true” से “false” में जाना चाहिए, इसका भी कोई मानक नहीं है। आख़िर में यह facts की समझ से ज़्यादा इस बात की परीक्षा बन जाती है कि model mostly और misleading को कैसे define करता है, इसलिए यह कहना कि models facts पर बुनियादी तौर पर असहमत हैं, बढ़ा-चढ़ाकर कहना है
- एक और गंभीर गलती यह है कि model internal variance को मापने की कोशिश ही नहीं की गई
  जब आप सख्त evaluation को सचमुच लागू करते हैं, तो web search जैसे tool calls में infrastructure issues, temporary failures, और तरह-तरह की non-determinism सीधे शामिल हो जाती है
  search के बिना 3 models और search agents को अलग-अलग दिखाकर numbers देने चाहिए थे। knowledge cutoff के बाद के ताज़ा factual claims पर search के बिना models की उपयोगिता लगभग नहीं के बराबर है, और “पता नहीं” का विकल्प न होने से नतीजे लगभग पूरी तरह बेअसर हो जाते हैं। model को न पता होने पर भी वह यह कह नहीं सकता, इसलिए वह बस कोई plausible जवाब चुन लेता है
  मैं इस बात से भी सहमत हूँ कि forced choice और “weak/strong” जैसे variants headline numbers को बढ़ा-चढ़ाकर दिखाते हैं। इस तरह का फर्क करने के लिए बहुत ज़्यादा सख्त prompt चाहिए, और context में examples (ICL) भी शामिल करने पड़ सकते हैं ताकि “mostly” का मतलब model पर न छोड़ा जाए
- अगर “majority” का मतलब Wikipedia के हिसाब से लगभग 51% है[1], तो समझ नहीं आता कि 51% को “लगभग सब” कैसे माना जा सकता है, ताकि “misleading” एक valid जवाब हो
  लगता है शायद मैं कुछ मिस कर रहा हूँ
  [1]: https://en.wikipedia.org/wiki/Almond#Production
- मुझे लग रहा था कि Opus 4.7 दूसरे models की तुलना में कहीं ज़्यादा hedged answers देता है, और यह सच निकला
  claude-opus-4-7 ने 1000 में से 451, यानी 45.1% दिया, sonar-pro ने 39.1%, gpt-5.4 ने 27.7%, gemini-3-retrieval ने 12.9%, और gemini-3-pro ने 6.0%

Datasette क्वेरी यहाँ है: https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwil...

अगर आप LLM को ओरेकल की तरह इस्तेमाल करने वाले हैं, तो मुझे नहीं लगता कि यह प्रॉम्प्ट अनुचित है। LLM को जीनियस की तरह बेचा जा रहा है, और लोग भी उनके साथ वैसा ही व्यवहार करते हैं, खासकर क्योंकि विज्ञान-कथा में AI को अक्सर जरूरत से ज्यादा सटीक इकाई के रूप में दिखाया जाता है
अगर यह “जीनियस-स्तर की बुद्धिमत्ता” वाला एक परफेक्ट टूल है, तो इसे सही जवाब देना चाहिए

“एलियन जीवन ब्रह्मांड में कहीं न कहीं मौजूद है” वाले दावे पर GPT-5.4 और Opus 4.7 ने Misleading कहा, जबकि Gemini 3, Gemini 3 (Retrieval) और Sonar Pro ने FALSE कहा
यह एक अजीब fact claim है। असली सही जवाब है किसी को पक्का नहीं पता, लेकिन वह विकल्प मौजूद ही नहीं है
- यह कहना और भी अजीब है कि यही असहमति समस्या को दिखाती है। अगर इस विषय की अच्छी जानकारी रखने वाले 5 इंसानों से multiple choice में सही जवाब चुनने को कहा जाए, तो संभावना है कि वे इन 5 LLM से भी ज्यादा बंट जाएँगे
  इसका मतलब यह नहीं कि hallucination समस्या नहीं है, लेकिन इसे परखने का यह तरीका बहुत खराब है
- दिए गए विकल्पों में “Misleading” शायद सबसे बेहतर है। क्योंकि यह ऐसी बात को तथ्य की तरह पेश करता है जो साबित नहीं हुई, भले ही वह काफी plausible हो
  लेकिन unknown या undecidable जैसी category होनी चाहिए थी
- ऐसा pattern बार-बार दिख रहा है, और benchmark के रूप में यह बहुत कमजोर लगता है। जिन दावों की उम्मीद थी, वैसा कुछ भी नहीं है
- तो फिर यहाँ misleading ही सही विकल्प नहीं है क्या?
- समझ नहीं आता “misleading” कैसे “unknown” की जगह ले सकता है
यह बात अच्छी है कि “यह public answer key वाला benchmark item नहीं है, बल्कि वे दावे हैं जिन्हें असली users ने fact-checking platform पर verification के लिए भेजा था”
लेकिन जब तक लेखक यह साफ-साफ नहीं बताते कि रिपोर्ट लिखने और तैयार करने में उन्होंने LLM का कितना इस्तेमाल किया, तब तक समझ नहीं आता कि यह कितना meaningful है। “11. Ethics & data use” सेक्शन तक है और LLM की infallibility जैसे विषयों पर भी बात होती है, फिर भी रिपोर्ट बनाने में LLM का इस्तेमाल हुआ या नहीं, इसका एक बार भी जिक्र नहीं है
- डेटा collection और processing हाथ से की गई थी, और LLM ने रिपोर्ट का draft लिखने में मदद की। publication से पहले सब कुछ इंसानों ने review किया था
शायद हम सब इस बात पर TRUE से सहमत हो सकते हैं कि यह experiment कई मायनों में flawed है
फिर भी यह उन आम गलतियों को पहचानने का बढ़िया अभ्यास है जो लोग LLM इस्तेमाल करते समय करते हैं। prompt engineering job interview question के रूप में यह अच्छा रहेगा
मॉडल हर दिन और ज्यादा मानव-सदृश होते जा रहे हैं
- आजकल बहुत से इंसान भी इस पर सहमत नहीं हो पाते कि सच क्या है। यह लगातार बदतर लगता जा रहा है, और इसका हल क्या है, समझ नहीं आता
Goodhart के नियम की वजह से यह “benchmark” कुछ दिनों में, ज्यादा से ज्यादा कुछ हफ्तों में बेअर्थ हो जाएगा
इसे फिर training में समाहित कर लिया जाएगा और ऐसा लगेगा जैसे यह “solve” हो गया हो, लेकिन reasoning पैदा नहीं होगी; बस नए “समस्याओं” पर रोशनी पड़ने की वजह से statistically ज्यादा plausible सहीपन बढ़ेगा। उसके बाद इसे ऐसा “बड़ा breakthrough” बताया जाएगा जिसने “सब कुछ बदल दिया”
और जोड़ दूँ कि मेरे पास corporate strategy और PR की degree हो भी सकती है और नहीं भी
- ऐसा असर होता है, लेकिन यह घातक प्रहार नहीं है। असली product traffic पर आधारित private benchmarks भी बहुत हैं, और कुछ public problems भी हैं जो contaminated नहीं हैं
  labs के लोग आम तौर पर जानते हैं कि वे क्या कर रहे हैं, ऐसा नहीं है कि उन्हें इन समस्याओं का पता नहीं है
- क्या मानव बुद्धि के साथ भी यही बात लागू नहीं होती? जिन समझदार लोगों को मैं जानता हूँ, उनमें भी कई ऐसे हैं जो ऐसे विश्वास रखते हैं जिनका साफ truth value दिखता ही नहीं
समझ नहीं आता Grok को क्यों बाहर रखा गया। Grok को train करने के तरीके में जो दार्शनिक अंतर public है, वह एक दिलचस्प data point हो सकता था
उस अंतर पर पूरे दिन बहस की जा सकती है, लेकिन उसे वस्तुनिष्ठ रूप से देखने का मौका छूट गया, यह अफसोस की बात है
- शीर्षक में “Frontier” लिखा है, इसलिए Grok को बाहर रखा जाएगा
  Grok को उन biases के साथ train किया गया है जिन्हें बहुत से लोग पसंद करते हैं, लेकिन वह accuracy के लिए बनाया गया मॉडल नहीं है
- सहमत। यह देखना मजेदार होता कि Grok कितना ज्यादा खराब करता
समझ नहीं आता कि यह हमें ऐसा क्या दिखाता है जो हम पहले से नहीं जानते थे। LLM training set में न होने वाले डेटा से जुड़े सवालों के सटीक जवाब नहीं दे सकते
इसमें कुछ खास बात नहीं लगती
- LLM training set में मौजूद डेटा पर सवालों के भी गलत जवाब दे सकते हैं, और यही neural network की प्रकृति है। बस जब डेटा training set में नहीं होता, तो इसकी संभावना और बढ़ जाती है
- अफसोस की बात है कि ज्यादातर लोग यह नहीं जानते और LLM को ऐसे superhuman दिमाग की तरह देखते हैं जो सब कुछ जानता है और सब कुछ कर सकता है
- तो फिर यह दिखाता है कि इन मॉडलों के training sets बहुत अलग हैं, और जब इन्हें आश्वस्त नहीं होना चाहिए तब भी ये उच्च आत्मविश्वास दिखाते हैं
  “क्या mouthwash प्रभावी है” जैसे सवाल के लिए लगता है कि medical journals जैसा कोई ठोस data source होना चाहिए
- यह खुशी-खुशी आपके लिए search कर देगा और Reddit के सबसे ऊपर वाले comment को जवाब बना देगा
  यह और भी बुरा है
समझ नहीं आता कि सब लोग LLM से fact-checking करवाने पर इतने अड़े क्यों हैं
यह तकनीक उस उपयोग के लिए नहीं है। कुछ खास स्थितियों में यह किसी तरह काम कर सकती है, लेकिन उससे यह सही tool नहीं बन जाती
यह वैसा है जैसे कपड़े रखने के लिए refrigerator खरीदना
- Nietzsche शायद कहता कि यह सत्य के भ्रम से ज्यादा आराम के भ्रम की बात है
  अंतिम मनुष्य ऐसी मशीन चाहता है जो कह दे “factually false” या “factually true”। क्योंकि वह अंतिम सत्य के न होने वाली खाई को इतना छोटा करना चाहता है कि उसके बगल में सो सके
- लोग जवाब पाने के लिए सवाल पूछते हैं। मुझे निजी तौर पर यह काफी महत्वपूर्ण लगता है। खासकर जब search engines LLM answers को आगे बढ़ाने लगें, तब तो और भी
- लेकिन लोग वास्तव में इसका इस्तेमाल ऐसे ही कर रहे हैं। तो फिर मुद्दा क्या है?
100% local CPU fact-checking के लिए मैंने यह बनाया है: https://news.ycombinator.com/item?id=48301003
- न कोई paper, न benchmark, न कम से कम इंसान द्वारा लिखा README — फिर इस पर भरोसा क्यों किया जाए?

वास्तविक fact-checking में frontier LLMs के बीच असहमति

वास्तविक claims में फैसले कितनी बार बंटे

nuance का अंतर और सार्थक असहमति

models के बीच agreement rate

model-वार निर्णय रुझान

निर्णय वितरण

बाकी panel के बहुमत के साथ agreement

क्षेत्रवार असहमति

निर्णय bucket के अनुसार सहमति

डेटासेट और बहिष्करण मानदंड

कार्यप्रणाली

मॉडल और prompt

कॉल सेटिंग्स और scoring

सांख्यिकीय प्रसंस्करण

पुनरुत्पादनयोग्यता और सार्वजनिक आउटपुट

सीमाएँ

पूर्व शोध और आगे की योजना

नैतिकता और डेटा उपयोग

frontier panel में बड़े मतभेद के उदाहरण

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय