GPT-5.5 की तुलना में MIT लाइसेंस वाले GLM-5.2 में hallucination rate 3 गुना कम

(arrowtsx.dev)

1 पॉइंट द्वारा GN⁺ 4 시간 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें

बड़े AI रिसर्च लैब्स के बीच अनंत scaling strategy को लेकर संदेह बढ़ रहा है, और ऐसे उदाहरण सामने आ रहे हैं जो दिखाते हैं कि मॉडल का आकार वास्तविक सटीकता की गारंटी नहीं देता
MIT लाइसेंस वाला open-weight मॉडल GLM-5.2 753B parameters और लगभग 40B active parameters के साथ GPT-5.5 से केवल 4 अंकों के अंतर तक पहुंच गया
AA-Omniscience hallucination rate में GLM-5.2 28%, GPT-5.5 86%, और DeepSeek V4 Pro 94% दर्ज हुआ, जिससे uncertainty calibration का अंतर performance score जितना ही महत्वपूर्ण हो गया
Python टेस्ट में DeepSeek V4 Pro ने 3 मिनट 52 सेकंड और 7.7k reasoning tokens खर्च करने के बाद भी गलत उत्तर दिया, जबकि GLM-5.2 ने 12 सेकंड और लगभग 800 tokens में तकनीकी असंभवता की पहचान कर ली
मॉडल का चयन केवल parameters की संख्या या सैद्धांतिक performance से तय करना कठिन है; raw capability, hallucination rate, और computational efficiency को साथ में देखना होगा

मॉडल scaling strategy पर संदेह

प्रमुख AI रिसर्च लैब्स के बीच parameters की संख्या और training data scaling के जरिए performance को लगातार बढ़ाते रहने वाले approach पर संदेह बढ़ रहा है
Claude Fable 5 को रिलीज़ के 3 दिन बाद अमेरिकी सरकार ने प्रतिबंधित कर दिया, और इसे राष्ट्रीय सुरक्षा से जुड़ा पहला अमेरिकी AI ban माना गया
- दुनिया के सबसे बड़े मॉडलों में से एक को सिर्फ एक jailbreak risk की वजह से रोका गया, इसे scaling paradigm की सीमा दिखाने वाले उदाहरण के रूप में देखा जा रहा है
बड़े मॉडल अभी भी Artificial Analysis Intelligence Index में ऊंचे स्कोर दर्ज कर रहे हैं, लेकिन open-weight मॉडल भी तेजी से अंतर घटा रहे हैं
- Z.ai का GLM-5.2 753B parameters और लगभग 40B active parameters वाला MIT लाइसेंस open-weight LLM है
- GLM-5.2 Artificial Analysis Intelligence Index में GPT-5.5 से 4 अंक और Fable 5 से 9 अंकों के अंतर तक पहुंच गया
- जब closed models को GLM-5.2 से 1.5~2 गुना बड़ा माना जा रहा है, तब यह घटता अंतर वास्तविक intelligence plateau की संभावना को समर्थन देता है

hallucination rate ने uncertainty calibration की समस्या उजागर की

बड़ी मात्रा में factual और non-theoretical data पर प्रशिक्षित मॉडल, न जानने की स्थिति में भी जवाब देने की दिशा में reinforce हो सकते हैं
AA-Omniscience benchmark के hallucination rate में मॉडलों के बीच बड़ा अंतर दिखता है
- hallucination rate तुलना: {b:94,28,36,48,86}
- DeepSeek V4 Pro: 1.6T parameters, 49B active parameters, AA Intelligence Index 44 अंक, hallucination rate 94%
- GLM-5.2: hallucination rate 28%
- Opus 4.8: hallucination rate 36%
- Fable 5: hallucination rate 48%
- GPT-5.5: hallucination rate 86%
DeepSeek V4 Pro के 94% hallucination rate का अर्थ है कि जिन सवालों का उत्तर वह नहीं ढूंढ पाया, उनमें उसने केवल लगभग 6% मामलों में “मुझे नहीं पता” कहा, जबकि बाकी में पूरे आत्मविश्वास के साथ गलत उत्तर दिए

Python टेस्ट में computational efficiency का अंतर

तुलना टेस्ट अपेक्षाकृत जटिल Python प्रश्न पर किया गया, जिसमें architecture defect स्पष्ट था
- दोनों मॉडलों को OpenRouter पर high reasoning effort और temperature 1 के साथ टेस्ट किया गया
- system prompt था: “You respond professionally. You are a highly capable coding assistant well-versed in Python.”
- GLM-5.2 को Z.ai ने FP8 precision में उपलब्ध कराया, और DeepSeek V4 Pro को Baidu Qianfan ने FP8 precision में उपलब्ध कराया
DeepSeek V4 Pro ने 3 मिनट 52 सेकंड तक 7.7k reasoning tokens इस्तेमाल किए, फिर भी उसने आत्मविश्वास से भरा गलत उत्तर बनाया
GLM-5.2 ने सिर्फ 12 सेकंड और लगभग 800 reasoning tokens में यह निष्कर्ष निकाला कि single-threaded task का yielding या system polling के बिना multiplexed I/O करना तकनीकी रूप से असंभव है
reasoning budget, corpus size, और parameters की संख्या को अंधाधुंध बढ़ाने से केवल computation की बर्बादी और विश्वसनीय दिखने वाले गलत उत्तरों का जोखिम बढ़ सकता है
बहुत बड़े मॉडल भी “मुझे नहीं पता” कहना या जटिल logical/technical errors पहचानना सीखने में विफल हो सकते हैं, इसलिए raw capability, uncertainty calibration/hallucination rate, और computational efficiency का संयुक्त मूल्यांकन जरूरी है

1 टिप्पणियां

GN⁺ 4 시간 전

Hacker News की राय

यह काफ़ी साहसिक दावा है कि वास्तविक intelligence काफ़ी हद तक ठहर गई है, और आगे बड़े मॉडल train करते रहने से intelligence सिर्फ़ ठहरेगी ही नहीं बल्कि और खराब भी होगी
समझ नहीं आता कि बड़े मॉडल और ज़्यादा data से सीधे ज़्यादा hallucination होने का निष्कर्ष क्यों निकाला जा रहा है। पिछले कुछ वर्षों में व्यवहार में इसका उल्टा दिखा है, और कुछ मॉडल अब भी ज़्यादा hallucinate कर सकते हैं, लेकिन मौजूदा मॉडल शुरुआती 175B ChatGPT की तुलना में, जो इससे छोटे थे और बहुत कम data पर train हुए थे, कहीं कम hallucinate करते हैं
मैंने data का ज़िक्र इसलिए किया क्योंकि ऐसे उद्धरण मिल रहे हैं कि प्रमुख AI labs अनंत parameter count और training data scaling को लेकर संशय में पड़ रही हैं। अभी स्थिति यह लगती है कि industry ने देखा है कि 1T से छोटे मॉडल से भी अभी बहुत कुछ निकाला जा सकता है, बस मनचाही capabilities खोलने के लिए उस distribution के भीतर ज़्यादा और बेहतर quality वाला data चाहिए
- मॉडल को आज से ज़्यादा smart बनाने के लिए training के cases और examples चाहिए, लेकिन जैसे-जैसे आप human reasoning के top percentile के करीब पहुँचते हैं, ऐसा material बेहद कम हो जाता है
  ज़बरदस्ती बनाए गए logic problems तो बनाए जा सकते हैं, लेकिन English formal logic नहीं है, इसलिए वह अक्सर language game बन जाती है। “Monty Hall” जैसे सवाल भी अलग तरह से पेश करने पर साफ़ हो जाते हैं; वे इंसानों के लिए दिलचस्प language game ज़्यादा हैं
  आख़िरकार मॉडल trainer training corpus, यानी इतिहास में दर्ज मानव output की भारी-भरकम साधारणता, से जूझ रहे हैं। जैसे-जैसे मॉडल सुधरेंगे, अगला चरण शायद इन सीमाओं को पार करने के लिए इंसानों के साथ co-design किए गए मॉडल का होगा। भाषा के इस्तेमाल का तरीका, problem-solving process, और जिसे हम अभी “orchestration” कहते हैं, वह सब साथ में evolve होगा
  अगर वे बहुत बड़े context को संभाल सकते हैं और उन्हें वही constraints नहीं चाहिए, तो real-world metaphor बहुत सटीक नहीं बैठते। तब सवाल उठता है कि hallucination और extrapolation में अंतर आख़िर कितना है
  LLMs को लेकर जो skepticism और confusion है, उसका बड़ा हिस्सा कुछ-कुछ वैसा है जैसे औसत intelligence वाला कोई व्यक्ति बहुत smart व्यक्ति की बात सुनकर उसे बकवास समझ ले, और फिर घमंड से उसे असभ्य कह दे
  जैसे भेड़िये को इंसानों के साथ रहने लायक गुणों वाला बनाने के लिए उसे कुत्ता बनाया गया, वैसे ही LLM भी हमारी सीमाओं, घमंड, aesthetic bias और preconceptions के इर्द-गिर्द evolve करेंगे। ज़्यादातर लोग LLM से जो चाहते हैं, वह मूल रूप से intelligence और rationality नहीं है
- उद्धरण में यह नहीं कहा गया था कि “बड़े मॉडल और ज़्यादा data = ज़्यादा hallucination”। उसमें कहा गया था कि बड़े मॉडल में intelligence ठहर जाती है, न कि ज़्यादा data या hallucination बढ़ने की बात
  इससे संबंधित उद्धरण यह था कि “जब मॉडल को बहुत factual और non-theoretical bulk data पर train किया जाता है, तो वह हर बार कोई-न-कोई answer देना सीख जाता है”
  इसलिए यहाँ दो अलग दावे हैं। 1) बड़े मॉडल का performance plateau कर जाता है 2) ज़्यादा factual data पर trained मॉडल की hallucination rate ऊँची होती है
  पहला बिंदु तो काफ़ी हद तक जाना-पहचाना है। याद पड़ता है कि OpenAI की scaling law research ने भी कुछ साल पहले parameter count और training data की मात्रा पर diminishing returns दिखाए थे। दूसरे बिंदु के लिए, मूल लेख के अलावा कोई और आधार है या नहीं, यह मुझे नहीं पता
- क्या hallucination पर compute और memory capacity का भी बड़ा असर नहीं पड़ता? कंपनियाँ agentic structure में result verification पर ज़्यादा समय लगा सकती हैं, ज़्यादा reasoning tokens इस्तेमाल कर सकती हैं, और quantization कम कर सकती हैं। ये सब compute और memory पर काफ़ी निर्भर हैं, लेकिन hallucination घटाने में असरदार साबित हुए हैं
  हो सकता है GPT-5.5 compute, memory, या energy की कमी के कारण काफ़ी सीमित रहा हो
  मैं सहमत हूँ कि सिर्फ़ यह कह देना कि बड़े मॉडल ठहर गए हैं, कुछ बढ़ा-चढ़ाकर कहना लगता है
- प्रमुख AI labs का अनंत parameter count और training data scaling को लेकर संशय में आना शायद बड़े हिस्से में training data quality की वजह से है। समझ नहीं आता कि ऐसी चर्चाओं में इसका ज़िक्र कम क्यों होता है
  जैसा शुरू से साफ़ था, scaling laws ने सिर्फ़ base data में वर्णित कुछ capabilities को संभव बनाया, और artificial neural networks को उन्हें latent space में abstract करने दिया
- क्या यह overfitting नहीं है? Data ज़्यादा है, लेकिन जब आप उससे बाहर की चीज़ पूछते हैं तो hallucination हो जाती है
सोचता हूँ क्या यही “minimum viable LLM” का रूप है। मैं अक्सर सोचता हूँ कि LLM को कितना बड़ा होना चाहिए, जिसके बाद उससे बड़ा context window और PDF या Markdown files जैसी dynamic knowledge content उसमें डालकर training data के बाहर का ज्ञान दिया जा सके
लगता है LLMs को और data की नहीं, बल्कि बेहतर refinement process की ज़रूरत है
हैलुसिनेशन ऊपर-ऊपर से देखने पर ऐसा लगता है कि RLVR से आसानी से निशाना बनाया जा सकने वाला समस्या है। पहले से ही सही उत्तर से सत्यापित होने वाले बहुत बड़ी मात्रा में reasoning traces बन रहे हैं, इसलिए “पता नहीं” को एक वैध उत्तर के रूप में शामिल किया जा सकता है, और जिन समस्याओं में हज़ारों reasoning traces में से कोई भी सही उत्तर तक नहीं पहुँचता, उनमें “पता नहीं” तक पहुँचे trace को training data में प्रमोट किया जा सकता है
मूलतः यह मॉडल को सिखाना है कि “पता नहीं” भी एक वैध उत्तर है
लगता है Sam Altman ने भी पहले किसी ब्लॉग पोस्ट में इस विचार की ओर इशारा किया था, इसलिए यह सभी को स्पष्ट लगने वाला विचार होगा। अगर ऐसा है, तो शायद व्यवहार में यह उतना आसान नहीं है जितना दिखता है
- लगभग सभी benchmarks सही उत्तर पर 1 अंक और बाकी पर 0 अंक देकर accuracy मापते हैं। अगर 10% confidence वाले 100 सवालों पर हर बार “पता नहीं” कहा जाए तो 0 अंक मिलेंगे, लेकिन हर बार आत्मविश्वास से जवाब देने पर expected value 10 अंक होगी। इसलिए ज़्यादातर AI को इसी तरह train किया जाता है
  मेरी जानकारी में ऐसा AI benchmark, जिसमें random guessing का औसत स्कोर हर सवाल पर “पता नहीं” कहने से कम हो, केवल AA-Omniscience है
- मुझे लगता है समस्या LLM के output और tools द्वारा उसकी व्याख्या करने के तरीके में है। output सभी संभावित अगले tokens की probability distribution होता है। चाहे सभी tokens की probability बहुत कम हो, कुल probability का योग 1 बनने के लिए उसे normalize किया जाता है। उस चरण के बाद यह पहचानना मुश्किल हो जाता है कि मॉडल सच में किसी खास token को मज़बूती से पसंद कर रहा था, या सिर्फ amplify हुआ noise दिख रहा है
  अलग से “पता नहीं” token सिखाने का मतलब है बाकी सभी tokens के बीच एक moat बनानी पड़ेगी। “हाँ” और “नहीं” के बीच दोनों की अपेक्षाकृत ऊँची probability वाला धुंधला noise region होने के बजाय, “पता नहीं” के लिए एक नया और ऊँचा peak चाहिए। फिर “हाँ” और “पता नहीं”, और “पता नहीं” और “नहीं” के बीच नए धुंधले क्षेत्र बनेंगे। उनके बीच कोई और उत्तर सिखाना हो तो और भी अधिक sophistication चाहिए
  इसके बजाय यह देखा जा सकता है कि क्या कई विकल्पों की probabilities लगभग समान हैं। लेकिन तब यह भी जाँचना होगा कि शीर्ष दो विकल्प “Genève” और “Geneva” जैसे व्यावहारिक रूप से synonyms हैं, जो इस बात का अच्छा संकेत है कि मॉडल उत्तर जानता है, या वे “हाँ” और “नहीं” जैसे विकल्प हैं
- मुख्य समस्या यह है कि hallucination suppression generalize नहीं होती। अलग-अलग सवालों में गलत उत्तरों को दंडित किया जा सकता है, लेकिन उससे किसी सुसंगत world model का उभरना सुनिश्चित नहीं होता। केवल reasoning क्षमता के साथ जुड़ा हुआ सुसंगत world model ही hallucination का वास्तविक समाधान हो सकता है
  मौजूदा architecture में open-domain tasks पर hallucination शायद हमेशा बनी रहे
- बात इतनी सरल नहीं है। यह सवाल मुझे भी दिलचस्प लगा था, इसलिए मैंने पहले ठीक इसी लक्ष्य से LLM को train करके देखा था
  काम सरल था। query, search results, और answer शामिल करने वाले MS-MARCO[0] dataset का इस्तेमाल करके training set बनाया गया। 1) ऐसे सवाल जिनमें वास्तविक evidence results के साथ कुछ असंबंधित results मिलाए गए और सही उत्तर जोड़ा गया 2) ऐसे सवाल जिनमें केवल असंबंधित results दिए गए और answer को “No answer present” रखा गया
  dataset लगभग 10 लाख samples का था, और मैंने कई techniques आज़माईं: SFT की तरह dataset की नकल करवाने वाला तरीका, उसी user query पर अच्छे और बुरे उत्तरों को contrast करने वाला DPO, और answer मौजूद है या नहीं इस annotation को validate करने वाला GRPO
  नतीजे में hallucination कम नहीं हुई, बल्कि काफ़ी ज़्यादा खराब हो गई। अब मॉडल वहाँ भी “No answer present” कहने लगा जहाँ उत्तर वास्तव में मौजूद था, या जहाँ search results की ज़रूरत ही नहीं थी, जैसे X+Y जैसी साधारण समस्याएँ
  बेशक, यह कहा जा सकता है कि मेरी training उन frontier labs की क्षमता की तुलना में बुनियादी थी। फिर भी, मुझे लगता है कि यह एक अधिक बुनियादी सीमा की ओर इशारा करता है। LLMs पेचीदा होते हैं, और “search results की सूची देखो, user query से उसकी relevance जाँचो, और अगर answer relevance किसी threshold से कम हो तो उसे उत्तर में इस्तेमाल मत करो” जैसी बातों को वे first principles से साफ़-साफ़ नहीं समझते
  संक्षेप में, यह जितना दिखता है उतना सरल नहीं है, और शायद हासिल करना असंभव भी हो सकता है
  0: https://huggingface.co/datasets/microsoft/ms_marco
- अगर ऐसी reward function इस्तेमाल की जा सकती, तो LLM की ज़रूरत ही नहीं होती; उसी reward function से query करके किसी भी सवाल का जवाब दे सकते थे। benchmarks बनाए जा सकते हैं और automatic checking भी की जा सकती है, लेकिन सामान्य मामले में इसे हल नहीं किया जा सकता। मॉडल benchmarks पर अच्छा कर सकता है, फिर भी benchmark के दायरे से बाहर के क्षेत्रों में overconfident उत्तर देता रह सकता है
  मॉडल को इस तरह tune किया जा सकता है कि वह “पता नहीं” ज़्यादा बार कहे, लेकिन इसकी performance cost होती है। वह कुछ ऐसे सवालों को भी ठुकराने लगेगा जिनका वह अर्थपूर्ण उत्तर दे सकता है। एक degenerate case में मॉडल collapse होकर हमेशा या लगभग हमेशा वही वाक्य predict कर सकता है
हैलुसिनेशन रेट स्कोर की व्याख्या थोड़ी पेचीदा है। यह उस शर्त पर आधारित मान है जब मॉडल को जवाब नहीं पता होता। इसलिए यह रोज़मर्रा के उपयोग में हैलुसिनेशन देखने की संभावना को सीधे नहीं मापता। वह संभावना इस बात पर भी निर्भर करती है कि मॉडल को जवाब न पता होने की संभावना कितनी है, और यूज़र के कामों का वितरण evaluation distribution से कितना मेल खाता है
इस हैलुसिनेशन रेट के अंतर को पूरी तरह model size की वजह मानना भी सावधानी मांगता है। GLM-5.2, DeepSeek-V4 Pro से — जिसके parameters दोगुने हैं — कहीं कम हैलुसिनेट करता है, लेकिन DeepSeek-V4 Flash, GLM-5.2 के आधे से भी कम आकार का है और फिर भी AA-Omniscience हैलुसिनेशन इंडेक्स में पहले स्थान पर है
Opus 4.8, DeepSeek-V4 Pro से बड़ा होने की संभावना है, और इंडेक्स में इसका हैलुसिनेशन रेट 36% है, जो GLM-5.2 के 28% से अधिक है, लेकिन DeepSeek के आँकड़ों से काफी कम है। साथ ही Opus की accuracy 47% है, जबकि GLM-5.2 की 25% है। अगर इन संख्याओं से absolute hallucination rate, यानी कुल responses में hallucinated responses का अनुपात निकाला जाए, तो Opus 19% और GLM-5.2 21% बनता है
इसलिए, बाकी स्थितियाँ समान हों तो बड़े मॉडल जवाब न जानने की स्थिति में हैलुसिनेशन के प्रति अधिक संवेदनशील हो सकते हैं, लेकिन हैलुसिनेशन रेट पर और भी कई कारक असर डालते हैं, और यह भी पूरी तरह स्पष्ट नहीं है कि यही वह मुख्य metric है जिसे ट्रैक किया जाना चाहिए
- मैं असहमत नहीं हूँ, लेकिन साथ ही मॉडल उस तरह के द्वैत अर्थ में किसी चीज़ को “जानता” भी नहीं है। यह सुनने में सरल लगता है, पर वास्तव में बहुत सूक्ष्म बात है
  कोई तथ्य training data में एक बार आया, बिल्कुल नहीं आया, दस बार आया या हज़ार बार — इससे मॉडल क्या “जानता” है? तथ्य जैसे-के-तैसे store नहीं होते; वे घटकों में टूटकर weights में compress हो जाते हैं
  जो “मिलते-जुलते” तथ्य बहुत भारी मात्रा में नहीं आते, वे साथ में बंध जाते हैं और अंततः गड़बड़ा जाते हैं। लेकिन मिलते-जुलते तथ्य आखिर हैं क्या? कौन से तथ्य पूरी तरह हट गए, और कौन से दूसरे तथ्यों के साथ बंधकर pool को दूषित भी करते हैं और साथ ही reasoning ability भी देते हैं? मॉडल कुछ नहीं जानता, और उसे यह भी कभी पता नहीं हो सकता कि वह क्या जानता है और क्या नहीं
- हो सकता है कि सवाल जितना आसान हो, मॉडल के लिए यह समझना उतना आसान हो कि उसे जवाब नहीं पता
  अगर Opus सबसे कठिन सवालों को छोड़कर बाकी सब सही कर देता है, तो जिन सवालों में वह गलती करेगा वे verification या hallucination detection के लिहाज़ से सबसे कठिन सवाल होंगे, इसलिए उसका हैलुसिनेशन रेट अधिक हो सकता है
- इसे hypothetical सवालों से test किया जा सकता है। knowledge cutoff date के बाद हुई ही नहीं ऐसी घटनाओं के बारे में पूछिए, या ऐसी चीज़ पूछिए जो वास्तव में हल ही नहीं की जा सकती
- हैलुसिनेशन को “grounding failure” कहना चाहिए
  अमेरिका के frontier के क़रीब मॉडल्स के cost structure में कुछ ऐसा है मानो जब भी मॉडल अनिश्चित हो और search करे या न करे, इस दुविधा में पड़े, तो उसे बिजली के झटके से हाँका जा रहा हो। लगभग हर हैलुसिनेशन search avoidance response जैसा लगता है
  मैं तो मॉडल की बारी का इंतज़ार भी नहीं करता। अगर man page या Hoogle results हों, तो मैं उन्हें आख़िरी prefix cache truncation point पर ही डाल देता हूँ। ऐसा करना फ़ायदे का सौदा है
- यहाँ एक आम failure mode, यानी knowledge cutoff date के बाद की जानकारी, शामिल नहीं है। उस समय के बाद की जानकारी चाहिए तो मॉडल size चाहे जो हो, असफलता होगी, इसलिए knowledge base से स्वतंत्र रूप से भी हैलुसिनेशन रेट महत्वपूर्ण हो सकता है
  अगर हर use case में supported range से बाहर जाने का जोखिम समान हो तो ऊपर की दलील सही होगी, लेकिन कई बार यह सुनिश्चित होता है कि कुछ data points supported range के बाहर हैं, इसलिए उसे पहचानने की absolute ability महत्वपूर्ण है
GPT-5.5 और DeepSeek V4 Pro इतने बड़े होने के बावजूद हैलुसिनेशन में सबसे स्पष्ट रूप से आगे दिखते हैं, तो यह ऐसे पढ़ा जा सकता है मानो बड़े मॉडल में हैलुसिनेशन की संभावना अधिक हो। यह मेरी अपनी अनुभवजन्य समझ से मेल नहीं खाता
- इसका मतलब शायद यह है कि जब जवाब न पता हो, तब वे हैलुसिनेट करने की अधिक संभावना रखते हैं। बड़े मॉडल छोटे मॉडलों की तुलना में सही जवाब ज़्यादा बार देंगे, लेकिन जब वे गलत होंगे, तब “मुझे नहीं पता” कहने के बजाय कुछ गढ़ देने की संभावना भी ज़्यादा होगी
“जब मॉडल को बहुत तथ्यात्मक और गैर-सैद्धांतिक बड़े data पर train किया जाता है, तो वह हमेशा जवाब देना सीख जाता है” — यह बात, और DeepSeek V4 Pro का AA-Omniscience हैलुसिनेशन रेट 94%, GLM-5.2 का 28%, Opus 4.8 का 36%, Fable 5 का 48%, और GPT-5.5 का 86% — चौंकाने वाला है
पहले के शोधों से यह तो पता था कि हैलुसिनेशन LLMs की बुनियादी समस्या है और संभव है कि prompt injection की तरह इसे ठीक करना कठिन हो, लेकिन यह नहीं पता था कि हैलुसिनेशन रेट इतने खराब हैं
सब लोग ऐसे व्यवहार करते रहे हैं मानो टॉप मॉडल सिर्फ edge cases में ही हैलुसिनेट करते हों, लेकिन यहाँ सबसे अच्छा प्रदर्शन करने वाला GLM-5.2 भी, जब उसे कुछ “पता नहीं” होता, तो 28% मामलों में हैलुसिनेट करता है
हालांकि मुझे लगता है कि ब्लॉग का शीर्षक “Bigger models are not the way” ज़्यादा उपयुक्त है, और यह कहीं बड़ी खबर वाली बात को छूता है। अगर बड़े मॉडल और बड़े training sets अब proportional returns नहीं दे रहे, तो संभव है कि हम पहले ही S-curve के ऊपरी हिस्से के करीब पहुँच चुके हैं। OpenAI और xAI जैसी कंपनियों की valuations इस अवास्तविक धारणा पर बहुत निर्भर हैं कि ऐसे मॉडल अनंत तक scale होते रहेंगे — इसे देखते हुए यह बहुत बड़ी खबर है
- LLMs में Wikipedia-जैसे अर्थ में knowledge जैसी कोई चीज़ नहीं होती
  question tokens ही answer tokens को define करते हैं। असली बात संबंधित weights को एक साथ cluster करने में है
- शीर्षक वाली बात पर सहमत हूँ, और यह मेरी गलती थी। खासकर coding agents में ऐसे “frontier” models का इस्तेमाल करते हुए मैंने सचमुच भयानक चीज़ें देखी हैं; वे अक्सर codebase के बारे में तथ्य गढ़ लेते थे
अगर सिर्फ benchmark scores को maximize करना लक्ष्य हो, तो बड़ा होना हमेशा बेहतर नहीं हो सकता, लेकिन general intelligence और बड़े मॉडल की उस खास अनुभूति के मामले में बात बिल्कुल अलग है
open source models प्रभावशाली हैं, लेकिन Opus या 5.5 की तुलना में यह काफी साफ़ दिखता है कि benchmarks में फिट बैठने वाले संकरे problem set से ज़रा बाहर निकलते ही वे कितनी जल्दी बिखर जाते हैं
मेरा मानना है कि hallucination rate मॉडल के आकार का नहीं बल्कि training method का मुद्दा है। मॉडलों को ऐसे विशाल corpora पर train किया गया है जिनमें अच्छी तरह बनाए गए सवाल और अच्छी तरह व्यवस्थित, सही जवाब भारी मात्रा में मौजूद हैं। खासकर किताबें ऐसी होती हैं, और किताबें उस क्षेत्र के विशेषज्ञों द्वारा काफ़ी सख्ती से curate की गई सामग्री होती हैं
किताबों में शायद ही कभी ऐसे सवाल पूछे जाते हैं जिनका कोई जवाब नहीं होता, और फिर यह तर्क देकर समझाया जाता है कि उनका जवाब क्यों और कैसे नहीं है। अच्छा सवाल उठाने के बाद ईमानदारी से यह समझाने वाली किताबें भी बहुत कम हैं कि उसका जवाब पता नहीं है। क्योंकि curation process में जिन सवालों का जवाब लेखक के पास नहीं होता, उन्हें चर्चा से बाहर कर दिया जाता है
साथ ही, RLHF के दौरान labs उन सवालों की ओर biased रहती हैं जिनके समाधान होते हैं और जो दिलचस्प जवाब पैदा करते हैं, जबकि अच्छे जवाब न रखने वाले “खराब” सवालों का representation कम होता है। जिन सवालों पर मॉडल को यह मानना चाहिए कि उसे जवाब नहीं पता, उन पर RLHF effort भी शायद कम लगाया गया है
इंसानों ने पूरी ज़िंदगी real world में ऐसे सवालों का सामना करते हुए सीखा है जिनका जवाब तुरंत पता नहीं होता, और हमने बहुत जल्दी यह परखना सीख लिया कि हमें जवाब नहीं पता या हम निश्चित नहीं हैं
इंसानों के पास LLMs में न होने वाला डर भी होता है। मानव मस्तिष्क में logical thinking वाले हिस्से से अलग amygdala होता है, जो fear signal भेजता है, और उसके कारण हम जो कहते हैं उसे लेकर कहीं ज़्यादा सावधान रहते हैं। इसके उलट, LLMs में amygdala जैसा कोई भय-अंग नहीं होता और वे सिर्फ training corpus के patterns के अनुसार जवाब देना सीखते हैं। वे इस बात से “डरते” नहीं कि गलत जवाब देकर उनकी बदनामी हो जाएगी या उन्हें नौकरी से निकाल दिया जाएगा, इसलिए वे पूरी तरह गलत जवाब भी बड़े उत्साह से दे सकते हैं
इसलिए hallucination rate को training से सुधारा जा सकता है, लेकिन अभी labs सबसे अधिक intelligent और capable मॉडल बनाने की high-risk competition में हैं, इसलिए वे उस दिशा में optimization नहीं कर रही हैं
एक विकल्प के तौर पर, मेरा मानना है कि LLM में amygdala जैसा अलग तंत्र बनाया जा सकता है। वह तंत्र user prompt और LLM के reasoning traces के आधार पर asynchronous तरीके से signal भेजे, ताकि LLM reasoning में fear signal inject किया जा सके और उसे अधिक सुरक्षित जवाबों की ओर मोड़ा जा सके
मैं भी निश्चित रूप से इस बात से सहमत हूँ कि मॉडल का आकार सीधा कारण नहीं है। लेकिन यह सच है कि ज़्यादा parameters वाले मॉडल को overfitting या underfitting से बचाने के लिए अधिक training data चाहिए
इसलिए मेरा मानना है कि “maximum training data size” की दौड़ अनजाने में overfitting तक पहुँच गई। यह घातक स्तर का तो नहीं है, लेकिन इतना ज़रूर है कि मॉडल के भीतर सर्वज्ञता जैसी दिखने वाली धारणा को ट्रिगर कर दे
Skinner शायद कहता कि यह डर या लालच जैसी भावनाओं का नहीं बल्कि परिणामों का सवाल है

GPT-5.5 की तुलना में MIT लाइसेंस वाले GLM-5.2 में hallucination rate 3 गुना कम

मॉडल scaling strategy पर संदेह

hallucination rate ने uncertainty calibration की समस्या उजागर की

Python टेस्ट में computational efficiency का अंतर

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय