- बड़े AI रिसर्च लैब्स के बीच अनंत scaling strategy को लेकर संदेह बढ़ रहा है, और ऐसे उदाहरण सामने आ रहे हैं जो दिखाते हैं कि मॉडल का आकार वास्तविक सटीकता की गारंटी नहीं देता
- MIT लाइसेंस वाला open-weight मॉडल GLM-5.2 753B parameters और लगभग 40B active parameters के साथ GPT-5.5 से केवल 4 अंकों के अंतर तक पहुंच गया
- AA-Omniscience hallucination rate में GLM-5.2 28%, GPT-5.5 86%, और DeepSeek V4 Pro 94% दर्ज हुआ, जिससे uncertainty calibration का अंतर performance score जितना ही महत्वपूर्ण हो गया
- Python टेस्ट में DeepSeek V4 Pro ने 3 मिनट 52 सेकंड और 7.7k reasoning tokens खर्च करने के बाद भी गलत उत्तर दिया, जबकि GLM-5.2 ने 12 सेकंड और लगभग 800 tokens में तकनीकी असंभवता की पहचान कर ली
- मॉडल का चयन केवल parameters की संख्या या सैद्धांतिक performance से तय करना कठिन है; raw capability, hallucination rate, और computational efficiency को साथ में देखना होगा
मॉडल scaling strategy पर संदेह
- प्रमुख AI रिसर्च लैब्स के बीच parameters की संख्या और training data scaling के जरिए performance को लगातार बढ़ाते रहने वाले approach पर संदेह बढ़ रहा है
- Claude Fable 5 को रिलीज़ के 3 दिन बाद अमेरिकी सरकार ने प्रतिबंधित कर दिया, और इसे राष्ट्रीय सुरक्षा से जुड़ा पहला अमेरिकी AI ban माना गया
- दुनिया के सबसे बड़े मॉडलों में से एक को सिर्फ एक jailbreak risk की वजह से रोका गया, इसे scaling paradigm की सीमा दिखाने वाले उदाहरण के रूप में देखा जा रहा है
- बड़े मॉडल अभी भी Artificial Analysis Intelligence Index में ऊंचे स्कोर दर्ज कर रहे हैं, लेकिन open-weight मॉडल भी तेजी से अंतर घटा रहे हैं
- Z.ai का GLM-5.2 753B parameters और लगभग 40B active parameters वाला MIT लाइसेंस open-weight LLM है
- GLM-5.2 Artificial Analysis Intelligence Index में GPT-5.5 से 4 अंक और Fable 5 से 9 अंकों के अंतर तक पहुंच गया
- जब closed models को GLM-5.2 से 1.5~2 गुना बड़ा माना जा रहा है, तब यह घटता अंतर वास्तविक intelligence plateau की संभावना को समर्थन देता है
hallucination rate ने uncertainty calibration की समस्या उजागर की
- बड़ी मात्रा में factual और non-theoretical data पर प्रशिक्षित मॉडल, न जानने की स्थिति में भी जवाब देने की दिशा में reinforce हो सकते हैं
- AA-Omniscience benchmark के hallucination rate में मॉडलों के बीच बड़ा अंतर दिखता है
- hallucination rate तुलना:
- DeepSeek V4 Pro: 1.6T parameters, 49B active parameters, AA Intelligence Index 44 अंक, hallucination rate 94%
- GLM-5.2: hallucination rate 28%
- Opus 4.8: hallucination rate 36%
- Fable 5: hallucination rate 48%
- GPT-5.5: hallucination rate 86%
- DeepSeek V4 Pro के 94% hallucination rate का अर्थ है कि जिन सवालों का उत्तर वह नहीं ढूंढ पाया, उनमें उसने केवल लगभग 6% मामलों में “मुझे नहीं पता” कहा, जबकि बाकी में पूरे आत्मविश्वास के साथ गलत उत्तर दिए
Python टेस्ट में computational efficiency का अंतर
- तुलना टेस्ट अपेक्षाकृत जटिल Python प्रश्न पर किया गया, जिसमें architecture defect स्पष्ट था
- दोनों मॉडलों को OpenRouter पर
highreasoning effort और temperature 1 के साथ टेस्ट किया गया - system prompt था: “You respond professionally. You are a highly capable coding assistant well-versed in Python.”
- GLM-5.2 को Z.ai ने FP8 precision में उपलब्ध कराया, और DeepSeek V4 Pro को Baidu Qianfan ने FP8 precision में उपलब्ध कराया
- दोनों मॉडलों को OpenRouter पर
- DeepSeek V4 Pro ने 3 मिनट 52 सेकंड तक 7.7k reasoning tokens इस्तेमाल किए, फिर भी उसने आत्मविश्वास से भरा गलत उत्तर बनाया
- GLM-5.2 ने सिर्फ 12 सेकंड और लगभग 800 reasoning tokens में यह निष्कर्ष निकाला कि single-threaded task का yielding या system polling के बिना multiplexed I/O करना तकनीकी रूप से असंभव है
- reasoning budget, corpus size, और parameters की संख्या को अंधाधुंध बढ़ाने से केवल computation की बर्बादी और विश्वसनीय दिखने वाले गलत उत्तरों का जोखिम बढ़ सकता है
- बहुत बड़े मॉडल भी “मुझे नहीं पता” कहना या जटिल logical/technical errors पहचानना सीखने में विफल हो सकते हैं, इसलिए raw capability, uncertainty calibration/hallucination rate, और computational efficiency का संयुक्त मूल्यांकन जरूरी है
1 टिप्पणियां
Hacker News की राय
यह काफ़ी साहसिक दावा है कि वास्तविक intelligence काफ़ी हद तक ठहर गई है, और आगे बड़े मॉडल train करते रहने से intelligence सिर्फ़ ठहरेगी ही नहीं बल्कि और खराब भी होगी
समझ नहीं आता कि बड़े मॉडल और ज़्यादा data से सीधे ज़्यादा hallucination होने का निष्कर्ष क्यों निकाला जा रहा है। पिछले कुछ वर्षों में व्यवहार में इसका उल्टा दिखा है, और कुछ मॉडल अब भी ज़्यादा hallucinate कर सकते हैं, लेकिन मौजूदा मॉडल शुरुआती 175B ChatGPT की तुलना में, जो इससे छोटे थे और बहुत कम data पर train हुए थे, कहीं कम hallucinate करते हैं
मैंने data का ज़िक्र इसलिए किया क्योंकि ऐसे उद्धरण मिल रहे हैं कि प्रमुख AI labs अनंत parameter count और training data scaling को लेकर संशय में पड़ रही हैं। अभी स्थिति यह लगती है कि industry ने देखा है कि 1T से छोटे मॉडल से भी अभी बहुत कुछ निकाला जा सकता है, बस मनचाही capabilities खोलने के लिए उस distribution के भीतर ज़्यादा और बेहतर quality वाला data चाहिए
ज़बरदस्ती बनाए गए logic problems तो बनाए जा सकते हैं, लेकिन English formal logic नहीं है, इसलिए वह अक्सर language game बन जाती है। “Monty Hall” जैसे सवाल भी अलग तरह से पेश करने पर साफ़ हो जाते हैं; वे इंसानों के लिए दिलचस्प language game ज़्यादा हैं
आख़िरकार मॉडल trainer training corpus, यानी इतिहास में दर्ज मानव output की भारी-भरकम साधारणता, से जूझ रहे हैं। जैसे-जैसे मॉडल सुधरेंगे, अगला चरण शायद इन सीमाओं को पार करने के लिए इंसानों के साथ co-design किए गए मॉडल का होगा। भाषा के इस्तेमाल का तरीका, problem-solving process, और जिसे हम अभी “orchestration” कहते हैं, वह सब साथ में evolve होगा
अगर वे बहुत बड़े context को संभाल सकते हैं और उन्हें वही constraints नहीं चाहिए, तो real-world metaphor बहुत सटीक नहीं बैठते। तब सवाल उठता है कि hallucination और extrapolation में अंतर आख़िर कितना है
LLMs को लेकर जो skepticism और confusion है, उसका बड़ा हिस्सा कुछ-कुछ वैसा है जैसे औसत intelligence वाला कोई व्यक्ति बहुत smart व्यक्ति की बात सुनकर उसे बकवास समझ ले, और फिर घमंड से उसे असभ्य कह दे
जैसे भेड़िये को इंसानों के साथ रहने लायक गुणों वाला बनाने के लिए उसे कुत्ता बनाया गया, वैसे ही LLM भी हमारी सीमाओं, घमंड, aesthetic bias और preconceptions के इर्द-गिर्द evolve करेंगे। ज़्यादातर लोग LLM से जो चाहते हैं, वह मूल रूप से intelligence और rationality नहीं है
इससे संबंधित उद्धरण यह था कि “जब मॉडल को बहुत factual और non-theoretical bulk data पर train किया जाता है, तो वह हर बार कोई-न-कोई answer देना सीख जाता है”
इसलिए यहाँ दो अलग दावे हैं। 1) बड़े मॉडल का performance plateau कर जाता है 2) ज़्यादा factual data पर trained मॉडल की hallucination rate ऊँची होती है
पहला बिंदु तो काफ़ी हद तक जाना-पहचाना है। याद पड़ता है कि OpenAI की scaling law research ने भी कुछ साल पहले parameter count और training data की मात्रा पर diminishing returns दिखाए थे। दूसरे बिंदु के लिए, मूल लेख के अलावा कोई और आधार है या नहीं, यह मुझे नहीं पता
हो सकता है GPT-5.5 compute, memory, या energy की कमी के कारण काफ़ी सीमित रहा हो
मैं सहमत हूँ कि सिर्फ़ यह कह देना कि बड़े मॉडल ठहर गए हैं, कुछ बढ़ा-चढ़ाकर कहना लगता है
जैसा शुरू से साफ़ था, scaling laws ने सिर्फ़ base data में वर्णित कुछ capabilities को संभव बनाया, और artificial neural networks को उन्हें latent space में abstract करने दिया
सोचता हूँ क्या यही “minimum viable LLM” का रूप है। मैं अक्सर सोचता हूँ कि LLM को कितना बड़ा होना चाहिए, जिसके बाद उससे बड़ा context window और PDF या Markdown files जैसी dynamic knowledge content उसमें डालकर training data के बाहर का ज्ञान दिया जा सके
लगता है LLMs को और data की नहीं, बल्कि बेहतर refinement process की ज़रूरत है
हैलुसिनेशन ऊपर-ऊपर से देखने पर ऐसा लगता है कि RLVR से आसानी से निशाना बनाया जा सकने वाला समस्या है। पहले से ही सही उत्तर से सत्यापित होने वाले बहुत बड़ी मात्रा में reasoning traces बन रहे हैं, इसलिए “पता नहीं” को एक वैध उत्तर के रूप में शामिल किया जा सकता है, और जिन समस्याओं में हज़ारों reasoning traces में से कोई भी सही उत्तर तक नहीं पहुँचता, उनमें “पता नहीं” तक पहुँचे trace को training data में प्रमोट किया जा सकता है
मूलतः यह मॉडल को सिखाना है कि “पता नहीं” भी एक वैध उत्तर है
लगता है Sam Altman ने भी पहले किसी ब्लॉग पोस्ट में इस विचार की ओर इशारा किया था, इसलिए यह सभी को स्पष्ट लगने वाला विचार होगा। अगर ऐसा है, तो शायद व्यवहार में यह उतना आसान नहीं है जितना दिखता है
मेरी जानकारी में ऐसा AI benchmark, जिसमें random guessing का औसत स्कोर हर सवाल पर “पता नहीं” कहने से कम हो, केवल AA-Omniscience है
अलग से “पता नहीं” token सिखाने का मतलब है बाकी सभी tokens के बीच एक moat बनानी पड़ेगी। “हाँ” और “नहीं” के बीच दोनों की अपेक्षाकृत ऊँची probability वाला धुंधला noise region होने के बजाय, “पता नहीं” के लिए एक नया और ऊँचा peak चाहिए। फिर “हाँ” और “पता नहीं”, और “पता नहीं” और “नहीं” के बीच नए धुंधले क्षेत्र बनेंगे। उनके बीच कोई और उत्तर सिखाना हो तो और भी अधिक sophistication चाहिए
इसके बजाय यह देखा जा सकता है कि क्या कई विकल्पों की probabilities लगभग समान हैं। लेकिन तब यह भी जाँचना होगा कि शीर्ष दो विकल्प “Genève” और “Geneva” जैसे व्यावहारिक रूप से synonyms हैं, जो इस बात का अच्छा संकेत है कि मॉडल उत्तर जानता है, या वे “हाँ” और “नहीं” जैसे विकल्प हैं
मौजूदा architecture में open-domain tasks पर hallucination शायद हमेशा बनी रहे
काम सरल था। query, search results, और answer शामिल करने वाले MS-MARCO[0] dataset का इस्तेमाल करके training set बनाया गया। 1) ऐसे सवाल जिनमें वास्तविक evidence results के साथ कुछ असंबंधित results मिलाए गए और सही उत्तर जोड़ा गया 2) ऐसे सवाल जिनमें केवल असंबंधित results दिए गए और answer को “No answer present” रखा गया
dataset लगभग 10 लाख samples का था, और मैंने कई techniques आज़माईं: SFT की तरह dataset की नकल करवाने वाला तरीका, उसी user query पर अच्छे और बुरे उत्तरों को contrast करने वाला DPO, और answer मौजूद है या नहीं इस annotation को validate करने वाला GRPO
नतीजे में hallucination कम नहीं हुई, बल्कि काफ़ी ज़्यादा खराब हो गई। अब मॉडल वहाँ भी “No answer present” कहने लगा जहाँ उत्तर वास्तव में मौजूद था, या जहाँ search results की ज़रूरत ही नहीं थी, जैसे X+Y जैसी साधारण समस्याएँ
बेशक, यह कहा जा सकता है कि मेरी training उन frontier labs की क्षमता की तुलना में बुनियादी थी। फिर भी, मुझे लगता है कि यह एक अधिक बुनियादी सीमा की ओर इशारा करता है। LLMs पेचीदा होते हैं, और “search results की सूची देखो, user query से उसकी relevance जाँचो, और अगर answer relevance किसी threshold से कम हो तो उसे उत्तर में इस्तेमाल मत करो” जैसी बातों को वे first principles से साफ़-साफ़ नहीं समझते
संक्षेप में, यह जितना दिखता है उतना सरल नहीं है, और शायद हासिल करना असंभव भी हो सकता है
0: https://huggingface.co/datasets/microsoft/ms_marco
मॉडल को इस तरह tune किया जा सकता है कि वह “पता नहीं” ज़्यादा बार कहे, लेकिन इसकी performance cost होती है। वह कुछ ऐसे सवालों को भी ठुकराने लगेगा जिनका वह अर्थपूर्ण उत्तर दे सकता है। एक degenerate case में मॉडल collapse होकर हमेशा या लगभग हमेशा वही वाक्य predict कर सकता है
हैलुसिनेशन रेट स्कोर की व्याख्या थोड़ी पेचीदा है। यह उस शर्त पर आधारित मान है जब मॉडल को जवाब नहीं पता होता। इसलिए यह रोज़मर्रा के उपयोग में हैलुसिनेशन देखने की संभावना को सीधे नहीं मापता। वह संभावना इस बात पर भी निर्भर करती है कि मॉडल को जवाब न पता होने की संभावना कितनी है, और यूज़र के कामों का वितरण evaluation distribution से कितना मेल खाता है
इस हैलुसिनेशन रेट के अंतर को पूरी तरह model size की वजह मानना भी सावधानी मांगता है। GLM-5.2, DeepSeek-V4 Pro से — जिसके parameters दोगुने हैं — कहीं कम हैलुसिनेट करता है, लेकिन DeepSeek-V4 Flash, GLM-5.2 के आधे से भी कम आकार का है और फिर भी AA-Omniscience हैलुसिनेशन इंडेक्स में पहले स्थान पर है
Opus 4.8, DeepSeek-V4 Pro से बड़ा होने की संभावना है, और इंडेक्स में इसका हैलुसिनेशन रेट 36% है, जो GLM-5.2 के 28% से अधिक है, लेकिन DeepSeek के आँकड़ों से काफी कम है। साथ ही Opus की accuracy 47% है, जबकि GLM-5.2 की 25% है। अगर इन संख्याओं से absolute hallucination rate, यानी कुल responses में hallucinated responses का अनुपात निकाला जाए, तो Opus 19% और GLM-5.2 21% बनता है
इसलिए, बाकी स्थितियाँ समान हों तो बड़े मॉडल जवाब न जानने की स्थिति में हैलुसिनेशन के प्रति अधिक संवेदनशील हो सकते हैं, लेकिन हैलुसिनेशन रेट पर और भी कई कारक असर डालते हैं, और यह भी पूरी तरह स्पष्ट नहीं है कि यही वह मुख्य metric है जिसे ट्रैक किया जाना चाहिए
कोई तथ्य training data में एक बार आया, बिल्कुल नहीं आया, दस बार आया या हज़ार बार — इससे मॉडल क्या “जानता” है? तथ्य जैसे-के-तैसे store नहीं होते; वे घटकों में टूटकर weights में compress हो जाते हैं
जो “मिलते-जुलते” तथ्य बहुत भारी मात्रा में नहीं आते, वे साथ में बंध जाते हैं और अंततः गड़बड़ा जाते हैं। लेकिन मिलते-जुलते तथ्य आखिर हैं क्या? कौन से तथ्य पूरी तरह हट गए, और कौन से दूसरे तथ्यों के साथ बंधकर pool को दूषित भी करते हैं और साथ ही reasoning ability भी देते हैं? मॉडल कुछ नहीं जानता, और उसे यह भी कभी पता नहीं हो सकता कि वह क्या जानता है और क्या नहीं
अगर Opus सबसे कठिन सवालों को छोड़कर बाकी सब सही कर देता है, तो जिन सवालों में वह गलती करेगा वे verification या hallucination detection के लिहाज़ से सबसे कठिन सवाल होंगे, इसलिए उसका हैलुसिनेशन रेट अधिक हो सकता है
अमेरिका के frontier के क़रीब मॉडल्स के cost structure में कुछ ऐसा है मानो जब भी मॉडल अनिश्चित हो और search करे या न करे, इस दुविधा में पड़े, तो उसे बिजली के झटके से हाँका जा रहा हो। लगभग हर हैलुसिनेशन search avoidance response जैसा लगता है
मैं तो मॉडल की बारी का इंतज़ार भी नहीं करता। अगर man page या Hoogle results हों, तो मैं उन्हें आख़िरी prefix cache truncation point पर ही डाल देता हूँ। ऐसा करना फ़ायदे का सौदा है
अगर हर use case में supported range से बाहर जाने का जोखिम समान हो तो ऊपर की दलील सही होगी, लेकिन कई बार यह सुनिश्चित होता है कि कुछ data points supported range के बाहर हैं, इसलिए उसे पहचानने की absolute ability महत्वपूर्ण है
GPT-5.5 और DeepSeek V4 Pro इतने बड़े होने के बावजूद हैलुसिनेशन में सबसे स्पष्ट रूप से आगे दिखते हैं, तो यह ऐसे पढ़ा जा सकता है मानो बड़े मॉडल में हैलुसिनेशन की संभावना अधिक हो। यह मेरी अपनी अनुभवजन्य समझ से मेल नहीं खाता
“जब मॉडल को बहुत तथ्यात्मक और गैर-सैद्धांतिक बड़े data पर train किया जाता है, तो वह हमेशा जवाब देना सीख जाता है” — यह बात, और DeepSeek V4 Pro का AA-Omniscience हैलुसिनेशन रेट 94%, GLM-5.2 का 28%, Opus 4.8 का 36%, Fable 5 का 48%, और GPT-5.5 का 86% — चौंकाने वाला है
पहले के शोधों से यह तो पता था कि हैलुसिनेशन LLMs की बुनियादी समस्या है और संभव है कि prompt injection की तरह इसे ठीक करना कठिन हो, लेकिन यह नहीं पता था कि हैलुसिनेशन रेट इतने खराब हैं
सब लोग ऐसे व्यवहार करते रहे हैं मानो टॉप मॉडल सिर्फ edge cases में ही हैलुसिनेट करते हों, लेकिन यहाँ सबसे अच्छा प्रदर्शन करने वाला GLM-5.2 भी, जब उसे कुछ “पता नहीं” होता, तो 28% मामलों में हैलुसिनेट करता है
हालांकि मुझे लगता है कि ब्लॉग का शीर्षक “Bigger models are not the way” ज़्यादा उपयुक्त है, और यह कहीं बड़ी खबर वाली बात को छूता है। अगर बड़े मॉडल और बड़े training sets अब proportional returns नहीं दे रहे, तो संभव है कि हम पहले ही S-curve के ऊपरी हिस्से के करीब पहुँच चुके हैं। OpenAI और xAI जैसी कंपनियों की valuations इस अवास्तविक धारणा पर बहुत निर्भर हैं कि ऐसे मॉडल अनंत तक scale होते रहेंगे — इसे देखते हुए यह बहुत बड़ी खबर है
question tokens ही answer tokens को define करते हैं। असली बात संबंधित weights को एक साथ cluster करने में है
अगर सिर्फ benchmark scores को maximize करना लक्ष्य हो, तो बड़ा होना हमेशा बेहतर नहीं हो सकता, लेकिन general intelligence और बड़े मॉडल की उस खास अनुभूति के मामले में बात बिल्कुल अलग है
open source models प्रभावशाली हैं, लेकिन Opus या 5.5 की तुलना में यह काफी साफ़ दिखता है कि benchmarks में फिट बैठने वाले संकरे problem set से ज़रा बाहर निकलते ही वे कितनी जल्दी बिखर जाते हैं
मेरा मानना है कि hallucination rate मॉडल के आकार का नहीं बल्कि training method का मुद्दा है। मॉडलों को ऐसे विशाल corpora पर train किया गया है जिनमें अच्छी तरह बनाए गए सवाल और अच्छी तरह व्यवस्थित, सही जवाब भारी मात्रा में मौजूद हैं। खासकर किताबें ऐसी होती हैं, और किताबें उस क्षेत्र के विशेषज्ञों द्वारा काफ़ी सख्ती से curate की गई सामग्री होती हैं
किताबों में शायद ही कभी ऐसे सवाल पूछे जाते हैं जिनका कोई जवाब नहीं होता, और फिर यह तर्क देकर समझाया जाता है कि उनका जवाब क्यों और कैसे नहीं है। अच्छा सवाल उठाने के बाद ईमानदारी से यह समझाने वाली किताबें भी बहुत कम हैं कि उसका जवाब पता नहीं है। क्योंकि curation process में जिन सवालों का जवाब लेखक के पास नहीं होता, उन्हें चर्चा से बाहर कर दिया जाता है
साथ ही, RLHF के दौरान labs उन सवालों की ओर biased रहती हैं जिनके समाधान होते हैं और जो दिलचस्प जवाब पैदा करते हैं, जबकि अच्छे जवाब न रखने वाले “खराब” सवालों का representation कम होता है। जिन सवालों पर मॉडल को यह मानना चाहिए कि उसे जवाब नहीं पता, उन पर RLHF effort भी शायद कम लगाया गया है
इंसानों ने पूरी ज़िंदगी real world में ऐसे सवालों का सामना करते हुए सीखा है जिनका जवाब तुरंत पता नहीं होता, और हमने बहुत जल्दी यह परखना सीख लिया कि हमें जवाब नहीं पता या हम निश्चित नहीं हैं
इंसानों के पास LLMs में न होने वाला डर भी होता है। मानव मस्तिष्क में logical thinking वाले हिस्से से अलग amygdala होता है, जो fear signal भेजता है, और उसके कारण हम जो कहते हैं उसे लेकर कहीं ज़्यादा सावधान रहते हैं। इसके उलट, LLMs में amygdala जैसा कोई भय-अंग नहीं होता और वे सिर्फ training corpus के patterns के अनुसार जवाब देना सीखते हैं। वे इस बात से “डरते” नहीं कि गलत जवाब देकर उनकी बदनामी हो जाएगी या उन्हें नौकरी से निकाल दिया जाएगा, इसलिए वे पूरी तरह गलत जवाब भी बड़े उत्साह से दे सकते हैं
इसलिए hallucination rate को training से सुधारा जा सकता है, लेकिन अभी labs सबसे अधिक intelligent और capable मॉडल बनाने की high-risk competition में हैं, इसलिए वे उस दिशा में optimization नहीं कर रही हैं
एक विकल्प के तौर पर, मेरा मानना है कि LLM में amygdala जैसा अलग तंत्र बनाया जा सकता है। वह तंत्र user prompt और LLM के reasoning traces के आधार पर asynchronous तरीके से signal भेजे, ताकि LLM reasoning में fear signal inject किया जा सके और उसे अधिक सुरक्षित जवाबों की ओर मोड़ा जा सके
मैं भी निश्चित रूप से इस बात से सहमत हूँ कि मॉडल का आकार सीधा कारण नहीं है। लेकिन यह सच है कि ज़्यादा parameters वाले मॉडल को overfitting या underfitting से बचाने के लिए अधिक training data चाहिए
इसलिए मेरा मानना है कि “maximum training data size” की दौड़ अनजाने में overfitting तक पहुँच गई। यह घातक स्तर का तो नहीं है, लेकिन इतना ज़रूर है कि मॉडल के भीतर सर्वज्ञता जैसी दिखने वाली धारणा को ट्रिगर कर दे
Skinner शायद कहता कि यह डर या लालच जैसी भावनाओं का नहीं बल्कि परिणामों का सवाल है