LLM की ‘अचानक उछाल’ वाली क्षमता वास्तव में क्रमिक और पूर्वानुमेय हो सकती है

(quantamagazine.org)

1 पॉइंट द्वारा GN⁺ 2024-03-26 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Stanford के शोधकर्ताओं का कहना है कि LLM की कुछ उद्भव क्षमताएँ अचानक पैदा नहीं हुईं, बल्कि परफॉर्मेंस मापने के मापन तरीके की वजह से वे तेज़ छलांग जैसी दिखी होंगी
BIG-bench 204 टास्क के ज़रिए LLM का मूल्यांकन करता है, और कुछ टास्क में परफॉर्मेंस लगभग 0 के पास रहने के बाद एक खास स्केल के बाद तेज़ बढ़ती दिखी, जिसे असतत सुधार माना गया
तीन अंकों के जोड़ जैसे मामलों में सिर्फ सही/गलत देखने वाला accuracy metric आंशिक रूप से सही उत्तरों को भी विफल मान लेता है, जिससे वास्तविक सुधार प्रक्रिया छिप सकती है
यदि हर अंक के लिए आंशिक स्कोर दिया जाए, तो पैरामीटर बढ़ने के साथ अधिक अंक सही होने वाला क्रमिक सुधार सामने आता है, और जोड़ में उद्भव क्षमता की व्याख्या कमज़ोर पड़ती है
कौन-सा metric अचानक सुधार दिखाएगा, इसका पूर्वानुमान लगाने की समस्या और उन टास्क का मूल्यांकन जहाँ सही उत्तर स्वयं महत्वपूर्ण है, अब भी बाकी हैं; इसलिए अगली पीढ़ी के मॉडल के लिए predictive science की ज़रूरत है

BIG-bench में दिखी अचानक परफॉर्मेंस छलांग

Beyond the Imitation Game benchmark, यानी BIG-bench, 450 शोधकर्ताओं द्वारा बनाए गए 204 टास्क के माध्यम से large language models की क्षमताओं का मूल्यांकन करता है
कई टास्क में मॉडल के बड़े होने के साथ परफॉर्मेंस पूर्वानुमेय और स्मूद तरीके से सुधरी, लेकिन कुछ टास्क में लंबे समय तक लगभग 0 पर रहने वाली परफॉर्मेंस अचानक बढ़ गई
अगस्त 2022 के पेपर में कहा गया कि यह व्यवहार चौंकाने वाला और पूर्वानुमान लगाना कठिन है, और AI safety, संभावनाओं और जोखिम पर चर्चा में इसे शामिल किया जाना चाहिए
इस क्षमता को emergence कहा गया, यानी ऐसा सामूहिक व्यवहार जो तब दिखाई देता है जब सिस्टम उच्च जटिलता तक पहुँचता है

Stanford का तर्क: मॉडल नहीं, metric ने भ्रम पैदा किया हो सकता है

Stanford University के Sanmi Koyejo, Rylan Schaeffer और Brando Miranda ने नए पेपर में तर्क दिया कि क्षमताओं का यह अचानक प्रकट होना LLM परफॉर्मेंस को मापने के तरीके से उत्पन्न हो सकता है
मुख्य बात यह है कि क्षमता अप्रत्याशित रूप से पैदा नहीं हो रही, बल्कि measurement metric के आधार पर स्मूद और पूर्वानुमेय सुधार भी अचानक छलांग जैसा दिख सकता है
शोधकर्ता यह मानते हैं कि LLM का स्केल बढ़ने के साथ वे वास्तव में अधिक प्रभावी होते जाते हैं
लेकिन सुधार का कर्व स्मूद दिखेगा या अनियमित और तीखा, यह सिर्फ मॉडल के भीतर की कार्यप्रणाली पर नहीं, बल्कि metric के चयन या टेस्ट उदाहरणों की कमी पर भी निर्भर कर सकता है

मॉडल स्केल और मूल्यांकन का लक्ष्य

LLM को किताबों, web search, Wikipedia और अन्य ऑनलाइन स्रोतों के विशाल text dataset का विश्लेषण करके प्रशिक्षित किया जाता है, जहाँ वे साथ-साथ आने वाले शब्दों के बीच संबंध ढूँढ़ते हैं
मॉडल का आकार पैरामीटर की संख्या से मापा जाता है, और पैरामीटर मोटे तौर पर उन तरीकों के अनुरूप होते हैं जिनसे शब्द आपस में जुड़ सकते हैं
प्रमुख मॉडल स्केल इस प्रकार हैं
- GPT-2: 1.5 अरब पैरामीटर
- GPT-3.5: 350 अरब पैरामीटर
- GPT-4: मार्च 2023 में सार्वजनिक, Microsoft Copilot का आधार, और बताया जाता है कि इसमें 1.75 ट्रिलियन पैरामीटर उपयोग होते हैं
यह विवाद का मुख्य बिंदु नहीं है कि बड़े LLM वे टास्क कर सकते हैं जो छोटे मॉडल नहीं कर पाते
Stanford के शोधकर्ता भी मानते हैं कि बड़े मॉडल की अतिरिक्त जटिलता अधिक कठिन और विविध समस्याओं पर बेहतर परफॉर्मेंस दे सकती है

तीन अंकों के जोड़ में accuracy metric की सीमा

2022 के BIG-bench अध्ययन में GPT-3 और LAMDA को कम पैरामीटर होने पर जोड़ के सवाल सही ढंग से हल न कर पाने वाला माना गया
GPT-3 में 13 अरब पैरामीटर पर ऐसा लगा कि वह अचानक जोड़ कर सकता है, और LAMDA में 68 अरब पैरामीटर पर इसी तरह का बदलाव दिखा
इस नतीजे से यह व्याख्या निकली कि जोड़ने की क्षमता किसी खास threshold पर उद्भव रूप में उभरती है
Stanford के शोधकर्ताओं ने कहा कि यह मूल्यांकन सिर्फ accuracy देखने के कारण, पूरी तरह सही न होने पर हर उत्तर को विफल मान लेता था
- उदाहरण के लिए 100+278 का उत्तर 376 देना, −9.34 की तुलना में वास्तविक उत्तर के कहीं अधिक करीब है, लेकिन सही/गलत metric में दोनों ही विफल माने जाते हैं
शोधकर्ताओं ने ऐसा partial scoring metric इस्तेमाल किया जो देखता है कि पहला, दूसरा और तीसरा अंक अलग-अलग कितना सही अनुमानित हुआ
इस metric में पैरामीटर बढ़ने के साथ LLM जोड़ के परिणाम की अंक-श्रृंखला को धीरे-धीरे अधिक सटीकता से भविष्यवाणी करता दिखा
इसलिए जोड़ने की क्षमता को अचानक और अप्रत्याशित छलांग नहीं, बल्कि क्रमिक और पूर्वानुमेय सुधार के रूप में समझा जा सकता है

बहस अब भी बाकी है

Northeastern University के Tianshi Li का मानना है कि Stanford का पेपर यह नहीं बताता कि कौन-सा metric कब LLM में अचानक सुधार दिखाएगा
इस वजह से कुछ क्षमताओं को अब भी अपूर्वानुमेय मानने की गुंजाइश बची हुई है
OpenAI के Jason Wei का तर्क है कि arithmetic जैसे टास्क में, जहाँ सही उत्तर महत्वपूर्ण है, वहाँ सही उत्तर स्वयं ही अहम है; इसलिए पहले की emergence रिपोर्ट भी वैध हैं
Anthropic के Alex Tamkin ने कहा कि नए पेपर ने multi-step टास्क को छोटे हिस्सों में बाँटकर हर घटक के योगदान को पहचानने में मदद की है
साथ ही Tamkin का मानना है कि हर छलांग को भ्रम नहीं कहा जा सकता, और ऐसा साहित्य भी मौजूद है जहाँ single-step prediction या continuous metric के उपयोग पर भी असततता दिखाई देती है

बड़े मॉडलों का पूर्वानुमान लगाने की चुनौती

Rice University के Xia “Ben” Hu का मानना है that भले ही अभी LLM की emergence को अन्य measurement tools से समझाया जा सके, भविष्य के अधिक बड़े और जटिल LLM पर वही व्याख्या लागू न भी हो
Hu का कहना है कि जब LLM अगले स्तर तक बड़े होंगे, तो वे अलग-अलग टास्क और अलग-अलग मॉडल से ज्ञान उधार लेंगे
Tamkin के लिए emergence पर बहस सीधे इस प्रयास से जुड़ी है कि LLM कैसे व्यवहार करेंगे, इसका पूर्वानुमान लगाया जा सके
LLM तकनीक का उपयोग-क्षेत्र बहुत व्यापक है, इसलिए अगली पीढ़ी के मॉडलों से चौंकने से बचने के लिए predictive science बनाना महत्वपूर्ण होता जा रहा है

1 टिप्पणियां

GN⁺ 2024-03-26

Hacker News की राय

इस शोध में कुछ समस्याएँ हैं: 1) पास/फेल प्रकार की accuracy को token edit distance जैसे अधिक smooth metric से बदलना, task के अनुसार क्षमता का बहुत खराब proxy बन सकता है
2) लेखकों के metric से भी अब भी कुछ संभावित emergent abilities दिखाई देती हैं
3) बाद में देखने पर सब आसान लगता है। डेटा को फिर से देखकर तब तक छेड़ा जा सकता है जब तक ऐसा transformation न मिल जाए जिसमें emergence गायब हो जाए, लेकिन उस समय आम test accuracy metric इस्तेमाल किया गया था और नतीजे unpredictable और surprising थे—वास्तव में ध्यान देने योग्य घटना वही है
पेपर में value है, लेकिन उसके निष्कर्षों को बहुत दूर तक नहीं ले जाना चाहिए
- जैसा कि लेख के बाद के हिस्से में भी आता है, addition लगभग सही होना ज़्यादा मायने नहीं रखता। वह या तो सही है या गलत
  फिर भी scoring method बदलने के बाद भी कुछ emergent abilities बची रहीं, इसलिए उस कोशिश को अच्छा मानता हूँ
“अगर दूसरी कसौटी इस्तेमाल करें तो emergence गायब हो जाती है” शायद ज़्यादातर emergent behavior पर भी लागू होता है
अगर scale बदलकर पानी के molecules को एक-एक करके देखें, तो अचानक बर्फ का टुकड़ा बनता नहीं दिखेगा, बल्कि molecules एक-एक करके crystal structure में जुड़ते दिखेंगे
- ज़रूरी नहीं। समस्या यह है कि machine learning में इसकी definition खास तौर पर ढीली है
  इस बारे में यहाँ और विस्तार से लिखा है[0]। आपने जो अभी कहा, वह emergence की व्याख्या करता है, लेकिन LLM में emergent abilities होने के दावे से वह अलग है। यह फर्क लेख में भी समझाया गया है
  [0] https://news.ycombinator.com/item?id=39812315
- लेकिन 50°C और 75°C पर molecular structure जानने से freezing point के बारे में बहुत कम पता चलता है
  एक और उदाहरण के तौर पर, अगर किसी virus के infection cases की संख्या मापें, तो वह पूरी दुनिया में फैल सकता है (R0 > 1, उदाहरण: COVID-19) या व्यापक रूप से फैल नहीं पाता (R0 < 1, उदाहरण: Ebola)। यह पूरी तरह binary नहीं है, लेकिन ऊपर से binary जैसा दिखता है, इसलिए यह emergent behavior है
  इसके उलट, अगर R0 को सीधे मापा जाए, तो gradual increase दिखता है और भविष्य के mutations, vaccine efficacy वगैरह की भविष्यवाणी करना कहीं आसान हो जाता है
  मैं “emergent” को उदाहरण के लिए sigmoid और “gradual” को linear या log function के रूप में देखता हूँ
- बर्फ को अचानक होने वाली emergence समझने की गलती कोई नहीं करता। नंगी आँखों से भी यह धीरे-धीरे बनती हुई साफ दिखती है
पेपर: Are Emergent Abilities of Large Language Models a Mirage? https://arxiv.org/abs/2304.15004
भविष्य आ जाने के बाद उसकी भविष्यवाणी करना हमेशा आसान होता है
वास्तव में phase transition जैसी emergent properties हो सकती हैं जिन्हें पीछे मुड़कर देखने पर भी predict करना मुश्किल हो, लेकिन शायद वे आम नहीं होंगी। यह भी सवाल है कि LLM का ऐसा एक भी compelling उदाहरण है या नहीं
मुझे लगता है कि ज़्यादा सामान्य स्थिति यह है कि उच्च-स्तरीय क्षमता कई निम्न-स्तरीय क्षमताओं पर निर्भर करती है, और उस संबंध का अनुमान लगाना कठिन होता है। घटकों में smooth improvement हुई होगी, लेकिन आपको यह जानना होगा कि देखना क्या है—यानी core components कौन से हैं
emergent abilities की भविष्यवाणी करने के लिए ज़रूरी components को पहले से पहचानना होगा, और अपेक्षित behavior को support करने के लिए हर component किस स्तर पर होना चाहिए, इसका भी कुछ हद तक simulation करना होगा
बेशक यह सिर्फ model size या data scale का मामला नहीं है; data का प्रकार और quality भी महत्वपूर्ण हैं, और model versions के बीच तेज़ बदलाव हो सकते हैं। updated training set से model कौन से नए patterns या manipulations, यानी component abilities, सीखेगा—इसे पहले से analyze करना बहुत कठिन है
मैं यह भी जानना चाहता हूँ कि उलटी दिशा में यह कितनी बार होता है: यानी जब model designers सफलतापूर्वक पहचानते हैं कि “X करने के लिए A, B, C क्षमताएँ चाहिए, और A, B, C पाने के लिए नए datasets P और Q चाहिए।” ऐसी hypothetical स्थिति में X क्षमता की ओर प्रगति को मापा जा सकता था
- मेरी जानकारी में Transformer से पहले ऐसा बिल्कुल नहीं हुआ था। वजह यह थी कि models इतने सारे अलग-अलग skills को बिना आपसी interference के समेट नहीं सकते थे
  कई उच्च-गुणवत्ता वाली क्षमताओं वाला model होना अपने आप में अभी भी काफी नया phenomenon है
  फिर भी मुझे लगता है कि ऐसी approach ज़रूरी है, और आज के सर्वोत्तम LLM शायद पहले से कुछ ऐसा कर रहे हों। बस, कोई यह सार्वजनिक नहीं करता कि वे क्या कर रहे हैं, इसलिए यह सिर्फ अटकल है
“लेकिन दूसरे tasks में क्षमता में सुधार smooth नहीं था। performance कुछ समय तक लगभग 0 पर रही और फिर अचानक उछली। दूसरी studies ने भी इसी तरह की ability jumps देखीं।”
वाह, submission title काफ़ी inaccurate नहीं है क्या
- वह paragraph पिछले शोध के नतीजों का सार दे रहा है, और यह पेपर उन्हीं नतीजों को चुनौती देता है
- इस संदर्भ में, मतलब यह लगता है कि ऐसी क्षमताओं का जानबूझकर अध्ययन किया गया और उन्हें बनाया गया, वे कहीं से भी अचानक नहीं निकल आईं
  दुनिया का बड़ा हिस्सा “AI” के अचानक उभरने से चौंक गया, लेकिन कुछ लोग ऐसे भी थे जिन्हें पता था कि ऐसी चीज़ें आने वाली हैं
आंशिक स्कोर देने वाला तरीका ठीक है, लेकिन अगर आप मॉडल को सही उत्तर देना सिखाना चाहते हैं, तो सही/गलत होना महत्वपूर्ण है
छोटे मॉडल से arithmetic सिखाते समय मैंने देखा कि loss curve स्थिर अवस्था तक पहुँचने के बाद भी, कुछ अंक सही होते हैं लेकिन उत्तर फिर भी गलत रहता है। और ट्रेनिंग कराई जा सकती है, लेकिन ऐसा लगता है कि आवश्यक training epochs की संख्या मॉडल के आकार के साथ घातांकीय रूप से उलटे अनुपात में है
इसलिए x parameters वाले मॉडल को 2x parameters वाले मॉडल की तुलना में n² गुना अधिक समय लग सकता है
parameters की एक निश्चित संख्या पर gradient descent training से सही उत्तर पाना व्यवहार में लगभग असंभव हो जाता है
parameters जितने अधिक हों, convergence की ओर ले जाना उतना आसान होता है, और यह वास्तव में महत्वपूर्ण metric है
एक बिंदु के बाद उस क्षमता के स्वतः उभरने तक का अपेक्षित समय मानव जीवन, यहाँ तक कि पूरी मानवता के जीवनकाल से भी लंबा हो जाता है। इस अर्थ में कि model size बढ़ाना इसे व्यवहारिक बनाता है, मैं कहूँगा कि वह क्षमता काफ़ी हद तक अचानक उभरती हुई मानी जा सकती है
- मुख्य बात यह है कि भले ही आप सही उत्तर देने वाला मॉडल चाहते हों, लक्ष्य से कितनी दूरी है यह देखने के लिए द्विआधारी accuracy की जगह आंशिक स्कोर का उपयोग करना चाहिए
  अगर आप ऐसा metric इस्तेमाल करते हैं जिसमें सुधार अचानक और अप्रत्याशित रूप से दिखाई देता है, तो क्षमता स्वतः उभर सकती है और यह अनुमान लगाना भी मुश्किल हो जाता है कि और कितनी training चाहिए
  इसके उलट, अगर partial-score metric सहज और पूर्वानुमेय ढंग से बेहतर होता है, तो accuracy को सीधे extrapolate करने की बजाय training progress को extrapolate करके यह आँका जा सकता है कि लक्ष्य accuracy तक कब पहुँचा जाएगा
  अगर अनुमानित समय बहुत लंबा हो, और इसलिए आप बड़ा मॉडल train करने का निर्णय लें, तो models के अलग-अलग sizes के बीच extrapolation करके यह भी अनुमान लगाया जा सकता है कि कितना बड़ा मॉडल चाहिए
- model training शायद continuity के लिए कुछ ज़्यादा ही optimized दिखती है। उदाहरण के लिए continuous variables को अनंत तक विभाजित किया जा सकता है, लेकिन logic और algorithms ऐसी धुँधली चीज़ें नहीं बल्कि ठोस संरचनाएँ हैं
  अगर learning agent को logic और algorithms ठीक से सीखने हैं, तो उसे धुँधली अवधारणाओं से ठोस अवधारणाओं तक generalize करने में सक्षम होना होगा। यह सिर्फ scaling से अपने-आप होगा या किसी बुनियादी बदलाव की ज़रूरत होगी, यह स्पष्ट नहीं है
- क्या आपने यह submission देखा? https://news.ycombinator.com/item?id=39575264
  यह आपस में जुड़ी हुई बात लगती है
अच्छा paper है। लेकिन emergence का मतलब ज़रूरी नहीं कि metric में अचानक छलांग या अप्रत्याशितता हो। नई क्षमताएँ धीरे-धीरे भी उभर सकती हैं
- machine learning में जब “emergence” कहा जाता है, तो उससे आम तौर पर वही sudden-jump metric मतलब होता है जिसका वर्णन इस शब्द को पेश करने वाले paper में किया गया था: https://arxiv.org/abs/2206.07682
मॉडल बिना किसी discontinuous jump के भी अधिक स्मार्ट हो रहा हो सकता है। हो सकता है कि partial answers को score न देने वाले measurement के कारण हम उस संकेत को चूक गए हों कि वह लगातार अधिक sharp होता जा रहा था
यह कुछ हद तक Sam Altman के दिखाई देने वाले विचारों से भी मेल खाता है। लगता है OpenAI को महसूस होता है कि training compute और data size के आधार पर model की reasoning ability का काफ़ी अच्छा अनुमान लगाया जा सकता है
- Sam Altman बिक्री-प्रमुख व्यक्ति के अधिक करीब हैं; यह उनकी व्यक्तिगत सोच कम और OpenAI में काम करने वाले अनेक विशेषज्ञों के विचारों की उनकी पुनरावृत्ति अधिक है
रुकी हुई घड़ी भी दिन में दो बार सही समय दिखाती है
LLM एक plausibility engine है। यहाँ जाँची जा रही मूल परिकल्पना यह है कि plausibility बढ़ने पर accuracy भी बढ़ती है
यह परिकल्पना LLM training में इस्तेमाल होने वाले मानव-लिखित content को देखकर ही आसानी से खारिज हो जाती है, और इसलिए उस पर निर्भर हर phenomenon की एक upper bound होगी। इसलिए सिर्फ LLM को बड़ा करने से AGI नहीं आएगा
- “LLM एक plausibility engine है” LLM को देखने का एक तरीका है, लेकिन सिर्फ इससे उसकी क्षमता पर अपने-आप कोई upper bound तय नहीं हो जाती
  यह कहना भी सही है कि मनुष्य प्रजनन करने वाले जीव हैं। ऊपर-ऊपर से देखें तो ऐसा लग सकता है कि मनुष्यों पर चयन केवल प्रजनन क्षमता के लिए होता है, इसलिए वे बुद्धिमत्ता की दिशा में evolve नहीं कर सकते; लेकिन वास्तविकता में ऐसा नहीं है। कोई श्रेणीकरण सही होने पर भी वह मानवीय क्षमता की सीमा तय नहीं करता
  LLM अधिकतम दक्षता से ज्ञान को संरक्षित करने की दिशा में evolve होते हैं
  ज्ञान संरक्षण की सबसे सरल रणनीति memorization है, और neural networks स्पष्ट रूप से memorization कर सकते हैं
  दूसरी रणनीति algorithms का उपयोग करना है। neural networks भी algorithms के माध्यम से ज्ञान संरक्षित करने की दिशा में evolve हो सकते हैं। उदाहरण के लिए, यह देखा गया कि एक छोटे neural network ने addition करने के लिए FFT जैसी संरचना विकसित कर ली। शुरुआत में वह memorization से शुरू हुआ और पूर्ण नहीं था, लेकिन training के बाद के चरण में वह FFT-आधारित addition algorithm पर शिफ्ट हो गया और पूरी तरह सही परिणाम देने लगा
  मेरा मानना है कि बेहतर LLM अधिक परिष्कृत compression के ज़रिए ज्ञान को संरक्षित करते हैं। इसमें world model बनाना और input text को उस model से जोड़ने का तरीका शामिल है
  मैं इसे reasoning machine के components मानता हूँ। यह अपूर्ण है, इसमें bugs भी हैं, और मौजूदा architecture शायद जल्द ही अपनी सीमा पर पहुँच जाए, लेकिन यह शुद्ध memorization से बिल्कुल अलग है
- आप मान रहे हैं कि मनुष्य plausibility नहीं बल्कि accuracy का लगातार पीछा करते हैं
  यह तथ्य कि पूरा scientific system plausibly सही लगने वाले लेकिन गलत दावों को दबाने के लिए डिज़ाइन किया गया है, उलटा ही दिखाता है
- दार्शनिक अर्थ में यह सही हो सकता है, लेकिन व्यावहारिक रूप से AI पहले से ही कई ऐसे कार्यों और नौकरियों में मनुष्यों से आगे निकलने की राह पर है, जिन्हें पहले बुद्धिमत्ता की आवश्यकता वाला माना जाता था
- “उस पर निर्भर हर phenomenon की upper bound होगी” वाला निष्कर्ष सुनने में plausible है, लेकिन counterexamples से आसानी से टूट जाता है। एक अच्छा छात्र अपने शिक्षक से आगे निकल सकता है, और एक सामान्य छात्र भी कई शिक्षकों से सीखकर उन सबको पार कर सकता है
  एक अलग बात के तौर पर, इसी वजह से मुझे लगता है कि मध्ययुगीन master-journeyman व्यवस्था बहुत कुशल थी
  अधिक अमूर्त रूप से कहें तो, यह निष्कर्ष मानो transfer learning के अस्तित्व को नकारता है
लेखक जिन metrics का इस्तेमाल कर रहे हैं, वे उलझाऊ लगते हैं
edit distance, model arithmetic को समझता है या नहीं, यह जाँचने का अजीब तरीका लगता है([1], Figure 3)। 1+3=3 को शायद 1+1=9 जितना ही सही माना जाएगा
मैं सोचता हूँ कि model output वास्तविक मान से कितना दूर है, यह abs(actual-expected) से क्यों नहीं देखा गया। यह भी जानना दिलचस्प होगा कि उस metric में भी inflection point है या नहीं
https://arxiv.org/abs/2206.07682
- यह इस पर निर्भर करता है कि arithmetic कैसे की जा रही है। अगर कोई व्यक्ति column addition कर रहा हो, तो 12345+35791=58136, 48146 जितनी ही बड़ी गलती है। वास्तविक परिणाम 48136 है, और दोनों में केवल एक digit column गलत है। binary half-adder भी इसी तरह काम करता है
  LLM arithmetic कैसे करते हैं, यह हमें नहीं पता। token edit distance दिलचस्प हो सकती है, लेकिन किसी भी स्थिति में paper का मुख्य दावा बहुत नहीं बदलता
  अलग से कहूँ तो, लिंक गलत है। जिस paper की बात हो रही है, वह यह है: https://arxiv.org/pdf/2304.15004.pdf

LLM की ‘अचानक उछाल’ वाली क्षमता वास्तव में क्रमिक और पूर्वानुमेय हो सकती है

BIG-bench में दिखी अचानक परफॉर्मेंस छलांग

Stanford का तर्क: मॉडल नहीं, metric ने भ्रम पैदा किया हो सकता है

मॉडल स्केल और मूल्यांकन का लक्ष्य

तीन अंकों के जोड़ में accuracy metric की सीमा

बहस अब भी बाकी है

बड़े मॉडलों का पूर्वानुमान लगाने की चुनौती

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय