बड़े भाषा मॉडलों की अप्रत्याशित कौशल-सीखने की रफ्तार कितनी तेज है?
- बड़े भाषा मॉडल (Large Language Models, LLMs) की क्षमताओं पर नया शोध यह सुझाव देता है कि तथाकथित 'अचानक उछाल' क्षमताएँ वास्तव में धीरे-धीरे और पूर्वानुमेय तरीके से विकसित होती हैं।
- शोधकर्ताओं ने इन क्षमताओं को 'अचानक उछाल' व्यवहार के रूप में वर्णित किया, और इसकी तुलना भौतिकी में द्रव के बर्फ में बदलने वाले phase transition से की।
- लेकिन Stanford University के शोधकर्ताओं का तर्क है कि इन क्षमताओं का अचानक प्रकट होना दरअसल इस बात का परिणाम है कि शोधकर्ता LLM के प्रदर्शन को किस तरह मापते हैं।
बड़े भाषा मॉडलों के प्रदर्शन का मापन
- बड़े भाषा मॉडल विशाल text datasets का विश्लेषण करके उन शब्दों के बीच संबंध खोजते हैं जो अक्सर साथ दिखाई देते हैं।
- मॉडल का आकार parameters की संख्या से मापा जाता है, और जितने अधिक parameters होते हैं, LLM उतने अधिक संबंध खोज सकता है।
- GPT-2 में 1.5 अरब parameters थे, GPT-3.5 में 350 अरब, और GPT-4 में 1.75 ट्रिलियन parameters का उपयोग होता है।
अप्रत्याशित क्षमताओं का क्रमिक विकास
- Stanford University के शोधकर्ताओं का कहना है कि LLM की क्षमताएँ अचानक और अप्रत्याशित रूप से नहीं, बल्कि क्रमिक और पूर्वानुमेय रूप से सामने आती हैं।
- उदाहरण के लिए, तीन-अंकीय जोड़ में GPT-3 और LaMDA कम parameters होने पर सही गणना करने में विफल रहे, लेकिन parameters बढ़ने के साथ वे अचानक जोड़ करने में सक्षम दिखाई दिए।
- शोधकर्ताओं ने केवल accuracy से LLM का मूल्यांकन करने के बजाय partial credit देने वाली मापन पद्धति अपनाई, जिससे पता चला कि LLM धीरे-धीरे सही अंकों के क्रम का अनुमान लगाना सीखते हैं।
अन्य वैज्ञानिकों के विचार
- अन्य वैज्ञानिकों ने संकेत दिया कि यह शोध 'अचानक उछाल' की अवधारणा को पूरी तरह समाप्त नहीं करता।
- कौन-सा मापन मानदंड उपयोगी होगा, या LLM का प्रदर्शन कब तेज़ी से बेहतर होगा, इसका अनुमान लगाने का तरीका अभी भी अनिश्चित है।
- कुछ वैज्ञानिकों का कहना है कि पहले की 'अचानक उछाल' रिपोर्टें सही थीं, और अंकगणित जैसी क्षमताओं में सही उत्तर ही सब कुछ है।
GN⁺ की राय
- यह शोध AI की सुरक्षा और संभावित जोखिमों पर चर्चा के लिए महत्वपूर्ण प्रभाव डाल सकता है। यदि LLM की क्षमताएँ पूर्वानुमेय तरीके से विकसित होती हैं, तो यह AI के सुरक्षित विकास और प्रबंधन के लिए एक अहम संकेतक हो सकता है।
- जब ये शोध-निष्कर्ष वास्तविक AI development में लागू होंगे, तब developers को प्रदर्शन मापन के तरीकों के महत्व को समझना होगा और अधिक परिष्कृत evaluation methods तैयार करने होंगे।
- यह लेख AI research की अग्रिम पंक्ति में हो रहे बदलावों और प्रगति को समझने में मदद कर सकता है, खासकर AI मॉडल के प्रदर्शन का आकलन करने के तरीकों पर एक नया दृष्टिकोण देता है।
- आलोचनात्मक दृष्टि से देखें तो यह मानना होगा कि शोध-निष्कर्ष सभी LLM के प्रदर्शन-सुधार को नहीं समझाते, और बड़े व अधिक जटिल मॉडलों में 'अचानक उछाल' जैसी घटना अभी भी हो सकती है।
- इस तकनीक के संदर्भ में OpenAI की GPT series पहले से ही बाजार में व्यापक रूप से उपयोग हो रही है, और यह शोध GPT जैसे अन्य LLMs के विकास को प्रेरित कर सकता है।
1 टिप्पणियां
Hacker News राय
शोध से जुड़े कुछ मुद्दे
भविष्यवाणी की कठिनाई
मापदंड बदलने पर परिणामों में बदलाव
पेपर का शीर्षक: "Are Emergent Abilities of Large Language Models a Mirage?"
क्षमताओं में अचानक बदलाव के अवलोकन
आंशिक अंक दृष्टिकोण और मॉडल प्रशिक्षण
क्षमताओं का क्रमिक उभरना
Large Language Models (LLMs) की सीमाएँ
मापदंड को लेकर भ्रम