1 पॉइंट द्वारा GN⁺ 2024-03-26 | 1 टिप्पणियां | WhatsApp पर शेयर करें

बड़े भाषा मॉडलों की अप्रत्याशित कौशल-सीखने की रफ्तार कितनी तेज है?

  • बड़े भाषा मॉडल (Large Language Models, LLMs) की क्षमताओं पर नया शोध यह सुझाव देता है कि तथाकथित 'अचानक उछाल' क्षमताएँ वास्तव में धीरे-धीरे और पूर्वानुमेय तरीके से विकसित होती हैं।
  • शोधकर्ताओं ने इन क्षमताओं को 'अचानक उछाल' व्यवहार के रूप में वर्णित किया, और इसकी तुलना भौतिकी में द्रव के बर्फ में बदलने वाले phase transition से की।
  • लेकिन Stanford University के शोधकर्ताओं का तर्क है कि इन क्षमताओं का अचानक प्रकट होना दरअसल इस बात का परिणाम है कि शोधकर्ता LLM के प्रदर्शन को किस तरह मापते हैं।

बड़े भाषा मॉडलों के प्रदर्शन का मापन

  • बड़े भाषा मॉडल विशाल text datasets का विश्लेषण करके उन शब्दों के बीच संबंध खोजते हैं जो अक्सर साथ दिखाई देते हैं।
  • मॉडल का आकार parameters की संख्या से मापा जाता है, और जितने अधिक parameters होते हैं, LLM उतने अधिक संबंध खोज सकता है।
  • GPT-2 में 1.5 अरब parameters थे, GPT-3.5 में 350 अरब, और GPT-4 में 1.75 ट्रिलियन parameters का उपयोग होता है।

अप्रत्याशित क्षमताओं का क्रमिक विकास

  • Stanford University के शोधकर्ताओं का कहना है कि LLM की क्षमताएँ अचानक और अप्रत्याशित रूप से नहीं, बल्कि क्रमिक और पूर्वानुमेय रूप से सामने आती हैं।
  • उदाहरण के लिए, तीन-अंकीय जोड़ में GPT-3 और LaMDA कम parameters होने पर सही गणना करने में विफल रहे, लेकिन parameters बढ़ने के साथ वे अचानक जोड़ करने में सक्षम दिखाई दिए।
  • शोधकर्ताओं ने केवल accuracy से LLM का मूल्यांकन करने के बजाय partial credit देने वाली मापन पद्धति अपनाई, जिससे पता चला कि LLM धीरे-धीरे सही अंकों के क्रम का अनुमान लगाना सीखते हैं।

अन्य वैज्ञानिकों के विचार

  • अन्य वैज्ञानिकों ने संकेत दिया कि यह शोध 'अचानक उछाल' की अवधारणा को पूरी तरह समाप्त नहीं करता।
  • कौन-सा मापन मानदंड उपयोगी होगा, या LLM का प्रदर्शन कब तेज़ी से बेहतर होगा, इसका अनुमान लगाने का तरीका अभी भी अनिश्चित है।
  • कुछ वैज्ञानिकों का कहना है कि पहले की 'अचानक उछाल' रिपोर्टें सही थीं, और अंकगणित जैसी क्षमताओं में सही उत्तर ही सब कुछ है।

GN⁺ की राय

  • यह शोध AI की सुरक्षा और संभावित जोखिमों पर चर्चा के लिए महत्वपूर्ण प्रभाव डाल सकता है। यदि LLM की क्षमताएँ पूर्वानुमेय तरीके से विकसित होती हैं, तो यह AI के सुरक्षित विकास और प्रबंधन के लिए एक अहम संकेतक हो सकता है।
  • जब ये शोध-निष्कर्ष वास्तविक AI development में लागू होंगे, तब developers को प्रदर्शन मापन के तरीकों के महत्व को समझना होगा और अधिक परिष्कृत evaluation methods तैयार करने होंगे।
  • यह लेख AI research की अग्रिम पंक्ति में हो रहे बदलावों और प्रगति को समझने में मदद कर सकता है, खासकर AI मॉडल के प्रदर्शन का आकलन करने के तरीकों पर एक नया दृष्टिकोण देता है।
  • आलोचनात्मक दृष्टि से देखें तो यह मानना होगा कि शोध-निष्कर्ष सभी LLM के प्रदर्शन-सुधार को नहीं समझाते, और बड़े व अधिक जटिल मॉडलों में 'अचानक उछाल' जैसी घटना अभी भी हो सकती है।
  • इस तकनीक के संदर्भ में OpenAI की GPT series पहले से ही बाजार में व्यापक रूप से उपयोग हो रही है, और यह शोध GPT जैसे अन्य LLMs के विकास को प्रेरित कर सकता है।

1 टिप्पणियां

 
GN⁺ 2024-03-26
Hacker News राय
  • शोध से जुड़े कुछ मुद्दे

    • शोध में इस्तेमाल की गई मूल्यांकन पद्धति तकनीकी क्षमता को सही तरह से प्रतिबिंबित नहीं कर सकती।
    • लेखकों के मापदंडों के बावजूद कुछ संभावित क्षमताएँ दिखाई देती हैं।
    • पिछले डेटा के आधार पर नतीजों का अनुमान लगाना आसान है, लेकिन वास्तव में अप्रत्याशित परिणाम सामने आना ही महत्वपूर्ण घटना है।
    • इस पेपर में मूल्य है, लेकिन इसके निष्कर्षों को जरूरत से ज्यादा नहीं फैलाना चाहिए।
  • भविष्यवाणी की कठिनाई

    • भविष्य की भविष्यवाणी करना अक्सर उसके घटित हो जाने के बाद ही आसान लगता है।
    • उच्च-स्तरीय क्षमताएँ कई उप-क्षमताओं पर निर्भर करती हैं और उनका अनुमान लगाना कठिन होता है।
    • भविष्यवाणी के लिए जरूरी बुनियादी तत्वों की पहले से पहचान करनी होगी और यह सिमुलेट करना होगा कि उन्हें किस स्तर तक पहुँचना है।
    • डेटा का प्रकार और गुणवत्ता भी महत्वपूर्ण हैं, और मॉडल वर्ज़नों के बीच तेज बदलाव हो सकते हैं।
  • मापदंड बदलने पर परिणामों में बदलाव

    • अलग मापदंड इस्तेमाल करने पर दिखाई देने वाली घटना गायब हो सकती है।
    • यदि पानी के अणुओं को अलग-अलग देखा जाए, तो अचानक उभरे बर्फ के ढेले की बजाय क्रिस्टलीय संरचना का क्रमिक निर्माण दिखाई दे सकता है।
  • पेपर का शीर्षक: "Are Emergent Abilities of Large Language Models a Mirage?"

  • क्षमताओं में अचानक बदलाव के अवलोकन

    • अन्य शोधों में भी क्षमताओं में अचानक छलांग देखी गई है।
    • मॉडल संभवतः धीरे-धीरे अधिक स्मार्ट हो रहे हों, और आंशिक उत्तरों के लिए अंक न देने वाली माप पद्धति इस प्रगति को नज़रअंदाज़ कर सकती है।
  • आंशिक अंक दृष्टिकोण और मॉडल प्रशिक्षण

    • आंशिक अंक देना अच्छा है, लेकिन सही उत्तर पाने के लिए प्रशिक्षण महत्वपूर्ण है।
    • मॉडल का आकार जितना बड़ा होता है, convergence तक पहुँचना उतना आसान हो सकता है।
    • मॉडल का आकार बढ़ने के साथ क्षमताएँ अचानक प्रकट होती हुई लग सकती हैं।
  • क्षमताओं का क्रमिक उभरना

    • क्षमताओं के प्रकट होने के लिए अचानक छलांग या अप्रत्याशितता जरूरी नहीं है।
    • नई क्षमताएँ धीरे-धीरे उभर सकती हैं।
  • Large Language Models (LLMs) की सीमाएँ

    • LLMs संभावनाओं का आकलन करने वाले इंजन हैं।
    • केवल LLMs का स्केल बढ़ाने भर से Artificial General Intelligence (AGI) नहीं बन जाएगी।
  • मापदंड को लेकर भ्रम

    • edit distance का उपयोग करने वाली माप पद्धति उपयुक्त नहीं हो सकती।
    • यह जाँचने का अजीब तरीका लगता है कि मॉडल arithmetic को समझता है या नहीं।
    • वास्तविक और अपेक्षित मान के बीच के अंतर को ध्यान में रखना बेहतर हो सकता है।
    • पेपर लिंक: arXiv:2206.07682