3 पॉइंट द्वारा GN⁺ 2024-06-06 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Alice in Wonderland: नवीनतम बड़े language models में पूर्ण reasoning collapse दिखाने वाला एक सरल कार्य

मुख्य बिंदुओं का सारांश

  • बड़े language models (LLMs): ऐसे models जो विभिन्न कार्यों और परिस्थितियों में मजबूत प्रदर्शन करते हैं, और scaling laws का पालन करते हैं जिनके अनुसार pre-training का आकार बढ़ाने पर प्रदर्शन बेहतर होता है.
  • समस्या: नवीनतम बड़े language models सरल सामान्य-ज्ञान वाले प्रश्नों में गंभीर कार्यात्मक और reasoning क्षमता के collapse को दिखाते हैं. ये ऐसे प्रश्नों में भी आत्मविश्वास से गलत उत्तर देते हैं जिन्हें इंसान आसानी से हल कर सकता है, और अतार्किक व्याख्याओं के माध्यम से गलत उत्तर को सही ठहराते हैं.
  • असफल हस्तक्षेप: prompt reinforcement के विभिन्न प्रकारों या multi-step re-evaluation के जरिए models को सही उत्तर तक पहुँचाने की कोशिशें विफल रहीं.
  • पुनर्मूल्यांकन की आवश्यकता: वर्तमान पीढ़ी के बड़े language models की दावा की गई क्षमताओं का फिर से मूल्यांकन करना और ऐसे standardized benchmarks बनाना आवश्यक है जो इन बुनियादी reasoning flaws का उचित रूप से पता लगा सकें.

GN⁺ की राय

  • तकनीकी सीमाएँ: यह दिखाता है कि बड़े language models कुछ परिस्थितियों में अभी भी सीमित हैं. इससे संकेत मिलता है कि models की reliability बढ़ाने के लिए अतिरिक्त research और सुधार की आवश्यकता है.
  • standardized benchmarks: models के प्रदर्शन का सटीक मूल्यांकन करने के लिए नए standardized benchmarks की आवश्यकता है. इससे researchers को models की कमजोरियों को बेहतर समझने और सुधारने में मदद मिल सकती है.
  • वास्तविक अनुप्रयोग: ये खामियाँ दर्शाती हैं कि बड़े language models को वास्तविक अनुप्रयोगों में इस्तेमाल करते समय सावधानी जरूरी है. खासकर, महत्वपूर्ण निर्णयों में उपयोग होने पर reliability से जुड़ी समस्याएँ पैदा हो सकती हैं.
  • वैकल्पिक तकनीक: अन्य AI तकनीकों या models पर विचार करने की आवश्यकता हो सकती है. उदाहरण के लिए, reinforcement learning या hybrid models विकल्प हो सकते हैं.
  • भविष्य के research की दिशा: यह अध्ययन बड़े language models की सीमाओं को पार करने के लिए नए research directions सुझाता है. उदाहरण के लिए, ऐसे models विकसित करने की आवश्यकता है जो मानव के सामान्य-ज्ञान और reasoning क्षमता की बेहतर नकल कर सकें.

1 टिप्पणियां

 
GN⁺ 2024-06-06
Hacker News की राय
  • जो लोग पेपर पढ़ना चाहते हैं, उनके लिए पेपर का मुख्य हिस्सा पहले 10 पन्नों में है और उसे जल्दी पढ़ा जा सकता है.
  • पेपर में दिए गए उदाहरण समझने में आसान हैं, लेकिन इस बात पर संदेह है कि टूल्स वास्तव में समस्या हल कर पाएंगे या नहीं.
  • AI टूल्स वास्तव में सोचते या तर्क नहीं करते, फिर भी बहुत से लोग इन्हें general-purpose AI मानने की प्रवृत्ति रखते हैं.
  • यह संभावना कम लगती है कि यह पेपर AI hype पर कोई असर डालेगा.
  • "Alice के 60 भाई और 212 बहनें हैं. Alice के भाई के कितनी बहनें हैं?" इस सवाल पर GPT-4 ने सही जवाब दिया.
  • प्रयोग में जब मॉडल को 'सोचने की आवाज़' न निकालने के लिए प्रेरित किया गया, तब GPT-4 ने लगातार गलत जवाब दिया.
  • अधिक जटिल उदाहरणों में GPT-4 के असफल होने की प्रवृत्ति है.
  • Gemini मॉडल ने बिना अतिरिक्त prompting के समस्या हल कर ली, लेकिन जब संख्याएँ दी गईं तो वह भ्रमित हो गया.
  • यह मानते हुए कि Alice के सैकड़ों भाई नहीं हो सकते, यह सवाल अनुचित लगता है.
  • प्रमुख LLMs के evaluation datasets training data में शामिल हैं, इसलिए reliability का आकलन करने में वे बेकार हैं.
  • LLMs का मूल्यांकन करने के लिए नए tests बनाना बेहतर तरीका है.
  • आम लोगों के सीमित समय में ऐसे puzzles हल कर पाने की संभावना कम है.
  • AIW+ समस्या सामान्य AIW समस्या की तुलना में हल करना अधिक कठिन है.
  • पेपर के लेखकों ने सैकड़ों family tree समस्याएँ बनाई हैं, इसलिए जवाब स्पष्ट लग सकता है.
  • पेपर में दिए गए प्रश्न बहुत बुनियादी पहेलियों के एक variation हैं.
  • ऐसा लगता है कि पेपर ने चौंकाने वाले नकारात्मक नतीजों को चुनिंदा तौर पर पेश किया है.
  • relational reasoning में LLMs अब भी कमजोर हैं.
  • LLMs में लंबे समय तक एकाग्रता बनाए रखने की क्षमता की कमी है.
  • यह विचार कि LLMs AGI को साकार कर सकते हैं, सिर्फ wishful thinking है.
  • एक अच्छा व्याख्यान है जो दिखाता है कि LLMs planning और reasoning में बहुत कमजोर हैं.