21 पॉइंट द्वारा GN⁺ 2025-06-07 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Large Reasoning Models (LRMs) ने जटिल समस्या-समाधान में कुछ स्तर तक प्रदर्शन सुधार दिखाया है, लेकिन मौलिक सीमाएँ और scalability समस्याएँ स्पष्ट रूप से सामने आई हैं
  • LRMs में समस्या की कठिनाई बढ़ने पर reasoning process का तेज़ी से ढह जाना देखा गया, और विश्लेषण में यह भी पाया गया कि reasoning effort (token उपयोग) एक सीमा के बाद बढ़ने के बजाय घटने लगता है
  • समान computational resources के तहत standard LLMs और LRMs की तुलना करने पर, कम कठिनाई में standard LLM बेहतर रहे, मध्यम कठिनाई में LRMs को बढ़त मिली, और उच्च कठिनाई में दोनों विफल रहे
  • स्पष्ट algorithmic reasoning और सुसंगत thinking process में LRMs निर्णायक सीमाएँ दिखाते हैं, और हर puzzle environment में अलग या असंगत व्यवहार करते हैं
  • इस शोध से मौजूदा reasoning models की reliability और scalability की सीमाएँ पुष्ट होती हैं, इसलिए अगली पीढ़ी के AI design में अधिक सटीक evaluation और architectural सुधार की आवश्यकता है
  • Apple का शोधपत्र, "The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity"

अवलोकन और शोध का उद्देश्य

  • हाल के समय में Large Language Models आधारित reasoning-focused models (LRMs) के उभरने के साथ, इनके समस्या-समाधान के दौरान “सोच” की संरचना और सीमाओं को समझने की आवश्यकता बढ़ी है
  • वर्तमान में अधिकांश evaluations गणित और coding benchmarks पर answer accuracy केंद्रित हैं, लेकिन इससे data contamination या आंतरिक “thinking” process की गुणवत्ता को सही तरह नहीं मापा जा सकता
  • यह शोध ऐसे puzzle environments पेश करता है जिनमें logical structure बनाए रखते हुए complexity को सटीक रूप से नियंत्रित किया जा सकता है, ताकि केवल अंतिम उत्तर ही नहीं बल्कि आंतरिक reasoning flow का भी विश्लेषण किया जा सके

मूल्यांकन परिवेश और प्रयोग की विधि

puzzle environment डिज़ाइन

  • व्यवस्थित complexity control और प्रयोगात्मक नियंत्रण के लिए नीचे दिए गए चार puzzle environments का उपयोग किया गया
    • Tower of Hanoi: discs की संख्या से कठिनाई नियंत्रित की गई; optimal solution का मूल्यांकन नहीं किया गया, बल्कि target state तक पहुँचना सही उत्तर माना गया
    • Checker Jumping: लाल-नीले checkers और खाली स्थानों की संख्या से complexity नियंत्रित की गई; अंतिम लक्ष्य positions को आपस में बदलना था
    • River Crossing: actor-agent pairs की संख्या और boat capacity से कठिनाई नियंत्रित की गई; constraints के तहत सभी को पार कराना लक्ष्य था
    • Block World: blocks की संख्या से नियंत्रण; initial state से target stacked state तक पहुँचना लक्ष्य था

हर environment में puzzle elements की संख्या बदलकर complexity को बारीकी से बढ़ाया जा सकता है।

प्रमुख प्रयोगात्मक परिणाम

1. complexity के अनुसार reasoning के तीन पैटर्न

  • कम complexity: standard LLM, LRMs की तुलना में ज़्यादा efficient (token बचत) रहे, और कई मामलों में accuracy भी अधिक रही
  • मध्यम complexity: LRMs की लंबी Chain-of-Thought और self-reflective reasoning ने प्रदर्शन लाभ दिखाया
  • उच्च complexity: दोनों मॉडल तुरंत performance collapse (accuracy 0) दिखाते हैं; इस बिंदु पर LRMs में reasoning tokens का उपयोग भी घटता हुआ देखा गया, जो एक अकार्यकुशल पैटर्न है

2. reasoning trace का गहन विश्लेषण

  • “overthinking”: कम complexity वाली समस्याओं में LRMs शुरुआती चरण में सही उत्तर पा लेने के बाद भी गलत दिशाओं में खोज दोहराते हैं, जिससे अनावश्यक computation waste का पैटर्न दिखता है
  • मध्यम कठिनाई: गलत उत्तर की पहचान के बाद धीरे-धीरे सही उत्तर तक पहुँचते हैं, लेकिन इसके लिए पहले से अधिक exploration की आवश्यकता होती है
  • उच्च कठिनाई: पूरे reasoning flow में सही समाधान उत्पन्न न कर पाने का "collapse" देखा गया

3. algorithm execution की सीमाएँ

  • यदि prompt में तय algorithm दिया जाए तब भी मॉडल उसे भरोसेमंद तरीके से साधारण execution के रूप में नहीं चला पाते
  • इससे संकेत मिलता है कि समस्या केवल “सही उत्तर ढूँढने” की नहीं, बल्कि logical structure का सही पालन करते हुए symbolic manipulation क्षमता की मूलभूत कमी की भी है

4. benchmark और data contamination समस्या

  • मौजूदा math benchmarks (MATH500, AIME24, AIME25) पर thinking/non-thinking models के बीच performance gap सुसंगत नहीं था
  • खासकर AIME25 में data contamination की संभावना के कारण मॉडल की वास्तविक reasoning क्षमता का मूल्यांकन कठिन हो जाता है

शोध के निष्कर्ष और संकेत

  • यह शोध puzzle-based precise evaluation environment पेश करता है और यह गहराई से जाँचता है कि reasoning LLMs में वास्तव में सोचने की क्षमता है या नहीं, और उनकी सीमाएँ कहाँ प्रकट होती हैं
  • मौजूदा reasoning models में एक मौलिक सीमा है, जहाँ एक खास complexity के बाद वे पूरी तरह collapse हो जाते हैं; इसे केवल token budget बढ़ाकर या साधारण self-reflection मज़बूत करके हल नहीं किया जा सकता
  • मौजूदा evaluation methods की सीमाओं पर प्रश्न उठाए गए हैं और अधिक प्रयोगशाला-आधारित measurement environment का प्रस्ताव दिया गया है
  • वर्तमान SOTA reasoning models भी सामान्य problem-solving क्षमता हासिल नहीं कर पाए हैं
  • complexity के अनुसार reasoning token उपयोग की scaling limits मौजूद हैं
  • मध्यवर्ती thinking trace आधारित evaluation method प्रस्तुत की गई है, जिसमें self-correction और error exploration mechanisms का विश्लेषण शामिल है
  • स्पष्ट algorithm execution की विफलता और असंगति सामने आती है
  • ये परिणाम अगली पीढ़ी के AI design, reliability evaluation, और data contamination से बचने वाले environments में model performance मापने के महत्व को रेखांकित करते हैं

संबंधित शोध रुझान

  • CoT (Chain-of-Thought), self-verification techniques, और reinforcement learning आधारित reasoning enhancement जैसे कई प्रयास किए गए हैं
  • उच्च-गुणवत्ता वाले CoT data को प्राप्त करने की कठिनाई, और supervised/RL approaches की सीमाएँ भी सामने आई हैं
  • प्रमुख उदाहरणों में DeepSeek-R1 और Claude 3.7 Sonnet Thinking शामिल हैं
  • “overthinking” phenomenon और benchmark contamination के कारण evaluation metrics की reliability पर प्रश्न उठते हैं
  • ऐसे puzzle environment आधारित evaluations की आवश्यकता पर ज़ोर दिया गया है जिनमें problem complexity को बारीकी से नियंत्रित किया जा सके

आगे की चुनौतियाँ और सीमाएँ

  • reasoning models में स्पष्ट logic-following / symbolic manipulation से जुड़ी मूलभूत सीमाओं पर आगे और शोध की आवश्यकता है
  • हर puzzle environment के अनुसार model behavior का असंगत होना (जैसे Tower of Hanoi और River Crossing में performance अंतर) data-driven reasoning की सीमाओं की ओर संकेत करता है
  • AI systems के design में मध्यवर्ती reasoning flow और logical consistency को शामिल करने वाला सटीक verification अनिवार्य है

यह विश्लेषण केवल व्यावहारिक उपयोग के लिए ही नहीं, बल्कि अगली पीढ़ी के reasoning AI की design और evaluation framework के लिए भी महत्वपूर्ण संकेत देता है।

1 टिप्पणियां

 
GN⁺ 2025-06-07
Hacker News राय
  • मुझे लगता है कि LLM भाषा का उपयोग करते हैं, इसलिए हमारे भ्रमित होने की एक वजह यह भी है। ‘Biology of Large Language Models’ और ‘Safety Alignment Should Be Made More Than Just a Few Tokens Deep’ को देखें, तो उनके भीतर वास्तव में जो हो रहा होता है, वह इंसानों से पूरी तरह अलग है, इसलिए नतीजों में कई बातें अजनबी लगती हैं
    टेक्नोलॉजी से सिस्टम डिज़ाइन करते हुए या ऐसे ढांचे पर सोचते हुए जो अपने हिस्सों के योग से बड़ा परिणाम पैदा करे, फिर भी उनकी क्षमताओं को साफ़ तौर पर समझना अब भी मुश्किल है
    काम करने के सिद्धांत को जानने के बावजूद, भाषा को संभालने का उनका तरीका किसी जादू जैसा अजीब लगता है
    इसलिए अपने विचार व्यवस्थित करने के लिए मैंने यह लेख भी लिखा
    मुझे लगता है कि इस तरह का शोध सचमुच शानदार है, और आगे टोकनों का अच्छा उपयोग कैसे किया जाए और चीज़ों को सही तरह से कैसे बनाया जाए, इसे समझने की और भी बहुत ज़्यादा ज़रूरत है
    [संदर्भ लिंक]

    • Biology of Large Language Models

    • Safety Alignment Should Be Made More Than Just a Few Tokens Deep

    • मैं इस चिंता से सहमत हूँ कि पूरे सिस्टम को उसके हिस्सों के योग से बड़ा कैसे बनाया जाए, और व्यक्तिगत रूप से मुझे लगता है कि प्रोग्रामिंग खुद वही भूमिका निभाती है
      अगर काम या समस्या को छोटे-छोटे हिस्सों में बाँट दिया जाए, जिनके बीच न्यूनतम इंटरैक्शन हो, तो उनका संयोजन एक बड़ा परिणाम देने वाला ढांचा बना सकता है
      मुझे यक़ीन है कि अगर इस प्रक्रिया को प्रोग्रामिंग workflow में अच्छी तरह पिरो दिया जाए, तो अपेक्षाकृत कमज़ोर LLM को भी स्वाभाविक रूप से समाधान के एक हिस्से की तरह इस्तेमाल किया जा सकता है

    • इसके उलट, यह भी हो सकता है कि पूरा सिस्टम अपने हर हिस्से से भी बदतर निकले
      अलग-अलग काम तो ठीक चलते हैं, लेकिन उन्हें जोड़ने पर सब उलझ जाता है, ऐसी समस्या भी मौजूद है
      यह आगे सुधरने वाली चीज़ है, लेकिन चूँकि हर समस्या को optimize नहीं किया जा सकता, इसलिए आख़िरकार specialized तरीके ज़्यादा प्रभावी हो सकते हैं, यह सोच भी साथ रहती है

  • मानव भाषा खुद एक cognitive tool के रूप में परफेक्ट नहीं है, लेकिन मेरा मानना है कि इसे बुनियादी स्तर पर नहीं बल्कि ऊपरी परतों में, जैसे संचार और उच्च-स्तरीय reasoning में, अच्छी तरह इस्तेमाल किया जाता है
    मानव भाषा स्वभाव से अस्पष्ट और अपूर्ण है, इसलिए वातावरण के साथ सीधे इंटरैक्ट करने के तरीक़े की तुलना में यह मज़बूत cognition बनाने के लिए काफ़ी नहीं लगती
    इसलिए अगर LLM/LRM मॉडल की भाषा-प्रवाहिता और knowledge retrieval क्षमता को ही intelligence का पैमाना मान लिया जाए, तो आसानी से धोखा खाया जा सकता है

  • मौजूदा benchmark (जैसे गणित के सवाल) की जगह ऐसी puzzle environment लाने का विचार, जिसमें कठिनाई को व्यवस्थित रूप से नियंत्रित किया जा सके, मुझे सचमुच बहुत चतुर लगा
    यह विश्लेषण भी दिलचस्प है कि आसान कार्यों में मौजूदा मॉडल, मध्यम जटिलता में LRM, और बहुत ऊँची कठिनाई पर सबके सब विफल हो जाते हैं
    मुझे लगता है कि ऐसे complexity range का और ज़्यादा ‘map’ बनाना चाहिए
    यह जानने की जिज्ञासा है कि आर्थिक मूल्य और complexity range का mapping कैसे होता है
    इसे समझने के लिए साधारण puzzles से आगे बढ़कर वास्तविक आर्थिक कार्यों पर लागू होने वाले परिष्कृत evaluation methods की ज़रूरत होगी

  • मुझे लगता है कि लेखक जो मुख्य intuition देना चाहते हैं, वह इस विश्वास में है कि मॉडल ‘सर्वज्ञ लेकिन मूर्ख’ हैं
    मैंने ऐसा कोई paper नहीं देखा जो इस सवाल को संख्यात्मक रूप से ठीक से संभालता हो, इसलिए इस शोध से भी शायद पूरी सहमति बनना मुश्किल रहेगा
    AI optimist मानते हैं कि मॉडल की मूर्खता कम हुई है, जबकि skeptic सोचते हैं कि केवल ज्ञान की मात्रा बढ़ी है, इसलिए दोनों पक्षों की दूरी घटाना मुश्किल है
    फिर भी मुझे लगता है कि इस प्रश्न पर चर्चा जारी रहनी चाहिए
    क्योंकि अगर मॉडल सर्वज्ञ तो हों लेकिन मूर्ख ही रहें, तो AI सुपरइंटेलिजेंस (ASI) तो दूर, मौजूदा SaaS स्तर के assistant से आगे नहीं बढ़ पाएगा, और उसका आर्थिक प्रभाव भी सीमित रहेगा
    उम्मीद है कि किसी दिन लेखक इस समस्या का शानदार समाधान निकालेंगे

    • हम बार-बार इस तकनीक पर मानवीय विशेषण चिपका देते हैं, जैसे सर्वज्ञ, मूर्ख वगैरह, और इसे व्यक्तित्व दे देते हैं, जबकि मुझे लगता है कि यह ऐसे किसी तत्व के बिना एक शुद्ध tool है
      LRM जो करता है, वह बस अंतिम उत्तर के लिए context data (जो उसने खुद बनाया) को tune करना है
      यह प्रक्रिया अपने आप में एक बेहतरीन विचार है, लेकिन फिर भी यह hallucination जैसी बुनियादी सीमाओं को हल नहीं करती
      मैंने ऐसे मामले भी देखे हैं जहाँ बातचीत के शुरू में मॉडल लगभग सही तर्क देता है, लेकिन लगातार ‘रुको!’ जैसी आत्म-नकार की प्रक्रिया में नतीजा बिगाड़ देता है
      इस तरह अगर हम इसे ज़रूरत से ज़्यादा मानवीय गुण दे दें, तो बाज़ार में बस overhype पैदा होगा और विकास में बाधा पड़ेगी
      आख़िरकार यह तकनीक असली artificial intelligence नहीं, बल्कि बड़े पैमाने की pattern matching और probabilistic data generation engine है
      यह अब भी उपयोगी है, लेकिन इसे ज़रूरत से ज़्यादा मानवीय बना देने से चर्चा गड़बड़ा जाती है

    • AI को लेकर मेरे भीतर उम्मीद और डर दोनों साथ हैं, क्योंकि पिछले कुछ वर्षों में AI उतना ‘ज़्यादा स्मार्ट’ नहीं हुआ, लेकिन उसकी वास्तविक व्यावहारिक क्षमता बहुत ज़्यादा सुधरी है
      ज्ञान, tools और context के उपयोग की क्षमता बहुत बढ़ी है
      इसलिए मुझे सबसे ज़्यादा डर ‘reasoning/agency capability’ की standby स्थिति से लगता है
      यानी लगभग सर्वज्ञ ज्ञान से एक कदम आगे जाकर, वास्तव में सटीक रणनीतिक निर्णयों को parallel में करने के लिए शायद अब केवल एक-दो breakthroughs की कमी है
      अगर वे दोनों चीज़ें जुड़ गईं, तो नतीजा सचमुच डरावना हो सकता है
      क्योंकि फिर ऐसा AI आ सकता है जो किसी ऐसे प्रतिभाशाली व्यक्ति की तरह हो जो इंसानों से 6 चाल आगे सोचता हो, और मेरे सोचने के प्रवाह को ही दिशा दे
      अभी frontier AI researchers भी reasoning + agency को सबसे ऊँची प्राथमिकता दे रहे हैं, इसलिए तेज़ प्रगति होने का माहौल लग रहा है
      मौजूदा LLM तात्कालिक पहचान में बेहतरीन हैं, लेकिन

      1. सचमुच लंबी step-by-step reasoning / strategy planning
      2. reasoning-आधारित तेज़ रणनीतिक action, उस स्तर की जहाँ विशेषज्ञ intuition से एक ही बार में उत्तर पकड़ लेते हैं
        इन दोनों में अब भी कमी है
        इसे हल करने के लिए बुनियादी System 2 reasoning की ज़रूरत पड़ सकती है (‘System 1’ मौजूदा transformer है), या फिर शायद बेहतर data और algorithm से ‘strategic intuition’ को जल्दी सीखने वाला तरीका बन जाए
        बेशक, यह भी हो सकता है कि समस्या की कठिनाई इतनी ज़्यादा हो कि यह चरणबद्ध बाधाओं का मामला हो, या फिर इसके लिए अत्यधिक computing power चाहिए
        इसलिए पक्का नहीं कह सकता, लेकिन बहुत शक्तिशाली प्रगति होने की आशंका मुझे काफ़ी डराती है
    • मुझे नहीं लगता कि किसी सर्वज्ञ लेकिन मूर्ख सत्ता के लिए मानव-स्तरीय बुद्धि पर रुक जाने की कोई अलग वजह है

  • यह सवाल है कि क्या Apple AI में असफल हो रहा है, या उसने बस अपनी R&D दिशा बदलकर यह मान लिया है कि AI उतना महत्वपूर्ण नहीं है

    • हाल में जिस तरह AI features बड़े पैमाने पर consumer products में लाए जा रहे हैं, उसे देखकर लगता है कि मक़सद उपयोगकर्ता से ज़्यादा निवेशकों को तकनीकी क्षमता दिखाना है
      वास्तव में Apple, Google, Meta, Microsoft, Samsung सभी उम्मीद से कमज़ोर AI features को ज़ोरदार marketing के साथ पेश कर रहे हैं, जबकि नतीजे अच्छे नहीं हैं
      इसलिए यह भी संभव है कि Apple का नया रास्ता सोचने की कोशिश करना उलटे एक सकारात्मक संकेत हो

    • थोड़ा कम निंदक होकर देखें, तो शायद इसका मक़सद LLM की वास्तविक संभावनाओं को बढ़ा-चढ़ाकर न देखने देना हो
      Apple products में ‘ज़्यादा स्मार्ट Siri’ भी Iron Man के Jarvis जैसी असली AI assistant नहीं बन सकती, यह एक यथार्थवादी समझ है
      वास्तव में निवेशकों की उम्मीदें इससे कहीं ज़्यादा बढ़ी हुई लगती हैं
      और अगर थोड़ा ज़्यादा निंदक होकर देखें, तो मुझे लगता है कि Apple लंबे समय से अपनी कमज़ोर machine learning क्षमता को छिपाने की परंपरा निभाता आया है
      उदाहरण के लिए, जब Siri Google से बहुत पीछे रह गई थी, तब बाद में यह स्पष्टीकरण जोड़ा गया कि ‘डेटा की सुरक्षा के कारण हम training नहीं कर पाए’
      संबंधित paper

    • मुझे लगता है हर कंपनी का अपना framing होता है
      OpenAI और Anthropic के पास भी LLM क्षमताओं को बढ़ा-चढ़ाकर पेश करने की प्रेरणा स्वाभाविक रूप से है, इसलिए सिर्फ Apple को पक्षपाती कहकर दोष नहीं दिया जा सकता

  • paper में अलग-अलग और जटिल puzzles पर प्रयोग करने के नतीजे, जिनमें एक ख़ास कठिनाई के बाद LRM पूरी तरह विफल हो जाता है, और समस्या की जटिलता बढ़ने पर reasoning effort पहले थोड़ी बढ़ती है लेकिन बाद में उलटे घट जाती है, यह अजीब सीमा मुझे बहुत वास्तविक लगी
    coding में भी बिल्कुल ऐसा ही अनुभव होता है; शुरू में चीज़ों को धीरे-धीरे ज़्यादा जटिल बनाया जा सकता है, लेकिन एक बिंदु के बाद सीमा टूटते ही सब ढह जाता है और मॉडल कोशिश भी नहीं करता
    Claude या aider जैसे LLM का सही उपयोग करने के लिए, मॉडल को दी जाने वाली समस्या की complexity को सावधानी से नियंत्रित करना महत्वपूर्ण है

  • मुझे याद आता है कि AGI (सामान्य कृत्रिम बुद्धिमत्ता) को लेकर एक समय ऐसा माहौल था जैसे वह बस ‘दरवाज़े पर’ ही हो
    Gartner hype cycle तकनीकों की इस तरह की चाल को सचमुच बहुत अच्छी तरह पकड़ता हुआ लगता है

    • जब तकनीकी प्रगति S-curve पर चलती है, तो मोड़ आने से ठीक पहले तक उछाल बहुत तेज़ रहता है, इसलिए वास्तव में यह अनुमान लगाना बेहद मुश्किल होता है कि मंदी कब शुरू होगी
      1968 में पहले Boeing 747 के आने के बाद कोई भी यह कल्पना नहीं कर सकता था कि विमानन उद्योग आधी सदी से ज़्यादा समय तक लगभग बिना बड़े बदलाव के ठहरा रहेगा

    • यही हाल self-driving cars का भी है
      वे जैसे ‘बस आने ही वाली’ थीं, लेकिन असल में अभी तक ‘मोड़’ नहीं काट पाई हैं

    • सच तो यह भी है कि AGI के ‘बस आने ही वाले’ होने की बात भी केवल 2 साल पहले की है
      अगर GPT2 से AGI तक सिर्फ 10 साल लगते हैं, तो वह अब भी बेहद तेज़ प्रगति मानी जाएगी

    • लगता है तकनीकी प्रगति लगभग 80% तक पहुँच चुकी है, लेकिन आसान हिस्सा पूरा हो चुका है और बचा हुआ 20% इतना कठिन है कि उसमें कई साल लग सकते हैं

    • AGI कंप्यूटर के आने के बाद से ही लगातार ‘बस आने वाला है’ के नारे के रूप में मौजूद रहा है
      कुछ समस्याओं में, जैसे machine translation, हमने ‘समाधान’ की परिभाषा धीरे-धीरे नीचे कर दी, इसलिए उन्हें व्यवहारिक रूप से हल मान लिया गया; यह AGI के सचमुच करीब आना नहीं है
      AGI अपने आप में किसी तरह की धर्मनिरपेक्ष प्रलय-कल्पना जैसी चीज़ है

  • मुझे लगता है कि Tower of Hanoi, Checkers Jumping, River Crossing, Block World जैसे puzzle environments ऐसे हैं जिन्हें अगर वास्तव में code लिखने की अनुमति दी जाए, तो सभी LLM पूरी तरह हल कर सकते हैं
    इंसान भी अगर 20 अंकों का गुणा हाथ से करे तो आसानी से गलती कर सकता है, इसलिए LLM का न कर पाना मुझे अपने आप में समस्या नहीं लगता

    • इंसानों ने कंप्यूटर के बिना भी missile design और precision engineering जैसे काम किए हैं, और अगर वे ज़्यादा समय, रणनीति, मेहनत या tools (जैसे कागज़) का उपयोग करें, तो अंततः समस्या हल कर लेते हैं
      मानव मस्तिष्क ऐसे computations के लिए डिज़ाइन नहीं हुआ, लेकिन general intelligence की ताकत यह है कि वह अपने तरीक़े से किसी न किसी तरह काम पूरा कर लेता है

    • एक नए framework paper का परिचय, जिसमें LLM, RL agents की training में ‘policy teacher’ की भूमिका निभाता है
      LLM teacher द्वारा दिए गए निर्देशों से छोटे student RL agent को तेज़ी से train किया जाता है, और environment feedback से आगे सीखने के बाद student आख़िरकार teacher से बेहतर काम भी कर सकता है
      संबंधित paper

    • मुझे लगता है कि सभी LLM ऐसे सवाल अच्छी तरह इसलिए हल कर लेते हैं, क्योंकि उनके codebase में शायद पहले से ही समाधान के बहुत सारे उदाहरण मौजूद हैं

    • इंसान के न कर पाने की वजह और LLM के न कर पाने की वजह पूरी तरह अलग है
      LLM अक्सर गुणा जैसी क्रिया ही अच्छी तरह नहीं कर पाता, जबकि इंसान अधिकतर बस इसलिए नहीं करता क्योंकि उसका मन नहीं होता

  • paper की उस पंक्ति पर ध्यान गया कि ‘सटीक गणना कठिन है, और अलग-अलग puzzles में reasoning असंगत दिखती है’
    मुझे लगता है कि LLM/LRM को AI automation के करीबी क्षेत्रों, जैसे logic, optimization, और constraint programming (IA), से मदद लेनी चाहिए
    संदर्भ के लिए CMU John Hooker का collaborative lecture, MIT Gerald Sussman का lecture, Google OR-Tools, और MiniZinc platform भी सुझाता हूँ

  • यह शोध-परिणाम कि सबसे सरल कार्यों में LLM, मध्यम जटिलता में LRM, और बहुत कठिन स्तर पर दोनों विफल हो जाते हैं, काफ़ी प्रभावशाली लगा

    • इसमें हल्की-सी चुटकी या व्यंग्य का भाव लगता है, लेकिन इसे साफ़-साफ़ व्यक्त करना मुश्किल है