• यह दावा कि LLM केवल stochastic parrots हैं, 2025 में आते-आते लगभग गायब हो गया, और अब अधिकांश लोग मानते हैं कि prompt के अर्थ और response की दिशा से जुड़ी internal representations मौजूद हैं
  • Chain of Thought(CoT) मॉडल representations में sampling और reinforcement learning के जरिए token-by-token learning के संयोजन के रूप में, LLM output quality सुधारने की एक प्रमुख तकनीक बन गया
  • verifiable rewards का उपयोग करने वाला reinforcement learning token count limits से आगे scaling की संभावना खोलता है, और अनुमान है कि यही AI की अगली प्रमुख प्रगति की दिशा होगी
  • LLM-आधारित programming support के प्रति resistance काफ़ी कम हुआ, और इसके उपयोग के रूप web interface collaboration और independent coding agents के बीच बंट गए
  • Transformer alternatives पर research और AGI की संभावना साथ-साथ आगे बढ़ रही है, और यह दृष्टिकोण उभर रहा है कि अलग-अलग architectures स्वतंत्र रूप से general intelligence तक पहुंच सकते हैं

  • लंबे समय तक यह दावा किया जाता रहा कि LLM एक stochastic machine हैं जिनमें अर्थ को समझने में असमर्थ होने की 2 विशेषताएँ हैं
    • 1. इनके पास prompt के अर्थ से जुड़ी कोई जानकारी नहीं होती
    • 2. ये क्या कहने वाले हैं, इसकी भी इनके पास कोई जानकारी नहीं होती
  • लेकिन functional results और scientific clues लगातार जुड़ते रहे, जिससे यह दृष्टिकोण धीरे-धीरे कम विश्वसनीय होता गया, और 2025 तक आते-आते यह दावा लगभग गायब हो गया
  • Chain of Thought(CoT) अब LLM performance सुधारने की एक मुख्य तकनीक के रूप में स्थापित हो चुका है
  • CoT का प्रभाव यह है कि यह संबंधित जानकारी और concepts को context में ऊपर लाकर मॉडल के internal representation space में sampling, यानी internal search, संभव बनाता है
  • reinforcement learning के साथ जुड़ने पर, यह token एक-एक करके रखते हुए model state बदलता है और उपयोगी उत्तर की ओर converge करने की प्रक्रिया सीखने देता है
  • scaling की सीमा token count से तय होती है, यह पुराना दृष्टिकोण अब मान्य नहीं रहा
  • verifiable reward-based reinforcement learning (RLVR) के आने से scaling का दायरा बढ़ा है
  • program speed improvements जैसे कामों में, जहाँ reward signal स्पष्ट होता है, सैद्धांतिक रूप से लंबे समय तक लगातार improvement संभव है
  • LLM पर लागू reinforcement learning में सुधार अगली पीढ़ी की AI की मुख्य तकनीक बन सकता है
  • AI-assisted programming के प्रति developers का resistance स्पष्ट रूप से घटा है
  • LLM, गलती करने पर भी, उपयोगी code और hints देने की क्षमता में काफ़ी बेहतर हुए हैं
  • investment के मुकाबले utility स्पष्ट होने लगी, और जो developers पहले skeptical थे वे भी इसका उपयोग शुरू कर चुके हैं
  • LLM को web interface-आधारित सहकर्मी की तरह इस्तेमाल करने का तरीका और स्वतंत्र coding agent के रूप में उपयोग करने का तरीका साथ-साथ मौजूद हैं
  • Transformer के बाद भी एक और breakthrough संभव है, यह धारणा कुछ प्रमुख AI scientists के बीच फैल रही है
    • Transformer alternatives, explicit symbolic representation, और world model पर काम करने वाली teams और companies सामने आई हैं
  • यह विचार है कि LLM एक differentiable machine है जिसे ऐसे space में train किया गया है जहाँ वह discrete reasoning steps का approximation कर सकता है
  • यह भी माना जा रहा है कि किसी मूलभूत नए paradigm के बिना भी LLM के जरिए AGI तक पहुँचना संभव हो सकता है
  • विभिन्न architectures के जरिए स्वतंत्र रूप से artificial general intelligence (AGI) तक पहुँचने की संभावना है
  • यह तर्क भी दिया गया है कि Chain of Thought ने LLM की प्रकृति ही बदल दी
  • अतीत में LLM को सीमित मानने वाले कुछ लोगों ने CoT के बाद अपना रुख बदला है
  • वे कहते हैं कि CoT की वजह से LLM पूरी तरह बदल गया, लेकिन यह गलत है
  • architecture अब भी वही है और next-token objective भी वही है, तथा CoT अब भी token को एक-एक करके generate करने की उसी प्रक्रिया पर आधारित है
  • अतीत में LLM की सीमाएँ जाँचने के लिए इस्तेमाल होने वाला ARC test अब LLM performance साबित करने वाले metric में बदल रहा है
  • ARC test अब शुरुआती दौर की तरह कोई अजेय task नहीं दिखता
  • खास tasks के लिए optimized small models ने ARC-AGI-1 में अर्थपूर्ण परिणाम दिए हैं
  • जिस architecture से बहुत लोगों को कोई परिणाम आने की उम्मीद नहीं थी, उसी पर large LLM और extensive CoT का उपयोग करके ARC-AGI-2 में प्रभावशाली परिणाम हासिल किए गए
  • आने वाले 20 वर्षों में AI के सामने सबसे बुनियादी चुनौती मानव जाति के विलुप्त होने से बचना होगी

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.