2025 के अंत में AI पर एक पुनर्विचार
(antirez.com)- यह दावा कि LLM केवल stochastic parrots हैं, 2025 में आते-आते लगभग गायब हो गया, और अब अधिकांश लोग मानते हैं कि prompt के अर्थ और response की दिशा से जुड़ी internal representations मौजूद हैं
- Chain of Thought(CoT) मॉडल representations में sampling और reinforcement learning के जरिए token-by-token learning के संयोजन के रूप में, LLM output quality सुधारने की एक प्रमुख तकनीक बन गया
- verifiable rewards का उपयोग करने वाला reinforcement learning token count limits से आगे scaling की संभावना खोलता है, और अनुमान है कि यही AI की अगली प्रमुख प्रगति की दिशा होगी
- LLM-आधारित programming support के प्रति resistance काफ़ी कम हुआ, और इसके उपयोग के रूप web interface collaboration और independent coding agents के बीच बंट गए
- Transformer alternatives पर research और AGI की संभावना साथ-साथ आगे बढ़ रही है, और यह दृष्टिकोण उभर रहा है कि अलग-अलग architectures स्वतंत्र रूप से general intelligence तक पहुंच सकते हैं
- लंबे समय तक यह दावा किया जाता रहा कि LLM एक stochastic machine हैं जिनमें अर्थ को समझने में असमर्थ होने की 2 विशेषताएँ हैं
- 1. इनके पास prompt के अर्थ से जुड़ी कोई जानकारी नहीं होती
- 2. ये क्या कहने वाले हैं, इसकी भी इनके पास कोई जानकारी नहीं होती
- लेकिन functional results और scientific clues लगातार जुड़ते रहे, जिससे यह दृष्टिकोण धीरे-धीरे कम विश्वसनीय होता गया, और 2025 तक आते-आते यह दावा लगभग गायब हो गया
- Chain of Thought(CoT) अब LLM performance सुधारने की एक मुख्य तकनीक के रूप में स्थापित हो चुका है
- CoT का प्रभाव यह है कि यह संबंधित जानकारी और concepts को context में ऊपर लाकर मॉडल के internal representation space में sampling, यानी internal search, संभव बनाता है
- reinforcement learning के साथ जुड़ने पर, यह token एक-एक करके रखते हुए model state बदलता है और उपयोगी उत्तर की ओर converge करने की प्रक्रिया सीखने देता है
- scaling की सीमा token count से तय होती है, यह पुराना दृष्टिकोण अब मान्य नहीं रहा
- verifiable reward-based reinforcement learning (RLVR) के आने से scaling का दायरा बढ़ा है
- program speed improvements जैसे कामों में, जहाँ reward signal स्पष्ट होता है, सैद्धांतिक रूप से लंबे समय तक लगातार improvement संभव है
- LLM पर लागू reinforcement learning में सुधार अगली पीढ़ी की AI की मुख्य तकनीक बन सकता है
- AI-assisted programming के प्रति developers का resistance स्पष्ट रूप से घटा है
- LLM, गलती करने पर भी, उपयोगी code और hints देने की क्षमता में काफ़ी बेहतर हुए हैं
- investment के मुकाबले utility स्पष्ट होने लगी, और जो developers पहले skeptical थे वे भी इसका उपयोग शुरू कर चुके हैं
- LLM को web interface-आधारित सहकर्मी की तरह इस्तेमाल करने का तरीका और स्वतंत्र coding agent के रूप में उपयोग करने का तरीका साथ-साथ मौजूद हैं
- Transformer के बाद भी एक और breakthrough संभव है, यह धारणा कुछ प्रमुख AI scientists के बीच फैल रही है
- Transformer alternatives, explicit symbolic representation, और world model पर काम करने वाली teams और companies सामने आई हैं
- यह विचार है कि LLM एक differentiable machine है जिसे ऐसे space में train किया गया है जहाँ वह discrete reasoning steps का approximation कर सकता है
- यह भी माना जा रहा है कि किसी मूलभूत नए paradigm के बिना भी LLM के जरिए AGI तक पहुँचना संभव हो सकता है
- विभिन्न architectures के जरिए स्वतंत्र रूप से artificial general intelligence (AGI) तक पहुँचने की संभावना है
- यह तर्क भी दिया गया है कि Chain of Thought ने LLM की प्रकृति ही बदल दी
- अतीत में LLM को सीमित मानने वाले कुछ लोगों ने CoT के बाद अपना रुख बदला है
- वे कहते हैं कि CoT की वजह से LLM पूरी तरह बदल गया, लेकिन यह गलत है
- architecture अब भी वही है और next-token objective भी वही है, तथा CoT अब भी token को एक-एक करके generate करने की उसी प्रक्रिया पर आधारित है
- अतीत में LLM की सीमाएँ जाँचने के लिए इस्तेमाल होने वाला ARC test अब LLM performance साबित करने वाले metric में बदल रहा है
- ARC test अब शुरुआती दौर की तरह कोई अजेय task नहीं दिखता
- खास tasks के लिए optimized small models ने ARC-AGI-1 में अर्थपूर्ण परिणाम दिए हैं
- जिस architecture से बहुत लोगों को कोई परिणाम आने की उम्मीद नहीं थी, उसी पर large LLM और extensive CoT का उपयोग करके ARC-AGI-2 में प्रभावशाली परिणाम हासिल किए गए
- आने वाले 20 वर्षों में AI के सामने सबसे बुनियादी चुनौती मानव जाति के विलुप्त होने से बचना होगी
2 टिप्पणियां
Andrej Karpathy की 2025 LLM वार्षिक समीक्षा के साथ देखें तो अच्छा रहेगा
Hacker News की राय
LLM software engineers के लिए बहुत उपयोगी हो गए हैं, फिर भी इस बात से डर लगता है कि समाज उनके output पर कितना भरोसा कर रहा है
डेवलपर code चलाकर उसकी उपयोगिता तुरंत verify कर सकते हैं, लेकिन आम लोग medical या life advice जैसे ऐसे क्षेत्रों में, जहाँ verification मुश्किल है, hallucination को सच मान लेते हैं
नकली quotes या झूठी खबरों को वास्तविक निर्णयों को प्रभावित करते देख कर लगता है कि accountability के सवाल से सब बच रहे हैं
व्यवहार में लोग दिन में दस बार doctor से सवाल नहीं पूछ सकते, और LLM तुरंत 80~90% स्तर का जवाब दे देते हैं
यह Google search से बेहतर है, और सबसे बढ़कर LLM धोखाधड़ी या स्वार्थ नहीं करते
यह परफेक्ट नहीं है, लेकिन काफी काम का विकल्प है
लेकिन ज्यादातर लोगों को असली expert से बात करने का मौका लगभग कभी नहीं मिलता, और कई बार LLM blog या forum से एक स्तर बेहतर होते हैं
medical advice के मामले में भी यही बात है; experts तक कम पहुँच वाली वास्तविकता को देखें तो LLM का इस्तेमाल पूरी तरह बुरा नहीं है
LLM अभी अपेक्षाकृत भरोसेमंद जानकारी देने की कोशिश करते हैं, लेकिन दुनिया का लगातार अधिक अव्यवस्थित होना और असली स्थिति को समझ पाना कठिन होते जाना डरावना है
लेख लिंक
बात माफ़ी पर खत्म हो गई, लेकिन यह सवाल बना रहता है कि कितनी गलत जानकारी पहले ही वास्तविक फैसलों को प्रभावित कर चुकी है
पारंपरिक search engine इस मायने में LLM से अलग हैं कि वे “PR merge करो” जैसा दबाव नहीं डालते
30,000 घंटे से ज़्यादा coding करने के अनुभव से लगता है कि LLM अक्सर खराब code बनाते हैं, फिर भी वे बहुत उपयोगी हैं
असली बात यह है कि LLM के बिना भी आपको पता होना चाहिए कि क्या करना है
आखिरकार वह समय आएगा जब इसे वास्तविक cost structure के साथ बैठाना होगा
आप समस्या डालकर कोई और काम कर सकते हैं और बाद में result review कर सकते हैं
अगर input देने में बहुत मेहनत लगती, तो यह इतना उपयोगी नहीं होता
अंततः default state में यह कमजोर है, लेकिन समस्या की परिभाषा अच्छी हो तो यह बेहतरीन designer बन जाता है
पहले से ही यह जानने की उत्सुकता है कि employers junior developers को कैसे देख रहे हैं
“programmers का AI resistance कम हो गया” जैसी अभिव्यक्ति पसंद नहीं आती
‘resistance’ या ‘skeptic’ जैसे शब्द यह संकेत देते हैं कि वे गलत थे
बदलाव लोगों की वजह से नहीं, बल्कि तकनीक के बेहतर होने की वजह से आया है
मैं LLM को code generation और document search में बहुत उपयोगी मानता हूँ, लेकिन यह नहीं मानता कि उनमें intelligence है
जैसे Python ने Java को replace नहीं किया, वैसे ही LLM नौकरियाँ खत्म नहीं करेंगे
‘AI मानव बुद्धि से आगे निकल जाएगी’ जैसे चरम दावे अभी साबित नहीं हुए हैं
“AI से प्यार नहीं किया तो नौकरी जा सकती है” जैसी हवा में हर कोई कहने को मजबूर है कि उसे यह पसंद है
2026 में भी “LLM बेकार हैं” जैसे comments बंद नहीं हुए हैं
मैं इसे महीने के 20 डॉलर के आसपास हल्के उपयोग के लिए लेता हूँ, लेकिन tips साझा करूँ तो ‘AI प्रचारक’ समझ लिया जाता है
इस तरह सोचने वाले लोग वास्तव में गलत समझ बना रहे हैं
अब तकनीक आगे बढ़कर programmers की पसंद के मुताबिक ढल गई है
लगता है कि LLM ने 2022~2023 में किए गए exponential progress के वादे पूरे नहीं किए
2025 और 2023 के बीच का अंतर उतना बड़ा नहीं है जितना 2023 और 2021 के बीच था
फिर भी यह अब भी उपयोगी हैं, और software लिखने के तरीके को बदल चुके हैं
लेकिन लोग अब भी इस पर अटके हैं कि LLM उससे भी ज़्यादा हों
कुछ लोग AI psychosis में जाकर मानवीय रिश्ते खो देते हैं, या AI को स्थायी counselor बना लेते हैं
उदाहरण के लिए सिर्फ context size देखें तो GPT‑4 के 8K से बढ़कर यह millions of words तक पहुँच गया है
reasoning और multimodal capabilities को भी शामिल करें तो प्रगति बहुत बड़ी है
AGI का भविष्य हमेशा विनाशकारी ही क्यों माना जाता है?
शायद इसलिए कि केवल ‘evil AGI’ ही tech elite की शक्ति को सही ठहरा सकती है
LLM इंसानी मनोविज्ञान में बहुत चालाकी से घुसने वाली तकनीक जैसे लगते हैं
लोग इस तकनीक को संभालने के लिए मानसिक रूप से तैयार नहीं हैं
वे यूज़र की लगातार तारीफ़ करके उसे खुश करते रहते हैं
chatbot आलोचना नहीं करते, सिर्फ खुशामद करते हैं, इसलिए बहुत जल्दी personal advisor के दर्जे पर पहुँच जाते हैं
यह tech युग के Sauron’s eye जैसा लगता है
“speed optimization” जैसे साफ़ reward signal वाले कामों में LLM आगे भी बेहतर हो सकते हैं—यह बात सुनकर Goodhart’s law याद आई
Goodhart’s law के अनुसार, जब कोई metric ही लक्ष्य बन जाता है, तो विकृति पैदा होती है
इससे तेज़ लेकिन समझने में कठिन code बन सकता है
LLM से भी वैसा ही नतीजा आने की संभावना है
Superoptimization 1987 से मौजूद है, और समझ से बाहर लेकिन तेज़ code बनाता है
“code free है” इस बात से सहमत नहीं हूँ
LLM द्वारा बने code के पीछे energy, water, resources खर्च करने वाले data centers हैं
यह “free coding” संस्कृति पृथ्वी को वास्तविक नुकसान पहुँचा रही है
context ज़रूरी है
संख्याओं को सापेक्ष रूप से देखना चाहिए
वास्तव में इसमें ऐसी लागतें शामिल हैं जिन्हें सीधे पैसे में नहीं आँका जाता
इस पर आलोचना भी थी कि “यह तो बस बिना आधार वाले दावों का ढेर है”
हर लेख का academic paper होना ज़रूरी नहीं
यह विचार साझा करने की जगह भर है
“LLM meaning व्यक्त नहीं करते” इस दावे से सहमत नहीं हूँ
Transformer का attention mechanism खुद कई परतों में meaning representation बनाने वाली संरचना है
parameters जितने अधिक होंगे, उतने अधिक representations संग्रहीत किए जा सकते हैं
इस बुनियादी सिद्धांत से शोधकर्ता शायद ही असहमत हों
मुझे भी लगता है कि नए paradigm के बिना भी AGI तक पहुँचना संभव हो सकता है
“इसमें बस unverifiable claims हैं” जैसी आलोचना के जवाब में,
यह सिर्फ राय व्यक्त करने वाला लेख है
blog की जगह ऐसी ही होती है, और कभी-कभी ऐसे विचार नया नज़रिया खोल देते हैं