Andrej Karpathy की 2025 LLM वार्षिक समीक्षा
(karpathy.bearblog.dev)- 2025 में Verifiable Rewards पर आधारित Reinforcement Learning (RLVR) LLM training के एक नए मुख्य चरण के रूप में उभरा, और मौजूदा pretraining-SFT-RLHF pipeline में जुड़ गया
- LLM ने गणित और code puzzles जैसे verifiable environments में खुद अपनी reasoning strategies विकसित कीं, और ऐसी problem-solving शैली सीखी जो इंसानों को "सोच" जैसी लगती है
- Cursor ने LLM apps की एक नई layer को परिभाषित किया, जो खास verticals में context engineering और जटिल LLM call orchestration करने का तरीका दिखाती है
- Claude Code, उपयोगकर्ता के local computer पर चलने वाले LLM agents का पहला विश्वसनीय उदाहरण बनकर उभरा, और AI के साथ interaction का नया paradigm दिखाया
- Vibe Coding ने non-experts के लिए सिर्फ English के सहारे programs बनाना संभव किया, जिससे software development के लोकतंत्रीकरण और jobs की परिभाषा बदलने के संकेत मिले
1. Verifiable Rewards पर आधारित Reinforcement Learning (RLVR) का उभार
- 2025 की शुरुआत तक LLM production stack तीन चरणों का था: Pretraining, Supervised Fine-Tuning (SFT), और Reinforcement Learning from Human Feedback (RLHF)
- RLVR (Reinforcement Learning from Verifiable Rewards) एक नए प्रमुख चरण के रूप में जुड़ा, जिसमें LLM को गणित और code puzzles जैसे स्वतः सत्यापित किए जा सकने वाले rewards पर train किया जाता है
- LLM ने समस्याओं को खुद मध्यवर्ती computation steps में तोड़ना और तरह-तरह की problem-solving strategies विकसित करना सीखा, जो "reasoning" जैसे व्यवहार से मिलता-जुलता है
- ये strategies पहले के paradigm में पाना कठिन था, क्योंकि यह स्पष्ट नहीं होता था कि optimal reasoning trace कैसा होना चाहिए
- LLM को reward optimization के जरिए अपने लिए उपयुक्त तरीका खुद खोजना पड़ता है
- SFT/RLHF के विपरीत, RLVR में objective और gaming-resistant reward function पर कहीं लंबी optimization संभव है
- RLVR की ऊँची capability/$ की वजह से मूल रूप से pretraining के लिए रखे गए computing resources, RLVR की ओर शिफ्ट किए गए
- 2025 में capability प्रगति का बड़ा हिस्सा, समान आकार के LLM पर लंबे RL runs लागू करने से परिभाषित हुआ
- Test-time compute को नियंत्रित करने वाला एक नया knob (और scaling law) सामने आया, जिससे लंबी reasoning traces और अधिक "thinking time" देकर capability को नियंत्रित किया जा सकता है
- OpenAI o1 (2024 के अंत) RLVR model का पहला प्रदर्शन था, और o3 release (2025 की शुरुआत) वह inflection point बना जहाँ अंतर सहज रूप से महसूस होने लगा
2. Ghosts बनाम Animals / Jagged Intelligence
- 2025 में LLM intelligence के "shape" को अधिक सहज रूप से समझना शुरू हुआ
- LLM, "किसी animal को evolve/grow करने" जैसा नहीं, बल्कि "किसी ghost को summon करने" जैसा है
- Neural architecture, training data, training algorithms, और optimization pressure — सब अलग हैं, इसलिए intelligence space में बहुत अलग तरह की entities बनती हैं
- मानव neural networks जंगल में प्रजाति के survival के लिए optimize हुए थे, जबकि LLM neural networks मानवता के text की नकल, math puzzle rewards इकट्ठा करने, और LM Arena में upvotes पाने के लिए optimize होते हैं
- Verifiable domains में RLVR संभव होने से LLM की capability उन क्षेत्रों में "spike" करती है, और असमान performance characteristics दिखाती है
- एक ही समय में यह प्रतिभाशाली polymath जैसा भी हो सकता है और भ्रमित प्राथमिक स्कूल के बच्चे जैसा भी, और कुछ ही सेकंड में jailbreak के झाँसे में आकर data leak भी कर सकता है
- Benchmarks के प्रति भरोसे का क्षय और उदासीनता पैदा हुई
- Benchmarks लगभग परिभाषा के अनुसार verifiable environments हैं, इसलिए वे RLVR और synthetic data generation के कमजोर रूपों के प्रति तुरंत संवेदनशील हैं
- Benchmaxxing की प्रक्रिया में टीमें benchmark embedding space के आसपास environments बनाकर coverage करती हैं
- Test set learning एक नई technique के रूप में स्थापित हो रही है
- "सभी benchmarks पास करने के बाद भी AGI तक न पहुँचना" आखिर कैसा दिखेगा?
- संबंधित लेख
3. Cursor / LLM apps की नई layer
- Cursor की तेज़ growth के साथ "LLM app" की एक नई layer स्पष्ट हुई
- "Cursor for X" जैसी अभिव्यक्ति इस्तेमाल होने लगी
- Cursor जैसे LLM apps, खास verticals के लिए LLM calls को bundle और orchestrate करते हैं
1. Context engineering करते हैं
2. कई LLM calls को क्रमशः अधिक जटिल DAG में orchestrate करके performance और cost के बीच संतुलन बनाते हैं
3. Human-in-the-loop के लिए application-specific GUI देते हैं
4. "Autonomy slider" उपलब्ध कराते हैं - इस नई app layer की "thickness" कितनी है, इस पर सक्रिय बहस हुई
- यह विवाद रहा कि क्या LLM labs सभी applications पर कब्ज़ा कर लेंगी, या LLM apps के लिए भी अवसर होगा
- LLM labs आम तौर पर एक सक्षम college student जैसा output देने की ओर झुकती हैं, लेकिन उम्मीद है कि LLM apps खास verticals में private data, sensors, actuators, feedback loops देकर इन्हें organize और fine-tune करेंगी, और इन्हें वास्तविक experts की तरह सक्रिय करेंगी
4. Claude Code / कंप्यूटर पर रहने वाला AI
- Claude Code (CC) LLM agents का पहला विश्वसनीय प्रदर्शन बनकर उभरा
- इसने tool use और reasoning को loop शैली में जोड़कर विस्तारित problem-solving किया
- CC उपयोगकर्ता के कंप्यूटर पर private environment, data, और context के साथ चलता है
- OpenAI ने शुरुआती Codex/agent प्रयासों में ChatGPT के जरिए orchestrate होने वाली cloud container deployments पर ध्यान देकर दिशा गलत पकड़ ली
- ध्यान
localhostकी बजाय cloud पर था
- ध्यान
- Cloud में चलने वाला agent swarm "AGI endgame" जैसा महसूस हो सकता है, लेकिन अभी दुनिया असमान capabilities वाली, बीच की और धीमी छलांगों वाली है
- ऐसे में agents को developer के कंप्यूटर पर सीधे चलाना अधिक तार्किक है
- असली महत्वपूर्ण फर्क यह नहीं है कि "AI work" कहाँ चलता है, बल्कि यह है कि पहले से मौजूद और booted computer, installs, context, data, secrets, configuration, और low-latency interaction उपलब्ध हैं
- Anthropic ने इस प्राथमिकता को सही पहचाना और CC को एक संक्षिप्त CLI form factor में पैकेज किया
- AI अब Google की तरह visit की जाने वाली website नहीं, बल्कि कंप्यूटर पर "रहने वाली" एक छोटी आत्मा/ghost जैसा नया interaction paradigm बनाता है
5. Vibe Coding
- 2025 वह साल था जब AI ने सिर्फ English के सहारे तरह-तरह के प्रभावशाली programs बनाने की capability threshold पार कर ली
- इस तरह programming की जा सकती है कि code के अस्तित्व को ही भुला दिया जाए
- "vibe coding" शब्द एक tweet में coin किया गया था, लेकिन यह इतना व्यापक हो जाएगा, इसकी उम्मीद नहीं थी
- Vibe coding ने programming को केवल highly trained experts का क्षेत्र न रहने देकर, हर किसी के लिए संभव बनाना शुरू किया
- बाकी technologies के विपरीत, LLM ऐसा मामला है जहाँ आम लोगों को experts, कंपनियों और सरकारों से कहीं अधिक लाभ मिलता है
- Vibe coding सिर्फ आम लोगों को programming तक पहुँच नहीं देता, बल्कि trained experts को भी ऐसा software बहुत अधिक मात्रा में लिखने देता है जो अन्यथा लिखा ही नहीं जाता
- ठोस उदाहरण:
- nanochat में, मौजूदा libraries अपनाए बिना या Rust को गहराई से सीखे बिना Rust में custom high-efficiency BPE tokenizer को vibe coding से बनाया
- menugen, llm-council, reader3, HN time capsule जैसी इच्छित चीज़ों को तेज़ app demos के रूप में vibe coding से बनाया
- एक अकेले bug को ढूँढने के लिए पूरे one-off app को vibe coding से बना दिया — code अचानक free, temporary, flexible, disposable हो गया
- Vibe coding software को terraform करेगा और jobs की परिभाषा बदल देगा
6. Nano Banana / LLM GUI
- Google Gemini Nano Banana 2025 के सबसे चौंकाने वाले paradigm-shift models में से एक है
- उस worldview में जहाँ LLM को 1970s–80s के computers जैसी अगली बड़ी computing paradigm माना जाता है, वैसी ही तरह के innovations भी मूलतः वैसी ही वजहों से सामने आएँगे
- Personal computing, microcontrollers (cognitive core), internet (of agents) आदि के equivalents उभरेंगे
- UIUX के नज़रिए से LLM से "chat" करना 1980s के computer console को commands देने जैसा है
- Text, computers (और LLMs) के लिए पसंदीदा raw data representation है, लेकिन इंसानों के लिए यह पसंदीदा format नहीं है
- खासकर input के मामले में, लोग text पढ़ना पसंद नहीं करते — यह धीमा है और मेहनत माँगता है
- लोग जानकारी को visual और spatial रूप में ग्रहण करना पसंद करते हैं, इसलिए पारंपरिक computing में GUI का आविष्कार हुआ
- उसी तरह LLM को भी इंसानों के पसंदीदा formats — images, infographics, slides, whiteboards, animation/video, web apps आदि — में communicate करना चाहिए
- अभी शुरुआती version emoji और Markdown जैसी चीज़ें हैं — titles, bold, italics, lists, tables आदि के जरिए text को "visually style" करके व्यवस्थित किया जाता है
- Nano Banana, LLM GUI कैसा हो सकता है, इसका पहला शुरुआती संकेत देता है
- सिर्फ image generation नहीं, बल्कि text generation, image generation, और world knowledge का model weights में आपस में गुँथा हुआ संयुक्त capability अधिक महत्वपूर्ण है
TLDR; समग्र सार
- 2025, LLM के लिए एक रोमांचक और कुछ हद तक चौंकाने वाला साल था
- LLM, उम्मीद से कहीं अधिक स्मार्ट और साथ ही उम्मीद से कहीं अधिक मूर्ख एक नए प्रकार की intelligence के रूप में उभरे
- फिर भी LLM बेहद उपयोगी हैं, और मेरा मानना है कि मौजूदा तकनीकी स्तर पर भी उद्योग उनकी क्षमता का 10% भी इस्तेमाल नहीं कर पा रहा है
- आज़माने लायक ideas की कोई कमी नहीं है, और conceptual रूप से यह क्षेत्र अभी भी बहुत शुरुआती अवस्था में दिखता है
- (ऊपरी तौर पर विरोधाभासी लग सकता है, लेकिन) मेरा मानना है कि आगे तेज़ और लगातार प्रगति होगी, और साथ ही अभी भी बहुत काम बाकी है
2 टिप्पणियां
"menugen, llm-council, reader3, HN time capsule आदि जैसी चीज़ें, जिनका होना अच्छा लगता, उन्हें तेज़ app demos के रूप में vibe coding से बनाना"
vibe coding के जनक होने के मुताबिक, vibe coding से जो चीज़ें वे बनाते हैं, वे मेरे बनाए छोटे-मोटे कामों से वाकई बहुत अलग हैं. 🤣
Hacker News की राय
मेरे लिए इस साल की सबसे प्रभावशाली innovation Claude Code थी
Cursor एक अच्छा concept proof था, लेकिन जिसने मुझे सच में coding में LLM इस्तेमाल करने पर मजबूर किया, वह Claude Code था
Claude जो code बनाता है, वह लगभग वैसा ही होता है जैसा मैं खुद लिखता, इसलिए लगता है जैसे वह मेरे विचार पढ़ रहा हो
इसी वजह से Claude द्वारा बनाया गया code maintenance करना भी आसान होता है
उसके code style का 90~95% तक अंदाज़ा लगाया जा सकता है, और वह मुझसे कहीं तेज़ लिखता है
Gemini भी प्रभावशाली है, लेकिन खासकर Nano Banana graphic design में उपयोगी है
coding के लिए मैंने अभी तक Gemini इस्तेमाल नहीं किया। Claude Code इतना अच्छा है कि अगर मैं उससे भी तेज़ coding करने लगूं, तो शायद decision fatigue होने लगे
मैं architecture या UX decisions में जल्दबाज़ी नहीं करता, बल्कि एक-दो दिन सोचने के बाद implementation शुरू करता हूँ। क्योंकि एक बार किसी दिशा में चल पड़े तो लौटना मुश्किल होता है, और sunk cost fallacy की वजह से गलत चुनाव पर अड़े रह सकते हैं
मैंने IntelliJ IDEA में Claude Code plugin install किया है, और IDE को सिर्फ code exploration या review के लिए इस्तेमाल करता हूँ
अब याद नहीं कि आखिरी बार मैंने दो लाइन से ज़्यादा code खुद कब लिखा था
Claude Code की वजह से productivity कम-से-कम 5x से ज़्यादा बढ़ी है, और test लिखने की लागत लगभग शून्य होने से test coverage भी बहुत बेहतर हो गई है
मैं Claude के साथ planning करता हूँ, सवाल पूछता हूँ, implementation करवाता हूँ, review करता हूँ, और changes request करता हूँ — यानी पूरी AI agent workflow इस्तेमाल कर रहा हूँ
manual coding बिल्कुल नहीं है। पूरी तरह zero है
अब भी यक़ीन नहीं होता कि इसे public कर दिया गया
लेकिन हर बार Claude से code को और elegant और readable बनाने को कहते-कहते, मैं बस Claude Code पर ही शिफ्ट हो गया
GLM भी अच्छे prompts के साथ काफ़ी करीब पहुँच जाता है, लेकिन अगर 0.6 डॉलर रोज़ में यह चिंता ही न करनी पड़े, तो फिर सोचने की ज़रूरत नहीं लगती
वही models इस्तेमाल करते हुए मैं क्या miss कर रहा हूँ, यह जानने की जिज्ञासा है
मुझे Karpathy की writing पसंद है, लेकिन आजकल जब “It’s not X, it’s Y” जैसी LLM-शैली की sentence structure दिखती है, तो सहज रूप से झटका लगता है
3 साल पहले तक ऐसा नहीं था, लेकिन अब यह writing style पूरी तरह टूटी हुई लगती है
“It’s not just a website…” जैसे वाक्यों को मैं rhetorical fat कहता हूँ
इस तरह की अतिरिक्त सजावट हटा दें तो वाक्य सपाट ज़रूर हो जाता है, लेकिन स्पष्ट रहता है
खासकर “little spirit” जैसे expressions इतने बढ़ा-चढ़ाकर लगते हैं कि आँखें घुमाने का मन होता है
बेशक लेखक ने ज़ोर देने के लिए ऐसा किया होगा, लेकिन यह मेरे writing आदर्श से मेल नहीं खाता, इसलिए असहजता होती है
“It’s not just about image generation…” जैसे वाक्य अनावश्यक conceptual tension पैदा करते हैं
मुझे तो यह कहना बेहतर लगता है कि “जब image generation text generation के साथ जुड़ती है, तो वह और दिलचस्प हो जाती है”
यह शानदार और यथार्थवादी review था
यह बात कि “LLM उम्मीद से ज़्यादा smart भी है और साथ ही stupid भी” चिंताजनक लगती है
हमें कैसे पता चले कि किस रूप का सामना होने वाला है?
coding में errors आसानी से पकड़ सकते हैं, लेकिन general domains में क्या यह मुश्किल नहीं है?
और “आम लोग experts की तुलना में LLM से ज़्यादा लाभ लेते हैं” वाले दावे पर भी, पहले AppleScript, VB, visual programming के बारे में ऐसी ही उम्मीदें थीं, लेकिन अंत में AI का इस्तेमाल एक smart search engine की तरह ही हो रहा है
लेकिन यही वह क्षेत्र है जहाँ hallucination सबसे गंभीर है, इसलिए मुझे लगता है कि यही समस्या है। इसका समाधान क्या होगा, यह जानना चाहता हूँ
Andrej का आशावादी रुख अच्छा है, लेकिन 2025 में industry power concentration कैसे बदली है, और open source, local inference, hardware constraints जैसे विषयों पर उनका नज़रिया भी सुनना चाहता हूँ
उदाहरण के लिए, उन्होंने Claude Code को “locally running” कहा, लेकिन वास्तव में सिर्फ TUI local है और inference cloud में होता है
यह ढांचा 2026 के बाद कैसे विकसित होगा, यह जानने की उत्सुकता है
cloud setup असुविधाजनक होने की वजह computation नहीं, बल्कि UI/UX और user loop है
इसे Ollama पर hosted gpt-oss model के साथ चलाया जा सकता है
codex --oss -m gpt-oss:20bकी तरह, और बड़े models(120b) भी संभव हैंयह agent Bash call करता है, file system संभालता है, और OS पर लगभग हर काम कर सकता है
यानी model दूर मौजूद brain है, और agent एक तरह का mech suit
उनका मतलब inference नहीं, बल्कि agent local पर चलता है यह था
OpenAI ने Codex को cloud-centric तरह से design किया, जबकि CC ने local-first approach चुनी — शायद वह यही रेखांकित करना चाहते थे
लेकिन इस भेद को कहीं ज़्यादा स्पष्ट रूप से समझाने की ज़रूरत है
Karpathy का RLVR के लिए दिया गया “जानवर पालना vs भूत बुलाना” वाला रूपक मौजूदा jagged intelligence को समझाने का लगभग परफ़ेक्ट मॉडल लगता है
हम कोई general survivor नहीं बना रहे, बल्कि verifiable reward के हिसाब से सिर्फ खास domains को over-optimize कर रहे हैं
और vibe coding की वजह से बनने वाले disposable software का विचार भी बहुत relatable लगा
किसी एक समस्या को debug करने के लिए temporary app बनाना और फिर तुरंत delete कर देना सचमुच बदलाव जैसा महसूस होता है
इंसान और जानवर सच में intelligent beings हैं, लेकिन LLM सिर्फ इंसानी output को सीमित दायरे में echo करता है
सचमुच artificial intelligence बनने के लिए autonomy, continuous learning, curiosity, virtual embodiment जैसी विशेषताएँ चाहिए
ज़्यादातर जानवर instinctive होते हैं, लेकिन सिर्फ वे प्राणी जिनमें इंसानों जैसी generalized learning क्षमता होती है, सच में intelligent कहे जा सकते हैं
जब इसकी वास्तविक लागत चुकानी पड़ेगी, तब भी क्या ऐसे disposable apps बनते रहेंगे, यह देखना होगा
मैंने इसे अपनी पोस्ट में समेटा है; यह वह stack है जो Jupyter ने शुरू किया था, उसे पूरा करता है
यह functional fence structure है, call किया जा सकता है और compose भी किया जा सकता है
MCP जैसा ही रूप है, और बिना अलग training के सिर्फ patterns सीखने होते हैं
यहाँ तक कि 18वीं सदी की piano teaching method और context engineering को जोड़ने वाला functor भी मौजूद है
Karpathy की यह बात दिलचस्प लगी कि LLM को images, slides, whiteboard जैसी user-preferred formats में communicate करना चाहिए
लेकिन अगर LLM हर बार हर user के लिए नया UX बनाए, तो वह unpredictable interface hell भी बन सकता है
“इस app में Command-W क्या करेगा?” जैसी स्थिति पैदा हो सकती है
Codex जैसे tools इसमें इंसानों से भी ज़्यादा सावधान हैं
LLM खुद सबसे बेहतरीन UI है
वह कई भाषाएँ और abstract concepts समझता है, इसलिए random UI generate करने की ज़रूरत नहीं है
मैं non-English user हूँ, फिर भी अगर German शब्द मिलाकर लिखूँ तो वह अच्छी तरह समझ लेता है
बहुत से AI influencers भरोसे से कहते हैं कि “text UI खत्म हो जाएगा”, लेकिन व्यवहार में text interface अभी भी केंद्र में है
आखिरकार वह plan card के low-contrast three-dot menu में छिपा था, और उस पर click करते ही AI chatbot conversation window खुल गई
सिर्फ “unsubscribe” prompt डालने पर ही button दिखा
apps में इस तरह का automated phone-call style UX लाना मुझे भयावह लगता है
frontend engineer होने के नाते यह trend डरावना लगता है
मैं जानना चाहता हूँ कि Andrej इस साल के fast models (Gemini 3 Flash, Grok 4 Fast) के बारे में क्या सोचते हैं
इतने तेज़, सस्ते और अच्छे models आ गए हैं, फिर भी community शायद उन पर ज़्यादा ध्यान नहीं दे रही
visual interfaces के लिए LLM vision को साकार करने के लिए ऐसे models ज़रूरी लगते हैं
मेरा अनुमान है कि इन्हें बड़े models द्वारा बनाए गए reasoning traces पर train किया गया होगा
2025 वह साल भी था जब training data में भूत बसने लगे
अब X(Twitter) का आधा हिस्सा ऐसा लगता है जैसे LLM, LLM को जवाब दे रहा हो
यानी dataset के भीतर ही calls हो रहे हैं
इस बात से सहमत हूँ कि o3 एक turning point था
किसी ने कहा था कि o3 या o4-mini असल में लगभग gpt-5 स्तर के थे
लेकिन नाम अपरिचित होने की वजह से उन्हें ध्यान नहीं मिला, और दूसरी ओर gpt-5 ने सिर्फ incremental improvements दिखाए, इसलिए निराशा हुई
o4-mini की conversational language थोड़ी अटपटी थी, इसलिए वह default model के लिए उपयुक्त नहीं होता, लेकिन अगर उसे “gpt-5 pro” जैसे नाम से 20 डॉलर plan में रखा जाता, तो बेहतर होता
अब पीछे मुड़कर देखता हूँ, तो वही major release timing था