- 2025 में Verifiable Rewards पर आधारित Reinforcement Learning (RLVR) LLM training के एक नए मुख्य चरण के रूप में उभरा, और मौजूदा pretraining-SFT-RLHF pipeline में जुड़ गया
- LLM ने गणित और code puzzles जैसे verifiable environments में खुद अपनी reasoning strategies विकसित कीं, और ऐसी problem-solving शैली सीखी जो इंसानों को "सोच" जैसी लगती है
- Cursor ने LLM apps की एक नई layer को परिभाषित किया, जो खास verticals में context engineering और जटिल LLM call orchestration करने का तरीका दिखाती है
- Claude Code, उपयोगकर्ता के local computer पर चलने वाले LLM agents का पहला विश्वसनीय उदाहरण बनकर उभरा, और AI के साथ interaction का नया paradigm दिखाया
- Vibe Coding ने non-experts के लिए सिर्फ English के सहारे programs बनाना संभव किया, जिससे software development के लोकतंत्रीकरण और jobs की परिभाषा बदलने के संकेत मिले
1. Verifiable Rewards पर आधारित Reinforcement Learning (RLVR) का उभार
- 2025 की शुरुआत तक LLM production stack तीन चरणों का था: Pretraining, Supervised Fine-Tuning (SFT), और Reinforcement Learning from Human Feedback (RLHF)
- RLVR (Reinforcement Learning from Verifiable Rewards) एक नए प्रमुख चरण के रूप में जुड़ा, जिसमें LLM को गणित और code puzzles जैसे स्वतः सत्यापित किए जा सकने वाले rewards पर train किया जाता है
- LLM ने समस्याओं को खुद मध्यवर्ती computation steps में तोड़ना और तरह-तरह की problem-solving strategies विकसित करना सीखा, जो "reasoning" जैसे व्यवहार से मिलता-जुलता है
- ये strategies पहले के paradigm में पाना कठिन था, क्योंकि यह स्पष्ट नहीं होता था कि optimal reasoning trace कैसा होना चाहिए
- LLM को reward optimization के जरिए अपने लिए उपयुक्त तरीका खुद खोजना पड़ता है
- SFT/RLHF के विपरीत, RLVR में objective और gaming-resistant reward function पर कहीं लंबी optimization संभव है
- RLVR की ऊँची capability/$ की वजह से मूल रूप से pretraining के लिए रखे गए computing resources, RLVR की ओर शिफ्ट किए गए
- 2025 में capability प्रगति का बड़ा हिस्सा, समान आकार के LLM पर लंबे RL runs लागू करने से परिभाषित हुआ
- Test-time compute को नियंत्रित करने वाला एक नया knob (और scaling law) सामने आया, जिससे लंबी reasoning traces और अधिक "thinking time" देकर capability को नियंत्रित किया जा सकता है
- OpenAI o1 (2024 के अंत) RLVR model का पहला प्रदर्शन था, और o3 release (2025 की शुरुआत) वह inflection point बना जहाँ अंतर सहज रूप से महसूस होने लगा
2. Ghosts बनाम Animals / Jagged Intelligence
- 2025 में LLM intelligence के "shape" को अधिक सहज रूप से समझना शुरू हुआ
- LLM, "किसी animal को evolve/grow करने" जैसा नहीं, बल्कि "किसी ghost को summon करने" जैसा है
- Neural architecture, training data, training algorithms, और optimization pressure — सब अलग हैं, इसलिए intelligence space में बहुत अलग तरह की entities बनती हैं
- मानव neural networks जंगल में प्रजाति के survival के लिए optimize हुए थे, जबकि LLM neural networks मानवता के text की नकल, math puzzle rewards इकट्ठा करने, और LM Arena में upvotes पाने के लिए optimize होते हैं
- Verifiable domains में RLVR संभव होने से LLM की capability उन क्षेत्रों में "spike" करती है, और असमान performance characteristics दिखाती है
- एक ही समय में यह प्रतिभाशाली polymath जैसा भी हो सकता है और भ्रमित प्राथमिक स्कूल के बच्चे जैसा भी, और कुछ ही सेकंड में jailbreak के झाँसे में आकर data leak भी कर सकता है
- Benchmarks के प्रति भरोसे का क्षय और उदासीनता पैदा हुई
- Benchmarks लगभग परिभाषा के अनुसार verifiable environments हैं, इसलिए वे RLVR और synthetic data generation के कमजोर रूपों के प्रति तुरंत संवेदनशील हैं
- Benchmaxxing की प्रक्रिया में टीमें benchmark embedding space के आसपास environments बनाकर coverage करती हैं
- Test set learning एक नई technique के रूप में स्थापित हो रही है
- "सभी benchmarks पास करने के बाद भी AGI तक न पहुँचना" आखिर कैसा दिखेगा?
- संबंधित लेख
3. Cursor / LLM apps की नई layer
- Cursor की तेज़ growth के साथ "LLM app" की एक नई layer स्पष्ट हुई
- "Cursor for X" जैसी अभिव्यक्ति इस्तेमाल होने लगी
- Cursor जैसे LLM apps, खास verticals के लिए LLM calls को bundle और orchestrate करते हैं
1. Context engineering करते हैं
2. कई LLM calls को क्रमशः अधिक जटिल DAG में orchestrate करके performance और cost के बीच संतुलन बनाते हैं
3. Human-in-the-loop के लिए application-specific GUI देते हैं
4. "Autonomy slider" उपलब्ध कराते हैं
- इस नई app layer की "thickness" कितनी है, इस पर सक्रिय बहस हुई
- यह विवाद रहा कि क्या LLM labs सभी applications पर कब्ज़ा कर लेंगी, या LLM apps के लिए भी अवसर होगा
- LLM labs आम तौर पर एक सक्षम college student जैसा output देने की ओर झुकती हैं, लेकिन उम्मीद है कि LLM apps खास verticals में private data, sensors, actuators, feedback loops देकर इन्हें organize और fine-tune करेंगी, और इन्हें वास्तविक experts की तरह सक्रिय करेंगी
4. Claude Code / कंप्यूटर पर रहने वाला AI
- Claude Code (CC) LLM agents का पहला विश्वसनीय प्रदर्शन बनकर उभरा
- इसने tool use और reasoning को loop शैली में जोड़कर विस्तारित problem-solving किया
- CC उपयोगकर्ता के कंप्यूटर पर private environment, data, और context के साथ चलता है
- OpenAI ने शुरुआती Codex/agent प्रयासों में ChatGPT के जरिए orchestrate होने वाली cloud container deployments पर ध्यान देकर दिशा गलत पकड़ ली
- ध्यान
localhost की बजाय cloud पर था
- Cloud में चलने वाला agent swarm "AGI endgame" जैसा महसूस हो सकता है, लेकिन अभी दुनिया असमान capabilities वाली, बीच की और धीमी छलांगों वाली है
- ऐसे में agents को developer के कंप्यूटर पर सीधे चलाना अधिक तार्किक है
- असली महत्वपूर्ण फर्क यह नहीं है कि "AI work" कहाँ चलता है, बल्कि यह है कि पहले से मौजूद और booted computer, installs, context, data, secrets, configuration, और low-latency interaction उपलब्ध हैं
- Anthropic ने इस प्राथमिकता को सही पहचाना और CC को एक संक्षिप्त CLI form factor में पैकेज किया
- AI अब Google की तरह visit की जाने वाली website नहीं, बल्कि कंप्यूटर पर "रहने वाली" एक छोटी आत्मा/ghost जैसा नया interaction paradigm बनाता है
5. Vibe Coding
- 2025 वह साल था जब AI ने सिर्फ English के सहारे तरह-तरह के प्रभावशाली programs बनाने की capability threshold पार कर ली
- इस तरह programming की जा सकती है कि code के अस्तित्व को ही भुला दिया जाए
- "vibe coding" शब्द एक tweet में coin किया गया था, लेकिन यह इतना व्यापक हो जाएगा, इसकी उम्मीद नहीं थी
- Vibe coding ने programming को केवल highly trained experts का क्षेत्र न रहने देकर, हर किसी के लिए संभव बनाना शुरू किया
- बाकी technologies के विपरीत, LLM ऐसा मामला है जहाँ आम लोगों को experts, कंपनियों और सरकारों से कहीं अधिक लाभ मिलता है
- Vibe coding सिर्फ आम लोगों को programming तक पहुँच नहीं देता, बल्कि trained experts को भी ऐसा software बहुत अधिक मात्रा में लिखने देता है जो अन्यथा लिखा ही नहीं जाता
- ठोस उदाहरण:
- nanochat में, मौजूदा libraries अपनाए बिना या Rust को गहराई से सीखे बिना Rust में custom high-efficiency BPE tokenizer को vibe coding से बनाया
- menugen, llm-council, reader3, HN time capsule जैसी इच्छित चीज़ों को तेज़ app demos के रूप में vibe coding से बनाया
- एक अकेले bug को ढूँढने के लिए पूरे one-off app को vibe coding से बना दिया — code अचानक free, temporary, flexible, disposable हो गया
- Vibe coding software को terraform करेगा और jobs की परिभाषा बदल देगा
6. Nano Banana / LLM GUI
- Google Gemini Nano Banana 2025 के सबसे चौंकाने वाले paradigm-shift models में से एक है
- उस worldview में जहाँ LLM को 1970s–80s के computers जैसी अगली बड़ी computing paradigm माना जाता है, वैसी ही तरह के innovations भी मूलतः वैसी ही वजहों से सामने आएँगे
- Personal computing, microcontrollers (cognitive core), internet (of agents) आदि के equivalents उभरेंगे
- UIUX के नज़रिए से LLM से "chat" करना 1980s के computer console को commands देने जैसा है
- Text, computers (और LLMs) के लिए पसंदीदा raw data representation है, लेकिन इंसानों के लिए यह पसंदीदा format नहीं है
- खासकर input के मामले में, लोग text पढ़ना पसंद नहीं करते — यह धीमा है और मेहनत माँगता है
- लोग जानकारी को visual और spatial रूप में ग्रहण करना पसंद करते हैं, इसलिए पारंपरिक computing में GUI का आविष्कार हुआ
- उसी तरह LLM को भी इंसानों के पसंदीदा formats — images, infographics, slides, whiteboards, animation/video, web apps आदि — में communicate करना चाहिए
- अभी शुरुआती version emoji और Markdown जैसी चीज़ें हैं — titles, bold, italics, lists, tables आदि के जरिए text को "visually style" करके व्यवस्थित किया जाता है
- Nano Banana, LLM GUI कैसा हो सकता है, इसका पहला शुरुआती संकेत देता है
- सिर्फ image generation नहीं, बल्कि text generation, image generation, और world knowledge का model weights में आपस में गुँथा हुआ संयुक्त capability अधिक महत्वपूर्ण है
TLDR; समग्र सार
- 2025, LLM के लिए एक रोमांचक और कुछ हद तक चौंकाने वाला साल था
- LLM, उम्मीद से कहीं अधिक स्मार्ट और साथ ही उम्मीद से कहीं अधिक मूर्ख एक नए प्रकार की intelligence के रूप में उभरे
- फिर भी LLM बेहद उपयोगी हैं, और मेरा मानना है कि मौजूदा तकनीकी स्तर पर भी उद्योग उनकी क्षमता का 10% भी इस्तेमाल नहीं कर पा रहा है
- आज़माने लायक ideas की कोई कमी नहीं है, और conceptual रूप से यह क्षेत्र अभी भी बहुत शुरुआती अवस्था में दिखता है
- (ऊपरी तौर पर विरोधाभासी लग सकता है, लेकिन) मेरा मानना है कि आगे तेज़ और लगातार प्रगति होगी, और साथ ही अभी भी बहुत काम बाकी है
अभी कोई टिप्पणी नहीं है.