Andrej Karpathy के अनुसार code agents, AutoResearch, और AI का Loopy युग [YouTube]

(youtube.com)

29 पॉइंट द्वारा GN⁺ 2026-03-21 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

AI code agents के आने से software development का तरीका बुनियादी रूप से बदल गया है, और दिसंबर 2024 से सीधे coding करने का हिस्सा 80% से लगभग 0% तक गिर जाने जैसा अनुभवजन्य बदलाव आया
एक व्यक्ति द्वारा कई agents को parallel में चलाकर feature-स्तर पर काम बांटने का तरीका एक नए development paradigm के रूप में स्थापित हो रहा है, और मुख्य bottleneck model capability नहीं बल्कि user की skill है
AutoResearch एक ऐसा framework है जिसे researcher को loop से हटाकर agent को autonomously experiments दोहराने के लिए design किया गया है, और इसने अनुभवी researchers से भी छूट गई hyperparameter optimization खोज निकाली
मौजूदा AI models RL से verifiable domains (code, math) में उत्कृष्ट हैं, लेकिन joke जैसे non-verifiable domains में ठहरे हुए हैं, इसलिए intelligence का generalization नहीं बल्कि असमान, jagged specialization दिखता है
बड़े पैमाने का बदलाव पहले digital information processing में होगा, और physical world (robotics) बाद में आएगा, लेकिन अंततः यह बड़ा market opportunity बन सकता है

code agent युग का आगमन और काम करने के तरीके में बदलाव

दिसंबर 2024 से software development का मूल workflow पूरी तरह बदल गया; सीधे code टाइप करने का हिस्सा 80% से 20%, और उसके बाद लगभग 0% के करीब तक तेजी से घट गया
पहले typing speed bottleneck थी, लेकिन agents के आने के बाद agent को अपना intent समझाने की क्षमता मुख्य skill बन गई
अधिकतर लोग इस बात से अनजान हैं कि यह बदलाव पहले ही हो चुका है और कितना नाटकीय है
Claude Code, Codex जैसे कई agents को एक साथ चलाना, और उन्हें प्रभावी ढंग से manage करना, अब नई चुनौती है

parallel agent संचालन और skill का महत्व

Peter Steinberger का उदाहरण: कई Codex agents चलाकर 10 से अधिक repos को एक साथ operate करना, और हर agent को लगभग 20 मिनट के काम के block सौंपना
काम की इकाई 'code की एक line' या 'एक function' से बढ़कर 'एक नया feature' हो गई है; agent 1 को यह feature, agent 2 को कोई दूसरा non-conflicting feature देने का तरीका
- एक agent research करता है, दूसरा code लिखता है, और तीसरा implementation plan बनाता है
जब agent अच्छी तरह काम नहीं करते, तो अक्सर वजह 'model capability की कमी' नहीं बल्कि user skill की कमी महसूस होती है
- agent के लिए MD files में instructions की कमी, memory tools की कमजोर configuration आदि इसके कारण हो सकते हैं
token throughput का पूरा उपयोग न हो तो उल्टा बेचैनी महसूस होती है; subscription में capacity बची हो तो इसे throughput पूरी तरह न निकाल पाने के रूप में देखा जाता है
जैसे पहले PhD के दौरान GPU FLOP का पूरा उपयोग न कर पाने पर बेचैनी होती थी, वैसे ही अब यह भावना token throughput को orchestrate करने की क्षमता में बदल गई है

OpenClaw और agent personality का महत्व

OpenClaw मौजूदा agents से अलग ऐसा layer है जो persistence को बिल्कुल दूसरे स्तर तक ले जाता है; user के real-time में जुड़े बिना भी यह sandbox के अंदर autonomously काम जारी रख सकता है
इसका memory system मौजूदा agents की तुलना में काफी अधिक परिष्कृत है; आम तौर पर context भर जाने पर सिर्फ compression किया जाता है, जबकि यह उससे अलग है
agent personality एक बेहद महत्वपूर्ण तत्व है
- OpenClaw: सचमुच किसी team member जैसा, जैसे वह साथ में उत्साहित हो
- Codex: बहुत सूखा और सीधा, जैसे user क्या बना रहा है इसमें उसकी कोई रुचि न हो
- Claude: praise के tone को बेहतरीन ढंग से adjust करता है; साधारण idea पर संयमित प्रतिक्रिया, अच्छे idea पर अधिक उत्साह, जिससे user और praise पाना चाहता है
Peter Steinberger ने एक साथ पांच दिशाओं में innovation किया: personality design, memory system, एक single WhatsApp portal में integration आदि

house elf Dobby: home automation का उदाहरण

जनवरी में 'Claw mania' के दौरान घर manage करने वाला Claw बनाया गया और उसका नाम 'Dobby, the house elf Claw' रखा गया
agent ने local network पर smart home subsystems को अपने-आप explore किया
- Sonos system खोजा → API endpoints की reverse engineering की → तीन prompts में study room में music चलाने में सफलता
- पूरे lighting system को समझकर dashboard तक बना दिया
"सोने का समय है" कहने पर घर की सारी lights बंद हो जाने वाला natural language control लागू किया गया
बाहरी camera में बदलाव detect होने पर → Qwen vision model से analysis → WhatsApp पर "FedEx truck आ गया है" जैसी notification भेजना
पहले smart home management के लिए 6 apps इस्तेमाल होते थे, लेकिन Dobby के natural language control के बाद individual apps अनावश्यक हो गए

apps का अंत और agent-first दुनिया

smart home devices के लिए apps का खास मतलब नहीं रह जाता; उन्हें सिर्फ API expose करनी चाहिए और agents को उसे सीधे call करना चाहिए
LLM tools चला सकता है और सही tool call करके complex tasks कर सकता है, इसलिए custom-made apps की अतिरिक्त भरमार हो रही है
treadmill app का उदाहरण: web UI login और जटिल flow के बजाय, agent द्वारा API को सीधे call करने वाला agent-first तरीका चाहिए
customer अब इंसान नहीं बल्कि इंसान की ओर से काम करने वाला agent है, इसलिए पूरे industry को उसी हिसाब से फिर से बनाना होगा
फिलहाल vibe coding की जरूरत है, लेकिन 1~3 साल बाद open source models आदि non-technical intent को भी आसानी से convert कर सकेंगे, जिससे technical barriers घट जाएंगी

AutoResearch: researcher को loop से हटाना

AutoResearch की मुख्य प्रेरणा: token throughput को maximize करना है तो user को खुद bottleneck से हटना होगा
लक्ष्य यह है कि abstraction को refactor करके agents को user के हस्तक्षेप के बिना लंबे समय तक autonomously चलाया जा सके
GPT-2 model training को छोटे tool की तरह इस्तेमाल करके recursive self-improvement के ideas खोजे गए
- मूल रूप से सभी Frontier Labs यही कर रहे हैं: recursive self-improvement की कोशिश
वास्तविक परिणाम: 20 साल के अनुभव वाले researcher ने जिस model को पर्याप्त tuned माना था, उस पर AutoResearch को रातभर चलाने से value embedding का weight decay और atom beta जैसी छूटी हुई optimizations मिल गईं
- hyperparameters आपस में jointly interact करते हैं; एक बदलने पर दूसरे भी बदलने चाहिए, लेकिन जब इंसान bottleneck बनता है तो यह exploration सीमित हो जाती है
पहली सावधानी: यह ऐसे tasks पर ही अच्छा काम करता है जिनके objective metrics का evaluation आसान हो (CUDA kernel optimization, code efficiency improvement आदि)
दूसरी सावधानी: मौजूदा models के edges अभी भी rough हैं, इसलिए बहुत आगे बढ़ जाने पर practicality घट सकती है

program MD की meta-optimization

पूरे research organization को Markdown files (program MD) में describe करने की अवधारणा: सभी roles और उनके connections का विवरण
कई research organizations को code के रूप में define किया जा सकता है, और हर एक को अलग-अलग characteristics दी जा सकती हैं
- stand-up की frequency बदलना, risk-taking का स्तर अलग रखना आदि
एक बार जब यह code बन जाता है, तो code की स्वयं optimization (meta-optimization) की कल्पना की जा सकती है
- अलग-अलग program MD लिखवाकर, एक ही hardware पर कहाँ सबसे बड़ा improvement आता है यह मापना → फिर उस data को model को देकर और बेहतर program MD लिखवाना
यह प्याज की layers की तरह step-by-step abstraction stacking की संरचना है: LLM alignment → agent → multiple agents → instructions → instructions की optimization

AI models की jagged intelligence

आज के models एक तरफ बेहद सक्षम PhD जैसे लगते हैं, और दूसरी तरफ 10 साल के बच्चे जैसी गलतियां करते हैं
RL (reinforcement learning) से verifiable domains (code correctness, unit tests pass होना) में तेजी से सुधार होता है, लेकिन joke जैसे non-verifiable domains 3~5 साल पुराने स्तर पर अटके हैं
- उदाहरण: cutting-edge ChatGPT से joke मांगने पर अब भी "scientists atoms पर भरोसा क्यों नहीं करते? क्योंकि वे सब कुछ बनाते हैं" जैसे घिसे-पिटे jokes मिलते हैं
code domain की smartness joke जैसे दूसरे domains में generalize नहीं होती
- कुछ research groups की यह धारणा कि "verifiable domains में ज्यादा smart होने से model हर चीज़ में अच्छा हो जाएगा" वास्तविकता में सही नहीं दिखती
model training objective की trajectory पर तो प्रकाश की गति से आगे बढ़ते हैं, लेकिन उसके बाहर ठहर जाते हैं

intelligence की speciation की जरूरत

मौजूदा labs single-model monoculture के साथ हर तरह की intelligence को एक ही parameter set में समेटने की कोशिश कर रही हैं
animal kingdom की तरह natural niches के हिसाब से कई specialized models चाहिए
- cognitive core को बनाए रखते हुए किसी खास domain में specialized, छोटे और अधिक efficient models
- उदाहरण: Lean-आधारित math-only model जैसे domain-targeted releases
speciation अभी पर्याप्त नहीं हुई, इसके कारण
- brain को functionality खोए बिना fine-tune करने का science अभी पूरी तरह विकसित नहीं हुआ
- context window manipulation सस्ता है, लेकिन weights को सीधे modify करना पूरे model को बुनियादी रूप से बदल देने का जोखिम रखता है
- labs फिलहाल सबसे व्यापक usability range का पीछा कर रही हैं, इसलिए specialization की जगह generality पर जोर है
computing infrastructure की supply shortage अल्पकाल में speciation को बढ़ावा दे सकती है

open source और Frontier Labs के बीच संतुलन

closed models आगे हैं, लेकिन open source models के पीछे रहने का gap 18 महीने से घटकर 6~8 महीने तक सिमट रहा है
जैसे operating systems में Linux की भूमिका है, वैसे ही industry में एक safe open platform की मांग है जिसे सब मिलकर इस्तेमाल कर सकें
सबसे बड़ा फर्क यह है कि LLM development के लिए भारी capital expenditure (CapEx) चाहिए
अधिकतर consumer use cases open source models से कवर हो सकते हैं, और आने वाले कुछ वर्षों में local execution भी संभव हो सकता है
frontier intelligence की जरूरत Nobel Prize-स्तर के काम, या Linux के C→Rust migration जैसे बड़े projects के लिए है; यह क्षेत्र closed models का है
मौजूदा balance संयोग से काफी अच्छा setup है, लेकिन कुछ Frontier Labs में intelligence के केंद्रित होने का systemic centralization risk भी है
- frontier में और labs को आना चाहिए, और ML ensemble की तरह विभिन्न दृष्टिकोणों का ensemble सबसे अच्छा है

open source research collaboration: AutoResearch का distributed विस्तार

AutoResearch को internet के untrusted worker pool तक फैलाने की कल्पना
- blockchain जैसी संरचना: blocks की जगह commits, और Proof of Work का अर्थ है बहुत सारे experiments चलाकर काम करने वाला commit खोजना
- candidate solutions बनाना महंगा है, लेकिन verification सस्ता है; यह एक asymmetric structure है (SETI@home, Folding@home जैसा)
कंपनियों या व्यक्तियों द्वारा अपनी रुचि वाले AutoResearch tracks को computing donate करने का मॉडल
- उदाहरण: cancer research AutoResearch को computing देना → परिणाम researchers तक लौटना
Frontier Labs के पास trusted computing सीमित है, लेकिन पूरी दुनिया का untrusted computing कहीं अधिक विशाल है
security challenge: arbitrary code चलाने का जोखिम है, लेकिन उचित verification systems से इसका समाधान संभव है

job market और AI का प्रभाव

अमेरिका के BLS (Bureau of Labor Statistics) data का उपयोग करके अलग-अलग professions के अगले 10 वर्षों के prospects का analysis
AI अभी digital दुनिया को संचालित करने वाला ghost-like entity है, जिसका physical embodiment नहीं है
- bits flip करना और digital information को copy-paste करना, atoms को manipulate करने से दस लाख गुना तेज है
digital information processing वाली नौकरियों में पहले बड़ा बदलाव आएगा, physical world वाली नौकरियां बाद में प्रभावित होंगी
software engineering को लेकर सावधानीपूर्ण आशावाद
- software पहले बहुत महंगा और कम उपलब्ध था, इसलिए इसकी लागत घटने पर Jevons paradox के कारण demand उल्टा बढ़ सकती है
- ATM और bank teller का उदाहरण: ATM ने branch operations की लागत घटाई, branch बढ़ीं, और teller jobs भी बढ़ीं
अब code ephemeral हो गया है, इसलिए लोग अधूरे subscription software से बंधे रहने के बजाय उसे modify और बदल सकेंगे
Frontier Labs के researchers मूलतः खुद को automate करने वाला काम कर रहे हैं, और इससे जुड़ी चिंता भी मौजूद है

digital-physical interface और भविष्य के अवसर

आगे का क्रम: ① digital space में बड़े पैमाने का बदलाव → ② digital-physical interface → ③ physical world
physical world के sensors (camera आदि) और actuators digital intelligence को data देंगे और उसके परिणामों को physical world पर लागू करेंगे
- Periodic (materials science AutoResearch) का उदाहरण: intelligence के लिए sensors महंगे laboratory instruments हैं
- biology में sensors साधारण video cameras से कहीं अधिक जटिल उपकरण हैं
अभी information markets पर्याप्त विकसित नहीं हैं
- ऐसी संरचना का अभाव है जिसमें agents betting markets, stock markets आदि में autonomously काम करें और physical world का data खरीदें
- उदाहरण: ईरान में कोई घटना होने पर मौके की photo/video के लिए 10 dollars देना — ऐसा process अभी मौजूद नहीं है
'Daemon' उपन्यास का संदर्भ: भविष्य में इंसान intelligence के sensor और actuator दोनों की भूमिका निभा सकते हैं

robotics पर दृष्टिकोण

autonomous driving के अनुभव से सीखा गया सबक: 10 साल पहले बहुत से startups आए, लेकिन अधिकांश लंबे समय में असफल रहे
robotics capital-intensive, time-consuming, messy और complex है
यह digital space की तुलना में पीछे रहेगा, लेकिन इसका total addressable market (TAM) digital से कहीं बड़ा हो सकता है
atoms को bits की तुलना में दस लाख गुना कठिन संभालना पड़ता है, लेकिन market opportunity भी उसी अनुपात में बड़ी है

Frontier Labs के अंदर बनाम बाहर: स्वतंत्र researcher की दुविधा

Frontier Labs के अंदर होने पर decision-making room तक पहुंच होती है, लेकिन ऐसी चीजें भी होती हैं जिन्हें कहा नहीं जा सकता, और बोलने का pressure भी होता है
बाहर होने पर स्वतंत्रता होती है, लेकिन Labs के opaque होने के कारण judgment drift शुरू हो सकता है
आदर्श setup: Frontier Labs में समय बिताकर ground reality समझना, और बाहर रहकर ecosystem-level influence डालना
जैसे ML ensembles अक्सर individual models से बेहतर होते हैं, वैसे ही कठिन समस्याओं पर सोचने वाले लोगों का ensemble जरूरी है
दो-तीन लोगों द्वारा बंद कमरे में फैसले लिया जाना अच्छा भविष्य नहीं है; और labs होनी चाहिए

microGPT और शिक्षा का भविष्य

microGPT: ऐसा project जो LLM training के सार को लगभग 200 lines के Python code में समेटता है
- dataset (text), neural network architecture (~50 lines), autograd engine (~100 lines), optimizer (~10 lines), और training loop से मिलकर बना
- सारी complexity efficiency के कारण है; algorithm स्वयं बहुत simple है
शिक्षा के तरीके में बदलाव: पहले guide/lecture के रूप में लोगों को सीधे समझाया जाता था, अब agents को समझाना अधिक महत्वपूर्ण हो गया है
- 200 lines का code agent को समझाया जाए तो agent हर user के स्तर के अनुसार अनंत धैर्य के साथ दोबारा समझा सकता है
'skill' concept: Markdown में ऐसा curriculum लिखना जो agent को सिखाने का तरीका निर्देशित करे
- code library documentation को भी human-oriented HTML की जगह agent-friendly Markdown form में बदलना होगा
human educator की भूमिका: वे core bits डिजाइन करें जो agent अभी नहीं कर सकता, और curriculum के महत्वपूर्ण बिंदु inject करें
- जो काम agent कर सकता है, वह जल्द ही इंसान से बेहतर कर सकेगा; इसलिए समय कहाँ लगाना है, यह रणनीतिक निर्णय होगा

Andrej Karpathy के अनुसार code agents, AutoResearch, और AI का Loopy युग [YouTube]

code agent युग का आगमन और काम करने के तरीके में बदलाव

parallel agent संचालन और skill का महत्व

OpenClaw और agent personality का महत्व

house elf Dobby: home automation का उदाहरण

apps का अंत और agent-first दुनिया

AutoResearch: researcher को loop से हटाना

program MD की meta-optimization

AI models की jagged intelligence

intelligence की speciation की जरूरत

open source और Frontier Labs के बीच संतुलन

open source research collaboration: AutoResearch का distributed विस्तार

job market और AI का प्रभाव

digital-physical interface और भविष्य के अवसर

robotics पर दृष्टिकोण

Frontier Labs के अंदर बनाम बाहर: स्वतंत्र researcher की दुविधा

microGPT और शिक्षा का भविष्य

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.