Andrej Karpathy – AGI अभी भी 10 साल दूर है
(dwarkesh.com)- Andrej Karpathy का तर्क है कि यह "एजेंट्स का साल" नहीं बल्कि "एजेंट्स का दशक" होगा, और वे AI उद्योग की अतिशयोक्तिपूर्ण भविष्यवाणियों का खंडन करते हुए कहते हैं कि लगभग 10 वर्षों के क्रमिक सुधार की आवश्यकता होगी
- मौजूदा LLMs में लगातार सीखने, multimodal क्षमताओं, कंप्यूटर उपयोग कौशल जैसी मुख्य संज्ञानात्मक क्षमताओं की कमी है, और इन समस्याओं को सुलझाने में लगभग 10 साल लगने की उम्मीद है
- विकासवाद ने जानवरों को जो अंतर्निहित हार्डवेयर दिया है, उसके विपरीत LLM इंटरनेट डेटा की नकल से बना एक "आत्मा-जैसा अस्तित्व" है; यह एक अलग तरह की बुद्धिमत्ता है, इसलिए जानवरों से इसकी सीधी तुलना उचित नहीं
- RL (reinforcement learning) काफी अक्षम है, लेकिन वैकल्पिक तरीके भी अभी पर्याप्त विकसित नहीं हुए हैं। LLMs में model collapse और forgetting की समस्या के कारण, वे मानव मस्तिष्क की तरह स्वाभाविक रूप से लगातार ज्ञान ग्रहण करने या विकसित होने में सीमित हैं
- Pre-training एक "बेहद खराब evolution" है, जिसमें 15 ट्रिलियन tokens को अरबों parameters में अत्यधिक संपीड़ित करके इंटरनेट दस्तावेज़ों की बस धुंधली याद बचती है
- AGI अंततः सामान्य 2% GDP growth trajectory के भीतर ही आएगा; इसे computing के क्रमिक विस्तार के रूप में देखना चाहिए, न कि किसी असतत छलांग के रूप में (superintelligence बहस सहित)
AGI के आगमन का समय और AI विकास की रफ्तार
- Andrej Karpathy ने ज़ोर देकर कहा कि “AI एजेंट्स का युग इस साल नहीं, बल्कि 10 साल के पैमाने की प्रक्रिया है”।
- अभी Claude, Codex जैसे कई AI एजेंट उपयोगी रूप से इस्तेमाल हो रहे हैं, लेकिन लगातार सीखने, multimodal processing, जटिल कंप्यूटर उपयोग जैसी क्षमताओं में वे अब भी कमज़ोर हैं
- AGI को वास्तव में किसी मानव कर्मचारी या इंटर्न की तरह काम करना है तो बुद्धिमत्ता में सुधार, स्थायी स्मृति, बहु-क्षमता हासिल करना जैसी कठिन समस्याएँ हल करनी होंगी
- AI उद्योग की विकास-भविष्यवाणियों पर Karpathy का कहना है कि करीब 15 साल से अधिक के अपने अनुभव के आधार पर कठिन समस्याएँ हल की जा सकती हैं, लेकिन वे बेहद कठिन हैं, इसलिए लगभग 10 साल लग सकते हैं
शुरुआती AI शोध में दिशा-परिवर्तन
- AlexNet से पहले deep learning एक niche विषय था, लेकिन 2012 में AlexNet ने पूरे क्षेत्र को neural network training की ओर मोड़ देने वाला पहला बड़ा बदलाव किया
- 2013 के आसपास Atari deep reinforcement learning गलत दिशा थी, और OpenAI का शुरुआती game-centric दृष्टिकोण भी एक गलती था
- उन्हें इस बात पर संदेह था कि गेम्स AGI तक ले जाएँगे; उनका मानना था कि वास्तविक दुनिया के साथ interaction ज़रूरी है
- OpenAI का Universe प्रोजेक्ट बहुत जल्दी था और rewards इतने कम थे कि सीखना संभव नहीं था
- LLM के ऊपर एजेंट बनाना सही रास्ता है; पहले representation हासिल करनी होगी, उसके बाद एजेंट बनाए जा सकते हैं
- बड़े language models के ऊपर computer-use agents को train करने का मौजूदा तरीका उचित है
- agent tasks संभव होने से पहले pre-training और LLM कार्य के ज़रिए पहले representation हासिल करनी होगी
- कुल मिलाकर AI क्षेत्र perceptron/neural net → agent (RL) → LLM/representation learning को मज़बूत करने की धारा में विकसित हुआ है
मानव सीखने और पशु विकास के बीच अंतर
- जानवरों (जैसे ज़ेब्रा) में जटिल व्यवहार evolution के कारण आनुवंशिक रूप से अंतर्निहित होते हैं; AI शोध वास्तविक evolution प्रक्रिया की नकल नहीं करता, बल्कि मुख्यतः इंटरनेट सामग्री के ज़रिए imitation learning (pre-training) का उपयोग करता है
- मौजूदा LLMs evolution से बने जीवों से संरचनात्मक रूप से अलग हैं। जीवों को हार्डवेयर (neural network) जन्म से मिलता है, जबकि AI को उन्होंने सॉफ़्टवेयर-आधारित “भूत” के अधिक क़रीब बताया
- मानव मस्तिष्क और AI की समानताओं को केवल सीमित रूप से ही संदर्भ मानना चाहिए; व्यावहारिक उद्देश्य (usefulness) के आधार पर सोचना ज़्यादा यथार्थवादी है
In-context learning बनाम pre-training
- Pre-training इंटरनेट की विशाल जानकारी को compress करने का परिणाम है, इसलिए मॉडल जो ज्ञान याद रखता है, वह धुंधला और आंशिक होता है
- किसी वास्तविक प्रश्न के लिए जानकारी context window के भीतर “working memory” की तरह ज़्यादा सीधे उपयोग होती है
- In-context learning working memory का, और pre-training long-term memory का धुंधला रूप है
- KV cache में मौजूद हर चीज़ ऐसी working memory है जिसे neural network सीधे access कर सकता है
- weights में मौजूद हर चीज़ उस चीज़ की धुंधली याद जैसी है जो एक साल पहले पढ़ी गई थी
- यह संभव है कि in-context learning आंतरिक रूप से gradient descent को लागू करती हो
- linear regression शोध में neural network weights और gradient descent mechanism के बीच समानता पाई गई
- pattern completion सीखकर neural network के भीतर छोटे circuits और algorithms boot हो जाते हैं
- Pre-training में प्रति token 0.07 bits बनाम in-context learning में प्रति token 320 kilobytes
- प्रति token सूचना-अवशोषण के लिहाज़ से in-context learning 3.5 करोड़ गुना अधिक है
- compression ratio का यह बड़ा अंतर सीखने के तरीकों के बुनियादी अंतर को दिखाता है
मानव और LLM के बीच संज्ञानात्मक अंतर
- hippocampus, amygdala जैसे brain regions का अभाव
- Transformer cortex-समान संरचना से मेल खाता है और prefrontal cortex जैसी reasoning क्षमता रखता है
- लेकिन hippocampus (memory), amygdala (emotion) जैसे महत्वपूर्ण brain regions की नकल नहीं की गई है
- लगातार सीखने की व्यवस्था का अभाव
- मनुष्य दिन भर की context जानकारी को sleep जैसी प्रक्रियाओं के दौरान आंतरिक weights में distill कर देता है
- LLM हर session में 0 tokens से फिर शुरू होता है और उसके पास ऐसा कोई distillation चरण नहीं होता। यानी उसमें समान long-term memory/continuous learning mechanism नहीं है
- Reinforcement learning “भयानक” है
- सही उत्तर देने वाले rollout के सभी tokens को ऊपर की ओर weight किया जाता है, जबकि वह शोर से भरा होता है
- यह “straw के ज़रिए supervision चूसने” जैसा है, जहाँ सिर्फ अंतिम reward से पूरी trajectory का मूल्यांकन किया जाता है
- मनुष्य जटिल समीक्षा-प्रक्रिया से हर हिस्से का मूल्यांकन करता है, लेकिन LLM में उसका कोई समकक्ष नहीं है
Process-based supervision की सीमाएँ
- LLM judge को गेम करना संभव है
- reward assignment के लिए LLM का उपयोग करने पर adversarial examples मिलना लगभग तय है
- “dhdhdhdh” जैसे बेतुके output को भी 100% reward मिलने के मामले सामने आए
- Out-of-sample generalization क्षेत्रों में कमज़ोरी
- training के दौरान कभी न देखे गए inputs पर LLM judge अत्यधिक scores दे सकता है
- दोहराए गए training से सुधार संभव है, लेकिन 1 ट्रिलियन parameters में अनंत adversarial examples मौजूद हो सकते हैं
- Synthetic data और समीक्षा की आवश्यकता
- समाधान की समीक्षा और synthetic examples बनाकर meta-learning करने वाले दृष्टिकोणों पर काम हो रहा है
- लेकिन frontier LLM labs के स्तर पर भी ऐसा कोई ठोस तरीका अभी नहीं है जो पूर्ण generality के साथ काम करता हो
मानव की learning बनाम LLM की learning
- मनुष्य reinforcement learning का बहुत कम उपयोग करते हैं
- अधिकांश reinforcement learning बास्केटबॉल में शॉट लगाने जैसे motor tasks में होता है
- problem-solving जैसे बौद्धिक कार्यों में RL का उपयोग नहीं होता
- किताब पढ़ना synthetic data generation के लिए prompt जैसा है
- मनुष्य किताबें पढ़कर जानकारी को manipulate करते हैं और ज्ञान हासिल करते हैं
- LLM सिर्फ text sequence फैलाता है और next-token prediction से सीखता है
- Model collapse की समस्या
- LLM samples अलग-अलग स्तर पर उचित लग सकते हैं, लेकिन उनका distribution चुपचाप collapse हो जाता है
- ChatGPT सिर्फ 3 jokes बार-बार दोहराता है (संभव मज़ाकों की पूरी range गायब)
- मनुष्य भी समय के साथ collapse होते हैं, लेकिन जो बच्चे अभी overfit नहीं हुए हैं वे चौंकाने वाली बातें कह सकते हैं
याददाश्त बनाम generalization का संतुलन
- LLM याद करने में बेहद अच्छे हैं
- पूरी तरह random sequences भी एक-दो बार दोहराने पर वे पूरा सुना सकते हैं
- मनुष्य random number sequences याद करके नहीं सुना सकते
- याद रखने की क्षमता bug नहीं, feature है
- मनुष्यों को केवल generalizable components सीखने के लिए मजबूर किया जाता है
- LLM pre-training documents की यादों के कारण विचलित हो जाते हैं
- संज्ञानात्मक core से ज्ञान हटाने की ज़रूरत
- लगभग 1 billion parameters वाले cognitive core की परिकल्पना
- ज्ञान हटाकर सिर्फ algorithms और strategies बनाए रखना
- pre-training set की सफ़ाई और distillation से इसे छोटे models में हल किया जा सकता है
आगे के सुधार की दिशा और तकनीकी दृष्टिकोण
- उनका अनुमान है कि अगले 10 वर्षों में architecture, optimization (optimizer), loss function, data, software, hardware जैसे हर क्षेत्र में एक साथ प्रगति होनी चाहिए, तभी सार्थक नतीजे आएँगे
- मौजूदा Transformer संरचना या deep learning पद्धति का कुछ हिस्सा जारी रह सकता है, लेकिन इसमें sparse attention, विस्तारित computing power, बड़े पैमाने का data भी जुड़ने की संभावना है
- अब तक के विकास से भी यह महसूस होता है कि किसी एक कारक से ज़्यादा, कई हिस्सों में साथ-साथ सुधार महत्वपूर्ण रहा है
LLM की संज्ञानात्मक कमियाँ और coding tools का उपयोग
- LLMs का coding assistance में आम तौर पर उपयोग होता है, लेकिन ऐसे केंद्रित code लेखन में जहाँ अपनी अलग design और approach चाहिए, वहाँ इसकी सीमाएँ काफ़ी हैं
- आम तौर पर तीन तरीके मिलाकर इस्तेमाल होते हैं: (1) पूरी तरह manual writing, (2) autocomplete का उपयोग, (3) “agent” तरीका
- base code जितना अधिक दोहरावदार हो और अच्छे उदाहरण जितने अधिक हों, LLM उतना बेहतर फिट बैठता है; लेकिन मौलिकता और संरचना-प्रधान code में, LLM की पुरानी शैली पर अड़े रहना, अनावश्यक जटिलता बढ़ाना, conventions को गलत समझना जैसी समस्याएँ उभरती हैं
- एक वास्तविक उदाहरण में, PyTorch DDP container का उपयोग नहीं करना चाहने के बावजूद LLM बार-बार वही सुझाता रहा, जिससे code style और implementation approach पर टिके रहना मुश्किल हुआ
nanochat डेवलपमेंट अनुभव
- LLM अनोखे codebase के लिए उपयुक्त नहीं हैं
- सिर्फ boilerplate code और इंटरनेट पर बार-बार दिखने वाली चीज़ों में उपयोगी
- nanochat बौद्धिक रूप से सघन है और सटीक array की ज़रूरत होती है, इसलिए models बार-बार गलत समझते हैं
- autocomplete उपयोग का सबसे अच्छा तरीका है
- vibe coding सिर्फ कुछ खास सेटिंग्स में काम करती है
- autocomplete शुरुआती कुछ अक्षरों से high information bandwidth देता है
- Rust जैसी नई language सीखने में उपयोगी
- Python reference implementation और tests हों तो सुरक्षित रूप से vibe coding की जा सकती है
- अपरिचित language या paradigm तक पहुंच आसान होती है
AI engineering automation की हक़ीक़त
- मौजूदा models AI research automation के लिए पर्याप्त नहीं हैं
- coding text-आधारित होने के कारण LLM के लिए पहला लगभग परफ़ेक्ट fit है
- जो code पहले कभी लिखा नहीं गया, उसमें ये उतने अच्छे नहीं हैं
- demo-product gap
- 1980 के दशक से autonomous driving demos मौजूद हैं, लेकिन product बनने में बहुत समय लगा
- "9s की मार्च" - हर 9 एक निश्चित काम की मात्रा है, 90% से 99.999% तक लगातार सुधार चाहिए
- intelligence explosion GDP curve में दिखाई नहीं देगा
- computer, iPhone जैसी परिवर्तनकारी technologies भी GDP में नहीं मिलतीं
- सब कुछ इतना फैल जाता है और धीरे-धीरे अपनाया जाता है कि वही 2% growth rate में औसत हो जाता है
autonomous driving से सीख
- autonomous driving अभी समाप्त नहीं हुई है
- Waymo के पास भी बहुत कम vehicles हैं, और संचालन किफायती नहीं है
- remote operations center में इंसान loop में मौजूद है
- safety-critical domains की समानताएँ
- software engineering में भी गलती की लागत बहुत अधिक है (जैसे security vulnerabilities)
- autonomous driving जैसी "9s की मार्च" यहाँ भी चाहिए
- Tesla का scalable approach
- Waymo ने बहुत सारे sensors के साथ शुरुआती शुरुआत की
- Tesla लंबे समय में अधिक scalable strategy के कारण बेहतर स्थिति में है
autonomous driving vs knowledge-work AI तुलना
- bit domain भौतिक दुनिया से दस लाख गुना आसान है
- bits बदले जा सकते हैं और तेज़ी से फिर से व्यवस्थित किए जा सकते हैं
- industry adaptation कहीं ज़्यादा तेज़ होने की उम्मीद है
- capital expenditure का अंतर
- autonomous driving में हर copy के लिए पूरी नई car चाहिए
- AI model में सिर्फ inference cost के साथ अतिरिक्त instances दिए जा सकते हैं
- social acceptance की जटिलता
- legal, insurance, regulatory पहलू सुलझाने होंगे
- Waymo car पर cone रखने वाले लोगों का AI में भी कोई समकक्ष होगा
Eureka Labs का vision
- Starfleet Academy बनाना
- frontier technology के लिए elite educational institution
- AI समेत नवीनतम तकनीकी ज्ञान प्रदान करना
- AGI के बाद education मज़े के लिए होगी
- AGI से पहले: पैसा कमाने के लिए उपयोगी शिक्षा
- AGI के बाद: gym जाने की तरह school जाना, एक मनोरंजक शिक्षा
- perfect AI tutor का इंतज़ार
- Korean personal tutor का अनुभव मानक तय करता है
- छात्र की समझ को पहचानना, उपयुक्त चुनौती देना, perfect information transfer
- मौजूदा क्षमता से यह संभव नहीं है, लेकिन भविष्य में हो सकता है
educational material design के सिद्धांत
- physics जैसा सोचने का तरीका
- 1st, 2nd, 3rd order terms से system को समझना
- models और abstractions बनाना
- "spherical cow" assumption का महत्व
- पहले pain दिखाओ, फिर solution दो
- छात्र को पहले खुद कोशिश करने का मौका देना
- solution देने से पहले prompt के ज़रिए motivation देना
- micrograd का उदाहरण
- 100 lines में backpropagation का core दिखाता है
- बाकी सब सिर्फ efficiency है
- recursive application of the chain rule ही सब कुछ है
प्रभावी learning strategies
- depth-first, ज़रूरत के हिसाब से सीखना
- किसी खास project के ज़रिए reward पाते हुए सीखना
- breadth-first learning (school style) के साथ बारी-बारी से
- दूसरों को समझाना
- समझ की खाइयों को खोजने और भरने के लिए मजबूर करता है
- ज्ञान को manipulate करते हुए गहरी समझ मिलती है
- lunch conversation > papers
- conference में beer पीते हुए सुनी गई 3 पंक्तियाँ paper से ज़्यादा स्पष्ट होती हैं
> मुझे किसी चीज़ को फिर से समझाना पसंद है, और दूसरों को भी ऐसा करना चाहिए। क्योंकि तब आपको ज्ञान के साथ काम करना पड़ता है, और समझाते समय यह पक्का समझना पड़ता है कि आप क्या कह रहे हैं।
# [पूरा स्क्रिप्ट]
00:00:00 – AGI अभी भी कम से कम 10 साल दूर है
Dwarkesh Patel 00:00:00
आज मैं Andrej Karpathy से बात कर रहा हूँ। Andrej, आप क्यों कहते हैं कि यह "agents का year" नहीं बल्कि "agents का decade" होगा?
Andrej Karpathy 00:00:07
सबसे पहले, मुझे आमंत्रित करने के लिए धन्यवाद। यहाँ आकर खुशी हुई।
आपने अभी जिस "agents का decade" वाले वाक्यांश का ज़िक्र किया, वह दरअसल पहले कही गई बात पर मेरी प्रतिक्रिया थी। मुझे ठीक-ठीक याद नहीं कि यह किसने कहा था, लेकिन LLM के विकास के संदर्भ में यह इशारा किया गया था कि यह साल "agents का year" होगा। उस बात ने मुझे उकसाया, क्योंकि मुझे लगता है कि industry में बहुत ज़्यादा overprediction हो रही है। मेरी राय में, "agents का decade" कहना कहीं ज़्यादा सही है।
हमारे पास पहले से ही शुरुआती लेकिन बहुत प्रभावशाली agents हैं, और मैं खुद Claude या Codex जैसी चीज़ें रोज़ इस्तेमाल करता हूँ। लेकिन मुझे अब भी लगता है कि बहुत सारा काम बाकी है। मेरा मानना है कि हम आने वाले 10 साल तक इन चीज़ों पर काम करते रहेंगे। वे लगातार बेहतर होंगी, शानदार बनेंगी। मैं बस उस implicit timeline पर प्रतिक्रिया दे रहा हूँ।
Dwarkesh Patel 00:00:58
आपको क्यों लगता है कि इसमें 10 साल लगेंगे? bottleneck कहाँ है?
Andrej Karpathy 00:01:02
उन्हें सच में काम करने लायक बनाना। जब हम agents की बात करते हैं, तो AI labs के दिमाग में जो चीज़ है, और शायद मेरे दिमाग में भी, वह ऐसी इकाई होनी चाहिए जैसे कोई employee या intern जिसे आप साथ काम करने के लिए hire करें। उदाहरण के लिए, आप भी यहाँ staff के साथ काम करते हैं। आप Claude या Codex जैसे agent से वह काम कब करवाना चाहेंगे?
अभी के लिए तो यह साफ़ तौर पर संभव नहीं है। इसे संभव बनाने के लिए क्या चाहिए? आज हम उनका इस्तेमाल क्यों नहीं कर रहे? वजह सीधी है। वे ठीक से काम नहीं करते। उनमें पर्याप्त intelligence नहीं है, पर्याप्त multimodal capability नहीं है, और वे computer use जैसी चीज़ें नहीं कर सकते।
वे उन कई चीज़ों को नहीं कर पाते जिनका आपने पहले ज़िक्र किया। उनमें continual learning की क्षमता नहीं है। आप उन्हें कुछ बताकर यह उम्मीद नहीं कर सकते कि वे उसे याद रखेंगे। cognitive स्तर पर उनमें बहुत कमियाँ हैं और वे ठीक से काम नहीं करते। इन सारी समस्याओं को हल करने में लगभग 10 साल लगेंगे।
Dwarkesh Patel 00:01:44
दिलचस्प है। एक professional podcaster और दूर से AI को देखने वाले व्यक्ति के रूप में, यह समझना आसान है कि क्या कमी है। जैसे continual learning की कमी, multimodal capability की कमी वगैरह। लेकिन उसके लिए timeline तय करने का कोई अच्छा तरीका नहीं है। अगर कोई मुझसे पूछे कि continual learning में कितना समय लगेगा, तो मुझे बिल्कुल अंदाज़ा नहीं कि यह 5 साल, 10 साल या 50 साल का project है। 10 साल ही क्यों? 1 साल या 50 साल क्यों नहीं?
Andrej Karpathy 00:02:16
यहाँ बात मेरी व्यक्तिगत intuition की आती है, और field experience के आधार पर inference की। मैं लगभग 20 साल से AI में हूँ। शायद 15 साल। इतना लंबा भी नहीं। यहाँ आ चुके Richard Sutton इससे कहीं ज़्यादा लंबे समय से हैं। मेरे पास लगभग 15 साल का अनुभव है, और उस दौरान मैंने लोगों को predictions करते देखा है और यह भी देखा है कि वे कैसे सच हुईं। मैं कुछ समय industry में रहा हूँ, research में भी रहा हूँ, फिर वापस industry में आया हूँ। उन अनुभवों से एक तरह की सामान्य intuition बची रह गई है।
मुझे लगता है कि ये समस्याएँ हल की जा सकती हैं, इन्हें पार किया जा सकता है, लेकिन फिर भी ये कठिन हैं। औसतन देखें तो मुझे बस 10 साल जैसा महसूस होता है।
Dwarkesh Patel 00:02:57
बहुत दिलचस्प। मैं सिर्फ इतिहास ही नहीं, बल्कि उन पलों के बारे में भी सुनना चाहता हूँ जब अलग-अलग breakthroughs हुए और वहाँ मौजूद लोगों को क्या महसूस हुआ कि आगे क्या होने वाला है। उनकी predictions किन मायनों में बहुत pessimistic या बहुत optimistic थीं? क्या हम एक-एक करके देख सकते हैं?
Andrej Karpathy 00:03:16
यह बहुत बड़ा सवाल है। क्योंकि हम 15 साल में हुई चीज़ों की बात कर रहे हैं। AI वाकई एक हैरान कर देने वाला क्षेत्र है। इसमें कुछ बार ऐसे भूकंपीय बदलाव आए हैं, जिनके बाद पूरा क्षेत्र अचानक बिल्कुल अलग दिखने लगता है। मुझे लगता है कि मैंने उनमें से शायद दो या तीन बदलाव सीधे देखे हैं। और मुझे लगता है कि आगे भी ऐसे बदलाव आते रहेंगे। वे लगभग चौंकाने वाली नियमितता से आते हैं।
जब मेरा करियर शुरू हुआ, जब मैंने deep learning पर काम शुरू किया, तो मुझे deep learning में दिलचस्पी बस इस संयोग से हुई कि मैं University of Toronto में Geoff Hinton के बिल्कुल पास था। Geoff Hinton, जाहिर है, AI के गॉडफादर जैसे व्यक्ति हैं। वे इन neural networks को train कर रहे थे, और मुझे यह अद्भुत और रोचक लगा। लेकिन उस समय AI में यह बिल्कुल भी वह मुख्य चीज़ नहीं थी जो हर कोई कर रहा था। यह बस एक कोने में पड़ा छोटा-सा niche topic था। शायद पहला बड़ा भूकंपीय बदलाव AlexNet के साथ आया।
AlexNet ने सबका रुख बदल दिया, और सबने neural networks को train करना शुरू कर दिया। लेकिन तब भी काम task-by-task, यानी अलग-अलग specific tasks के हिसाब से हो रहा था। जैसे आपके पास image classifier हो, या neural machine translation system हो। लोग agents में बहुत धीरे-धीरे दिलचस्पी लेने लगे। वे सोचने लगे, “ठीक है, visual cortex जैसी चीज़ को हमने check कर लिया, लेकिन दिमाग के बाकी हिस्सों का क्या, और हम ऐसा पूरा agent या पूरा entity कैसे पाएँ जो दुनिया के साथ interact कर सके?”
मेरे हिसाब से 2013 के आसपास का Atari deep reinforcement learning बदलाव agents की दिशा में शुरुआती कोशिशों का हिस्सा था। क्योंकि यह सिर्फ दुनिया को perceive करने की बात नहीं थी, बल्कि ऐसा agent बनाने की कोशिश थी जो action ले, interact करे, और environment से reward पाए। उस समय वह Atari games थे।
मुझे लगता है कि वह गलत दिशा थी। यहाँ तक कि शुरुआती OpenAI ने भी, जिसमें मैं शामिल था, वही गलत दिशा अपनाई। क्योंकि उस समय का zeitgeist reinforcement learning environments, games, gameplay, games जीतना, और तरह-तरह के games हासिल करना था, और OpenAI भी ऐसी बहुत-सी चीज़ें कर रहा था। वह सब थोड़ी-बहुत गलती थी। शायद 2, 3, 4 साल तक हर कोई games पर reinforcement learning लागू कर रहा था, और वह सब थोड़ा गलत दिशा में था।
OpenAI में मैं जो करना चाहता था—मैं हमेशा इस बात को लेकर थोड़ा सशंकित था कि games AGI तक ले जाएँगे। मेरे हिसाब से हमें accountant जैसी कोई चीज़ चाहिए थी, कुछ ऐसा जो वास्तविक दुनिया के साथ interact करे। मुझे समझ नहीं आता था कि games उससे कैसे पहुँचाएँगे। उदाहरण के लिए, OpenAI में मेरा प्रोजेक्ट Universe project के दायरे में, keyboard और mouse का इस्तेमाल करके web pages को manipulate करने वाले agent के बारे में था। मैं सचमुच कुछ ऐसा बनाना चाहता था जो वास्तविक digital दुनिया के साथ interact कर सके और knowledge work कर सके।
लेकिन बाद में पता चला कि यह बहुत जल्दी थी, बहुत ज़्यादा जल्दी—इतनी जल्दी कि शायद हमें उस पर काम ही नहीं करना चाहिए था। क्योंकि अगर आप बस इधर-उधर टटोलते रहें, keyboard पीटते रहें, mouse क्लिक करते रहें, और ऐसे environment में reward पाने की कोशिश करें, तो reward इतने sparse होते हैं कि learning होती ही नहीं। आप बहुत सारा compute जला देते हैं, लेकिन कभी परिणाम नहीं मिलता। जो चीज़ हमसे छूट रही थी, वह neural networks में representation power थी।
उदाहरण के लिए, आज लोग computer-use agents को train कर रहे हैं, लेकिन वे इसे large language models के ऊपर कर रहे हैं। पहले आपको language model चाहिए, पहले आपको representation चाहिए, और वह pretraining और LLM से जुड़ी सारी चीज़ों के ज़रिए हासिल होता है।
मेरा मोटा-मोटी एहसास यह है कि लोगों ने कई बार बहुत जल्दी पूरा समाधान पाने की कोशिश की। मैं कहना चाहूँगा कि लोगों ने agents को बहुत जल्दी pursue करना शुरू कर दिया। Atari, Universe, यहाँ तक कि मेरा अपना अनुभव भी ऐसा ही था। असल में agent तक पहुँचने से पहले कुछ और चीज़ें थीं जो पहले करनी ज़रूरी थीं। अब agents कहीं ज़्यादा सक्षम हैं, लेकिन शायद हम अभी भी उस stack का कुछ हिस्सा मिस कर रहे हैं।
मैं कहूँगा कि ये तीन मुख्य categories थीं जिन पर लोग काम कर रहे थे: task-specific neural networks को train करना, agents की पहली पीढ़ी की कोशिश करना, और फिर LLM तथा बाकी सब चीज़ों को ऊपर जोड़ने से पहले neural networks की representation power का पीछा करना।
Dwarkesh Patel 00:07:02
दिलचस्प है। अगर मैं Sutton के नज़रिए का थोड़ा और मज़बूती से बचाव करूँ, तो इंसान सब कुछ एक साथ ही ग्रहण कर लेते हैं, है ना? या जानवर भी सब कुछ एक साथ ग्रहण कर लेते हैं। शायद जानवर बेहतर उदाहरण हैं, क्योंकि उनके पास भाषा जैसा scaffold भी नहीं होता। उन्हें बस दुनिया में डाल दिया जाता है, और बिना किसी labels के उन्हें सब कुछ समझना पड़ता है।
तो क्या AGI की vision ऐसी नहीं होनी चाहिए कि वह sensory data देखे, computer screen देखे, और शुरुआत से ही समझ जाए कि क्या हो रहा है? अगर इंसान को भी ऐसी ही स्थिति में रखकर शुरुआत से train करना पड़े... यह वैसा ही है जैसे इंसान बड़ा होता है या जानवर बड़ा होता है। लाखों साल की training करने के बजाय, AI के लिए वही vision क्यों न हो?
Andrej Karpathy 00:07:41
बहुत अच्छा सवाल है। Sutton आपके podcast पर आए थे और मैंने भी वह podcast देखा था, और मैंने इस बारे में अपनी सोच लिखी थी। मैं जानवरों से तुलना करने को लेकर बहुत सावधान रहता हूँ। क्योंकि जानवर एक बहुत अलग optimization process से आए हैं। जानवर evolve हुए हैं, और वे अपने साथ बहुत बड़ी मात्रा में built-in hardware लेकर आते हैं।
उदाहरण के लिए, मेरी पोस्ट में उदाहरण zebra का था। एक zebra पैदा होता है, और कुछ ही मिनटों बाद दौड़ने लगता है और अपनी माँ के पीछे चलता है। यह बेहद जटिल चीज़ है। यह reinforcement learning नहीं है। यह built-in है। Evolution के पास साफ़ तौर पर हमारे neural network के weights को ATCG में encode करने का कोई तरीका है, और मुझे नहीं पता वह कैसे काम करता है, लेकिन वह साफ़ तौर पर काम करता है।
दिमाग एक बहुत अलग process से आया है, और मैं उससे inspiration लेने में बहुत हिचकिचाता हूँ। क्योंकि हम वास्तव में उस process को चला ही नहीं रहे हैं। अपनी पोस्ट में मैंने कहा था कि हम जानवर नहीं बना रहे हैं। हम किसी भूत या आत्मा जैसी चीज़ बना रहे हैं। लोग इसे जो भी नाम दें, हम evolution के ज़रिए training नहीं कर रहे हैं। हम इंसानों की नकल कर रहे हैं और उस data के ज़रिए train कर रहे हैं जो उन्होंने इंटरनेट पर डाला है।
आखिर में वे ऐसे आध्यात्मिक प्राणियों जैसे बन जाते हैं। वे पूरी तरह digital हैं और इंसानों की नकल कर रहे हैं। यह एक अलग तरह की intelligence है। अगर आप intelligence के space की कल्पना करें, तो हम लगभग एक अलग बिंदु से शुरुआत कर रहे हैं। हम वास्तव में जानवर नहीं बना रहे हैं। लेकिन समय के साथ उन्हें थोड़ा अधिक animal-like बनाना संभव भी है, और मेरा मानना है कि ऐसा करना चाहिए।
एक और बात मैं कहूँगा, Sutton का framework काफ़ी हद तक यह है: “हम जानवर बनाना चाहते हैं।” मुझे लगता है कि अगर आप इसे कामयाब बना सकें तो यह शानदार होगा। यह वास्तव में अद्भुत होगा। अगर एक single algorithm हो जो इंटरनेट पर चल सके और सब कुछ सीख ले, तो वह कमाल होगा। मुझे पक्का नहीं कि ऐसी कोई चीज़ है, और जानवर निश्चित रूप से ऐसा नहीं करते। क्योंकि जानवरों के पास evolution का external loop होता है।
जो चीज़ें learning जैसी दिखती हैं, उनमें से बहुत-सी वास्तव में learning कम और brain maturation ज़्यादा होती हैं। मुझे लगता है कि जानवरों में reinforcement learning बहुत कम होती है। ज़्यादातर reinforcement learning motor tasks जैसी चीज़ों के लिए होती है। intelligence tasks के लिए नहीं। इसलिए कुल मिलाकर मुझे लगता है कि इंसान RL का बहुत कम इस्तेमाल करते हैं।
Dwarkesh Patel 00:09:52
क्या आप अपना आख़िरी वाक्य फिर से कह सकते हैं? कि उस intelligence का बड़ा हिस्सा motor tasks नहीं है, बल्कि... क्या था?
Andrej Karpathy 00:09:54
मेरे नज़रिए से reinforcement learning का बड़ा हिस्सा कहीं ज़्यादा motor जैसी चीज़ों के लिए होगा, जैसे basketball hoop में गेंद फेंकना जैसी simple tasks। लेकिन मुझे नहीं लगता कि इंसान problem-solving जैसे बहुत-से intelligence tasks के लिए reinforcement learning का इस्तेमाल करते हैं। इसका मतलब यह नहीं कि research के लिए ऐसा नहीं करना चाहिए, लेकिन मेरे हिसाब से जानवर यही करते हैं या नहीं करते हैं।
Dwarkesh Patel 00:10:17
इसे समझने में थोड़ा समय लगेगा। इसमें बहुत-से विचार हैं। आपके नज़रिए को समझने के लिए मैं एक clarifying question पूछता हूँ। आपने सुझाव दिया कि evolution वही काम करती है जो pretraining करती है, इस अर्थ में कि वह कुछ ऐसा बनाती है जो दुनिया को समझ सके।
फ़र्क यह है कि evolution को, इंसानों के मामले में, 3 गीगाबाइट DNA के ज़रिए नियंत्रित होना पड़ता है। यह मॉडल के weights से बहुत अलग है। सचमुच मॉडल के weights ही दिमाग होते हैं, और वे स्पष्ट रूप से sperm और egg में मौजूद नहीं होते। इसलिए उन्हें बढ़ना पड़ता है। साथ ही, दिमाग के सभी synapses की जानकारी DNA में मौजूद 3 गीगाबाइट के भीतर बस मौजूद नहीं हो सकती।
ऐसा लगता है कि evolution, lifelong learning करने वाले algorithm को खोजने के ज़्यादा करीब है। बेशक, जैसा आपने कहा, lifelong learning ज़रूरी नहीं कि RL जैसी ही हो। क्या यह आपकी बात के साथ compatible है, या आप असहमत हैं?
Andrej Karpathy 00:11:17
मुझे लगता है, हाँ। मैं निश्चित रूप से इस बात से सहमत हूँ कि वहाँ अद्भुत compression हो रहा है। साफ़ है कि neural network के weights ATCG में stored नहीं हैं। वहाँ नाटकीय compression है। ऐसे learning algorithms encode किए गए हैं जो कुछ learning को online अपने ऊपर ले लेते हैं। उस बिंदु पर मैं निश्चित रूप से सहमत हूँ। मैं यह कहना चाहूँगा कि मेरी सोच बहुत अधिक practical है। मैं इस नज़रिए से नहीं देखता कि चलो जानवर बनाते हैं। मैं इस नज़रिए से देखता हूँ कि चलो कुछ उपयोगी बनाते हैं। मैंने safety helmet पहन रखा है, और मैं बस यह देख रहा हूँ कि हम evolution नहीं करने वाले हैं। क्योंकि हमें पता ही नहीं कि वह कैसे करना है।
लेकिन यह सामने आया है कि internet documents की नकल करके हम इन भूत-जैसी, आत्मा-जैसी entities को बना सकते हैं। यह काम करता है। यह कुछ मायनों में evolution ने जो किया उसके जैसा है—एक ऐसा व्यावहारिक रूप से संभव version, जो आपको बहुत-सी built-in knowledge और intelligence वाली किसी चीज़ तक ले जाता है। इसलिए मैं pretraining को यह घटिया evolution कहता हूँ। यह हमारी technology और हमारे पास उपलब्ध चीज़ों के साथ व्यावहारिक रूप से संभव version है, और इससे हम उस शुरुआती बिंदु तक पहुँचते हैं जहाँ हम reinforcement learning जैसी चीज़ें कर सकते हैं।
Dwarkesh Patel 00:12:15
दूसरे नज़रिए का पक्ष लेते हुए, इस Sutton interview को करने और उस पर सोचने के बाद, मुझे लगता है कि उनका यहाँ एक महत्वपूर्ण point है। evolution वास्तव में हमें knowledge नहीं देता। वह हमें knowledge खोजने वाला algorithm देता है। और यह pretraining से अलग लगता है।
शायद नज़रिया यह है कि pretraining ऐसे kind of beings बनाने में मदद करती है जो बेहतर तरीके से सीख सकें। यह meta-learning सिखाती है, इसलिए वह algorithm खोजने के समान है। लेकिन अगर आप कहें, "evolution हमें knowledge देता है, pretraining हमें knowledge देती है," तो वह analogy टूटती हुई लगती है।
Andrej Karpathy 00:12:42
यह सूक्ष्म बात है, और मुझे लगता है कि आपका इस पर push back करना सही है, लेकिन मूल रूप से pretraining जो कर रही है, वह है internet का next token predictor बनाना और उसे neural network के रूप में train करना। यह दो ऐसी चीज़ें कर रही है जो एक-दूसरे से अलग हैं। पहली, यह वह सब हासिल कर रही है जिसे मैं knowledge कहता हूँ। दूसरी, यह वास्तव में intelligent भी बन रही है।
internet पर algorithmic patterns को देखकर, यह neural network के भीतर इन छोटे circuits और algorithms को boot करती है, ताकि in-context learning जैसी चीज़ें कर सके। knowledge की न तो ज़रूरत है और न ही उसे चाहा जाता है। मेरे हिसाब से, शायद कुल मिलाकर वही neural network के रास्ते में भी आ रही है। क्योंकि कई बार वह उसे knowledge पर बहुत ज़्यादा निर्भर बना देती है।
उदाहरण के लिए, agents एक चीज़ अच्छी तरह नहीं कर पाते: internet पर मौजूद data के manifold से बाहर जाना। अगर उनके पास कम knowledge या कम memory होती, तो शायद वे बेहतर होते। मुझे लगता है कि आगे हमें जो करना है—और यह research paradigm का हिस्सा होगा—वह है कुछ knowledge को हटाने और जिसे मैं cognitive core कहता हूँ उसे बनाए रखने का तरीका खोजना। वह knowledge से अलग एक intelligent entity है, लेकिन उसमें algorithms, intelligence, problem solving का जादू और उसकी strategies शामिल हैं।
Dwarkesh Patel 00:13:50
इसमें बहुत दिलचस्प बातें हैं। चलिए in-context learning से शुरू करते हैं। यह साफ़ बात है, लेकिन मुझे लगता है इसे स्पष्ट रूप से कहना और उस पर विचार करना ज़रूरी है। वे स्थितियाँ जहाँ ये models सबसे ज़्यादा intelligent लगते हैं—वे पल जब मैं उनसे बात करते हुए महसूस करता हूँ, "वाह, सचमुच दूसरी तरफ़ कुछ है जो मुझे जवाब दे रहा है," जब वे गलती होने पर कहते हैं, "ओह, एक सेकंड, यह सोचने का गलत तरीका है। चलो पीछे चलते हैं"—यह सब context के भीतर हो रहा होता है। वहीं आपको आँखों से दिखने वाली असली intelligence मिलती है।
in-context learning की प्रक्रिया, pretraining के लिए gradient descent द्वारा विकसित की जाती है। यह स्वतःस्फूर्त तरीके से in-context learning को meta-learn करती है, लेकिन in-context learning स्वयं gradient descent नहीं है। ठीक उसी तरह जैसे इंसानों में, हमारा lifelong intelligence जो काम कर पाने की क्षमता देता है, वह evolution द्वारा conditioned होता है, लेकिन हमारे जीवनकाल के दौरान learning किसी और process के ज़रिए होती है।
Andrej Karpathy 00:14:42
मैं पूरी तरह सहमत नहीं हूँ, लेकिन आप अपनी बात आगे बढ़ाइए।
Dwarkesh Patel 00:14:44
हूँ, मैं समझना चाहता हूँ कि वह analogy कैसे टूटती है।
Andrej Karpathy 00:14:48
मैं यह कहने में हिचकिचाऊँगा कि in-context learning gradient descent नहीं करती। वह explicit gradient descent नहीं करती। in-context learning, token window के भीतर pattern completion है। क्योंकि यह सामने आया है कि internet पर पैटर्न की भारी मात्रा मौजूद है। आपकी बात सही है। model pattern complete करना सीखता है, और वह weights में होता है। neural network के weights pattern खोजने और pattern complete करने की कोशिश करते हैं। neural network के भीतर adaptation होता है, जो जादुई है और सीधा internet से निकलता है। क्योंकि वहाँ बहुत सारे patterns हैं।
मैं कहूँगा कि in-context learning के पीछे के mechanism को देखने वाले कुछ दिलचस्प papers हैं। मुझे लगता है कि यह संभव है कि in-context learning, neural network की layers के भीतर छोटे gradient descent loops चला रही हो। एक paper जो मुझे खास तौर पर याद है उसमें in-context learning का इस्तेमाल करके linear regression किया जा रहा था। neural network का input XY pairs है। XY, XY, XY एक लाइन पर हैं। फिर आप X देते हैं और Y की अपेक्षा करते हैं। neural network, इस तरह train किए जाने पर, linear regression करता है।
आम तौर पर जब आप linear regression चलाते हैं, तो एक छोटा gradient descent optimizer होता है जो XY को देखता है, error देखता है, weights का gradient निकालता है और कुछ updates करता है। जब उन्होंने उस in-context learning algorithm के weights को देखा, तो यह सामने आया कि उन्हें gradient descent mechanism से कुछ समानताएँ मिलीं। वास्तव में, मुझे लगता है कि paper उससे भी अधिक मज़बूत था; उन्होंने neural network के weights को hardcode किया था ताकि वह attention और neural network के बाकी internal हिस्सों के ज़रिए gradient descent कर सके।
बस यही मेरा एकमात्र प्रतिवाद है। किसी को नहीं पता कि in-context learning कैसे काम करती है, लेकिन शायद वह अंदर ही अंदर किसी तरह की अजीब gradient descent कर रही है। मुझे लगता है यह संभव है। मैं सिर्फ़ आपकी इस बात पर आपत्ति कर रहा हूँ कि आपने कहा यह in-context learning नहीं कर रही। कोई नहीं जानता कि वह क्या कर रही है, लेकिन शायद वह उससे मिलती-जुलती कोई चीज़ कर रही है। लेकिन हम नहीं जानते।
Dwarkesh Patel 00:16:39
तो अगर in-context learning और pretraining दोनों ही gradient descent जैसी किसी चीज़ को implement कर रहे हैं, तो in-context learning में हमें यह continuous learning, असली intelligence जैसा एहसास क्यों होता है? जबकि सिर्फ़ pretraining से वैसा एहसास नहीं होता। ऐसा दावा किया जा सकता है।
अगर algorithm एक ही है, तो फिर क्या अलग हो सकता है? इसके बारे में सोचने का एक तरीका यह है कि मॉडल training के दौरान मिलने वाली जानकारी के मुकाबले कितनी जानकारी store करता है। Pre-training को देखें, उदाहरण के लिए Llama 3 को देखें, तो मान लें कि उसे 15 ट्रिलियन tokens पर train किया गया है। 70B मॉडल को देखें, तो यह pre-training में देखे गए प्रति token लगभग 0.07 bits के बराबर होगा। यानी मॉडल के weights में मौजूद जानकारी की तुलना में पढ़े गए tokens के संदर्भ में। दूसरी ओर, अगर आप KV cache को देखें और यह देखें कि in-context learning में हर अतिरिक्त token पर वह कितना बढ़ता है, तो वह लगभग 320 किलोबाइट है। यानी प्रति token मॉडल द्वारा आत्मसात की जाने वाली जानकारी में 3.5 करोड़ गुना का अंतर है। मुझे जिज्ञासा है कि क्या यह प्रासंगिक है।
Andrej Karpathy 00:17:46
मैं कुछ हद तक सहमत हूँ। मैं इसे आम तौर पर इस तरह कहता हूँ कि neural network training के दौरान जो कुछ भी होता है, वह बस उस चीज़ की धुंधली याद है जो training के समय हुई थी। क्योंकि compression बहुत नाटकीय है। आप 15 ट्रिलियन tokens लेते हैं और उन्हें कुछ अरब parameters वाले अंतिम neural network में compress कर रहे हैं। साफ़ तौर पर बहुत भारी मात्रा में compression हो रहा है। इसलिए मैं उसे internet documents की धुंधली याद कहता हूँ।
इसके उलट, neural network की context window में जो कुछ भी होता है—सभी tokens को डालना और सभी KV cache representations बनाना—उस तक neural network बहुत सीधे पहुँच सकता है। इसलिए मैं KV cache और test-time पर होने वाली चीज़ों की तुलना working memory से अधिक करता हूँ। Context window में मौजूद हर चीज़ तक neural network बहुत सीधे पहुँच सकता है।
LLM और इंसानों के बीच हमेशा ऐसी लगभग चौंकाने वाली समानताएँ होती हैं। मुझे वे चौंकाने वाली लगती हैं, क्योंकि हम सीधे मानव मस्तिष्क बनाने की कोशिश नहीं कर रहे हैं। हम तो बस यह पा रहे हैं कि यह काम करता है, और इसे कर रहे हैं। लेकिन मुझे लगता है कि weights में मौजूद हर चीज़, उस चीज़ की धुंधली याद है जो आपने एक साल पहले पढ़ी थी। और test-time पर context के रूप में दी गई हर चीज़ सीधे working memory में होती है। चीज़ों के बारे में सोचने के लिए यह बहुत शक्तिशाली analogy है।
उदाहरण के लिए, अगर आप किसी LLM से किसी किताब के बारे में पूछें कि उसमें क्या हुआ था, जैसे Nick Lane की किताब, तो LLM अक्सर आपको मोटे तौर पर सही जवाब देगा। लेकिन अगर आप उसे पूरा chapter दे दें और फिर सवाल पूछें, तो आपको बहुत बेहतर परिणाम मिलेंगे। क्योंकि अब वह मॉडल की working memory में load हो चुका है। तो यह सहमति जताने का लंबा तरीका है, और यही वजह है।
Dwarkesh Patel 00:19:11
एक कदम पीछे हटकर देखें, तो इन मॉडलों के साथ मानव बुद्धिमत्ता के किस हिस्से को दोहराने में हम सबसे ज़्यादा असफल रहे हैं?
Andrej Karpathy 00:19:20
बस, बहुत से हिस्से। तो इसके बारे में सोचने का एक तरीका यह है—मुझे नहीं पता कि यह सबसे अच्छा तरीका है या नहीं—लेकिन मैं लगभग यह महसूस करता हूँ, फिर से कहूँ तो ऐसी analogies बनाना अपूर्ण है, कि transformer neural networks के साथ हमने कुछ ऐसा संयोग से खोज लिया है। यह बेहद शक्तिशाली है, बहुत सामान्य है। आप audio, video, text, जो चाहें उसके लिए transformers को train कर सकते हैं, वे patterns सीखते हैं, बहुत शक्तिशाली हैं, और सच में बहुत अच्छा काम करते हैं। मेरे लिए यह लगभग यह संकेत देता है कि यह cortical tissue के किसी हिस्से जैसा है। ऐसा लगता है। क्योंकि cortex बहुत plastic होने के लिए मशहूर है। आप मस्तिष्क के हिस्सों को फिर से wire कर सकते हैं। कुछ हद तक डरावने experiments हुए थे जिनमें visual cortex को auditory cortex से फिर जोड़ा गया था, और उस जानवर ने अच्छी तरह सीख लिया।
इसलिए मुझे लगता है कि यह cortical tissue है। जब neural networks के भीतर reasoning और planning होती है, जब thought models के लिए reasoning traces होती हैं, तो वह कुछ-कुछ prefrontal cortex जैसा है। शायद वे छोटी-छोटी checkmarks हैं, लेकिन मुझे अब भी लगता है कि मस्तिष्क के बहुत से हिस्से और nuclei अभी भी अनदेखे हैं। उदाहरण के लिए, basal ganglia है, जो थोड़ा-बहुत reinforcement learning करता है जब हम मॉडल को reinforcement learning से fine-tune करते हैं। लेकिन hippocampus कहाँ है? वह क्या होगा, यह स्पष्ट नहीं है। कुछ हिस्से शायद महत्वपूर्ण नहीं होंगे। शायद cerebellum cognition के लिए महत्वपूर्ण नहीं है, सोचने के लिए महत्वपूर्ण नहीं है, इसलिए शायद कुछ हिस्सों को छोड़ा जा सकता है। लेकिन फिर भी, उदाहरण के लिए amygdala, जहाँ सारी emotions और instincts होती हैं। शायद मस्तिष्क के बहुत से और पुराने nuclei हैं जिन्हें हमने वास्तव में replicate नहीं किया है।
मुझे नहीं लगता कि हमें मानव मस्तिष्क का analogue बनाने के पीछे पड़ना चाहिए। मैं अपने मन से मुख्य रूप से एक engineer हूँ। शायद इस सवाल का जवाब देने का एक और तरीका यह है कि मैं इसे intern के रूप में hire नहीं करूँगा। अभी भी बहुत कुछ गायब है। इसमें वे बहुत सारी cognitive कमियाँ भी शामिल हैं जिन्हें हम सब मॉडल से बात करते समय सहज रूप से महसूस करते हैं। इसलिए यह अभी पूरी तरह वहाँ तक नहीं पहुँचा है। आप कह सकते हैं कि मस्तिष्क के सभी हिस्सों पर अभी टिक नहीं लगा है।
Dwarkesh Patel 00:21:16
यह शायद इस सवाल से जुड़ा हो सकता है कि ये समस्याएँ कितनी जल्दी हल होंगी। कभी-कभी लोग continual learning के बारे में कहते हैं, “देखो, इस क्षमता को आसानी से replicate किया जा सकता है। जैसे in-context learning pre-training के परिणाम के रूप में स्वतः उभरी थी, वैसे ही लंबे horizons पर continual learning भी स्वतः उभरेगी, अगर मॉडल को एक session से लंबे horizons पर जानकारी याद रखने के लिए incentivize किया जाए।” तो अगर उस outer loop के भीतर बहुत से sessions वाला कोई outer-loop RL हो, तो खुद को fine-tune करना या external memory में लिखना जैसी यह continual learning बस स्वतः उभर आएगी। क्या आपको ऐसी चीज़ें plausible लगती हैं? मेरे पास इस बारे में कोई prior नहीं है कि यह कितना plausible है। इसकी संभावना कितनी है?
Andrej Karpathy 00:22:07
मैं उससे पूरी तरह सहमत नहीं हूँ। ये मॉडल जब boot होते हैं और window में 0 tokens होते हैं, तो हमेशा वहीं से फिर शुरू करते हैं जहाँ वे थे—बिलकुल शुरुआत से। इसलिए उस worldview में यह कैसा दिखता है, मुझे नहीं पता। अगर इंसानों से थोड़ी analogy बनाएँ—जो मुझे लगता है कि मोटे तौर पर ठोस है और सोचने लायक दिलचस्प भी—तो जब मैं जाग रहा होता हूँ, मुझे लगता है कि मैं दिन भर होने वाली चीज़ों की context window बना रहा हूँ। लेकिन जब मैं सोता हूँ, तो कुछ जादुई-सा होता है, क्योंकि मुझे नहीं लगता कि वह context window बनी रहती है। कोई प्रक्रिया होती है जो उसे मस्तिष्क के weights में distill करती है। यह नींद के दौरान होता है, वगैरह।
Large language models में उसका कोई equivalent नहीं है। मेरे लिए continual learning की बात करते समय जो चीज़ गायब है, वह उससे ज़्यादा जुड़ी हुई है। इन मॉडलों में वास्तव में कोई distillation step नहीं है जो हुई चीज़ों को लेकर उन्हें बाध्यकारी तरीके से analyze करे, उन पर सोचे, थोड़ा synthetic data generation करे और फिर उन्हें वापस weights में distill करे। और शायद हर व्यक्ति के लिए कोई विशेष neural network हो। शायद वह LoRA होगा। पूरा full-weight neural network नहीं, बल्कि बस बदलने वाले weights का कोई छोटा sparse subset।
लेकिन हम ऐसे individuals बनाना चाहते हैं जिनके पास बहुत लंबा context हो। यह सिर्फ context window में ही नहीं रहता, क्योंकि context window बहुत, बहुत लंबी हो जाती है। शायद हमारे पास उसके लिए बहुत sophisticated sparse attention भी हो। लेकिन मुझे अब भी लगता है कि इंसानों के पास स्पष्ट रूप से कोई ऐसी प्रक्रिया है जो उस ज्ञान के कुछ हिस्से को weights में distill करती है। हम वही मिस कर रहे हैं। मुझे यह भी लगता है कि इंसानों के पास बहुत sophisticated sparse attention system होता है, जिसकी कुछ शुरुआती झलकें हमें दिखनी शुरू हुई हैं। DeepSeek v3.2 अभी-अभी आया है और मैंने देखा कि उसमें sparse attention है। उदाहरण के लिए, बहुत, बहुत लंबी context window पाने का यह एक तरीका है। इसलिए मुझे लगता है कि हम evolution द्वारा सोचे गए कई cognitive tricks को एक बहुत अलग प्रक्रिया के ज़रिए फिर से कर रहे हैं। लेकिन हम cognitively मिलते-जुलते architecture की ओर converge करेंगे।
Dwarkesh Patel 00:24:02
क्या आपको लगता है कि 10 साल बाद भी यह अब भी transformer जैसी ही कोई चीज़ होगी? लेकिन उसमें कहीं अधिक संशोधित attention और अधिक sparse MLP वगैरह होंगे?
Andrej Karpathy 00:24:10
मैं इसे समय के संदर्भ में translation invariance की तरह सोचता हूँ। 10 साल पहले हम कहाँ थे? 2015 में। 2015 में हमारे पास मुख्य रूप से convolutional neural networks थे, और residual networks अभी-अभी आए थे। हैरानी की बात है कि वे काफ़ी समान थे, लेकिन फिर भी काफ़ी अलग थे। Transformer तब तक आया ही नहीं था। Transformer के लिए इस तरह के आधुनिक tweaks भी नहीं थे। शायद जिन चीज़ों पर हम शर्त लगा सकते हैं, उनमें से एक यह है कि, मेरे हिसाब से translation equivariance के तहत, 10 साल बाद भी हम अब भी forward and backward pass और gradient descent के ज़रिए updates के साथ विशाल neural networks को train कर रहे होंगे। लेकिन शायद वह थोड़ा अलग दिखेगा, और सब कुछ बहुत बड़ा होगा।
हाल ही में मैं कुछ साल पहले 1989 तक पीछे गया था, और यह मेरे लिए एक दिलचस्प अभ्यास था। मैं Yann LeCun की 1989 convolution network को फिर से बना रहा था। जहाँ तक मुझे पता है, वह gradient descent से train किया गया पहला neural network था। यानी digit recognition के लिए gradient descent से train किया गया एक आधुनिक neural network। मेरी दिलचस्पी इस बात में थी कि इसे modernize कैसे किया जा सकता है। इसमें कितना algorithm है? कितना data है? इस प्रगति में कितना computing और systems का योगदान है? मैं बहुत जल्दी 33 साल की time travel के ज़रिए learning को आधा कर सका।
तो algorithm के हिसाब से 33 साल की time travel करने पर, मैं 1989 में Yann LeCun ने जो किया था उसे tweak कर सका और error को आधा कर सका। लेकिन उससे ज़्यादा फ़ायदा पाने के लिए मुझे बहुत अधिक data जोड़ना पड़ा, training set को 10 गुना बढ़ाना पड़ा, और अधिक computation optimizations जोड़ने पड़े। Dropout और दूसरी regularization techniques के साथ मुझे इसे काफ़ी ज़्यादा देर तक train भी करना पड़ा।
इसलिए इन सब चीज़ों में एक साथ सुधार होना चाहिए। शायद हमारे पास बहुत अधिक data होगा, बहुत बेहतर hardware होगा, hardware को चलाने और उससे अधिकतम लाभ लेने के लिए बहुत बेहतर kernels और software होगा, और बेहतर algorithms भी होंगे। यह सब—मुझे नहीं लगता इनमें से कोई एक चीज़ बहुत ज़्यादा जीतती है। सब हैरानी की हद तक बराबर हैं। काफ़ी समय से यही रुझान रहा है।
तो आपके सवाल का जवाब यह है कि मैं उम्मीद करता हूँ कि algorithmic रूप से यह आज जो हो रहा है उससे अलग होगा। लेकिन मैं यह भी उम्मीद करता हूँ कि जो चीज़ें बहुत लंबे समय से चलती आ रही हैं, उनमें से कुछ शायद तब भी मौजूद रहेंगी। शायद यह अब भी gradient descent से train किया गया एक विशाल neural network ही होगा। मेरा अनुमान यही है।
Dwarkesh Patel 00:26:16
यह हैरान करने वाला है कि सब कुछ मिलाकर आपने error को सिर्फ़ आधा ही किया—30 साल की प्रगति... आधा शायद बहुत होता है। क्योंकि अगर आप error को आधा कर देते हैं, तो वास्तव में वह...
Andrej Karpathy 00:26:30
आधा बहुत होता है। लेकिन मेरे लिए चौंकाने वाली बात यह थी कि हर चीज़ में व्यापक रूप से सुधार होना चाहिए: architecture, optimizer, loss function। और ये सब चीज़ें व्यापक रूप से और लगातार हमेशा बेहतर होती रही हैं। इसलिए मुझे उम्मीद है कि वे सारे बदलाव आगे भी ज़िंदा और मज़बूत रहेंगे।
Dwarkesh Patel 00:26:43
हाँ। मैं nanochat के बारे में भी बहुत मिलता-जुलता सवाल पूछना चाहता था। आपने हाल ही में इसे कोड किया है, इसलिए chatbot बनाने की प्रक्रिया का हर चरण आपकी RAM में ताज़ा है। मैं सोच रहा हूँ कि क्या GPT-2 से nanochat तक जाते हुए आपके मन में ऐसा कुछ आया कि “ओह, इसमें से कुछ भी relevant नहीं था।” उस अनुभव से सबसे चौंकाने वाला सबक क्या था?
Andrej Karpathy 00:27:08
nanochat बनाने के बारे में? nanochat वह repository है जिसे मैंने सार्वजनिक किया है। कल था क्या? या परसों? मुझे याद नहीं।
Dwarkesh Patel 00:27:15
लगता है नींद की कमी के नतीजे साफ़ दिख रहे हैं...
Andrej Karpathy 00:27:18
यह शुरू से अंत तक ChatGPT clone बनाने वाली पूरी pipeline को कवर करने वाली सबसे सरल और complete repository बनने की कोशिश है। इसलिए इसमें सिर्फ़ अलग-अलग steps ही नहीं, बल्कि सभी steps हैं—और वे काफ़ी सारे हैं। मैं पहले इन सभी individual steps पर काम कर चुका हूँ, और algorithmic अर्थ में छोटे-छोटे code snippets भी सार्वजनिक किए हैं जो दिखाते हैं कि साधारण code से यह कैसे किया जाए। लेकिन यह पूरी pipeline को कवर करती है। learning के लिहाज़ से, मुझे यक़ीन नहीं कि मैंने इससे अनिवार्य रूप से कुछ नया सीखा। इसे कैसे बनाना है, इसका खाका पहले से ही मेरे दिमाग़ में था। यह बस उसे mechanically बनाना और इतना साफ़-सुथरा करना था कि लोग उससे सीख सकें और उसे उपयोगी समझें।
Dwarkesh Patel 00:28:04
किसी व्यक्ति के लिए उससे सीखने का सबसे अच्छा तरीका क्या होगा? क्या वह सारा code मिटाकर उसे शुरू से फिर implement करने की कोशिश करे, या उसमें modifications जोड़ने की कोशिश करे?
Andrej Karpathy 00:28:10
अच्छा सवाल है। मूल रूप से यह करीब 8,000 lines of code हैं, जो पूरी pipeline को शुरू से अंत तक पार करती हैं। शायद मैं इसे दाईं monitor पर रखूँगा। अगर आपके पास दो monitors हैं, तो दाईं तरफ़ रखिए। अगर आप इसे शुरू से बनाना चाहते हैं, तो शुरुआत से शुरू कीजिए। Copy-paste की अनुमति नहीं है, reference की अनुमति है, लेकिन copy-paste की नहीं। शायद मैं यही करूँगा।
लेकिन मुझे यह भी लगता है कि repository ख़ुद में काफ़ी बड़ा monster है। जब मैं यह code लिखता हूँ, तो मैं ऊपर से नीचे नहीं जाता, बल्कि chunks में जाता हूँ और उन chunks को बढ़ाता हूँ, और वह जानकारी इसमें नहीं है। आपको पता नहीं होगा कि शुरुआत कहाँ से करें। इसलिए सिर्फ़ final repository काफ़ी नहीं है, repository को बनाना भी ज़रूरी है, और वह एक जटिल chunk-growth process है। तो वह हिस्सा अभी इसमें नहीं है। शायद मैं इसे इस हफ़्ते के बाद में जोड़ना चाहूँगा। शायद वह कोई video होगा या ऐसा कुछ। मोटे तौर पर, मैं यही करने की कोशिश कर रहा हूँ। ख़ुद बनाइए, लेकिन copy-paste मत कीजिए।
मुझे लगता है कि ज्ञान लगभग दो तरह का होता है। एक high-level surface knowledge होता है, लेकिन जब आप किसी चीज़ को शुरू से बनाते हैं, तो आपका सामना उन चीज़ों से होता है जिन्हें आप समझते नहीं हैं, और उन चीज़ों से भी जिनके बारे में आपको यह तक नहीं पता था कि आप उन्हें नहीं समझते।
यह हमेशा गहरी समझ की ओर ले जाता है। बनाने का यही एकमात्र तरीका है। अगर आप बना नहीं सकते, तो आप समझते नहीं हैं। मेरा मानना है कि यह Feynman quote है। मैं हमेशा इस पर बहुत दृढ़ता से विश्वास करता आया हूँ। क्योंकि ऐसी सूक्ष्म चीज़ें होती हैं जो सही तरह से व्यवस्थित नहीं होतीं, और वास्तव में आपके पास वह ज्ञान होता ही नहीं। आपको बस लगता है कि आपके पास ज्ञान है। इसलिए blog post मत लिखिए, slides मत बनाइए, ऐसी चीज़ें मत कीजिए। Code बनाइए, उसे व्यवस्थित कीजिए, और उसे चलाइए। आगे बढ़ने का यही एकमात्र रास्ता है। नहीं तो आप ज्ञान से चूक रहे हैं।
00:29:45 – LLM संज्ञानात्मक विकलांगता
Dwarkesh Patel 00:29:45
आपने ट्वीट किया था कि इस repository को जोड़ने में coding model ने लगभग कोई मदद नहीं की। मैं जानना चाहता हूँ कि ऐसा क्यों था।
Andrej Karpathy 00:29:53
मैं कहना चाहूँगा कि मैंने इस repository को एक महीने से थोड़ा अधिक समय में बनाया। और मैं यह भी कहना चाहूँगा कि इस समय लोग code के साथ जिस तरह interact करते हैं, उसकी तीन मुख्य श्रेणियाँ हैं। कुछ लोग LLM को पूरी तरह नकार देते हैं और बस सब कुछ शुरू से लिखते हैं। शायद अब यह सही तरीका नहीं रह गया है।
बीच का हिस्सा वह है जहाँ मैं हूँ: मैं अब भी बहुत-सी चीज़ें शुरू से लिखता हूँ, लेकिन अब इन models से मिलने वाला उपयोगी autocomplete इस्तेमाल करता हूँ। मैं कोई छोटा-सा हिस्सा लिखना शुरू करता हूँ, फिर यह अपने-आप पूरा कर देता है और मैं Tab दबाकर आगे बढ़ सकता हूँ। ज़्यादातर मामलों में यह सही होता है, कभी-कभी गलत होता है, फिर मैं edit कर देता हूँ। लेकिन आप अब भी वही architect हैं जो यह तय कर रहे हैं कि क्या लिखा जा रहा है। फिर vibe coding है: “हैलो, यह या वह implement कर दो”, Enter दबाइए, और model को करने दीजिए। वही agent है।
मुझे लगता है कि agent बहुत खास settings में काम करेंगे, और खास settings में इस्तेमाल होंगे। लेकिन ये सब usable tools हैं, और आपको सीखना होगा कि ये किस चीज़ में अच्छे हैं, किसमें अच्छे नहीं हैं, और कब इन्हें इस्तेमाल करना चाहिए। उदाहरण के लिए boilerplate काम में agents काफ़ी अच्छे हैं। बस copy-paste जैसा boilerplate code, ऐसी चीज़ों में ये बहुत अच्छे हैं। जो चीज़ें internet पर बहुत बार होती हैं, उनमें भी ये बहुत अच्छे हैं। क्योंकि ऐसे models के training set में ऐसे बहुत सारे examples होते हैं। कुछ ऐसी विशेषताएँ हैं जिनमें model बहुत अच्छा करेगा।
मैं कहूँगा कि nanochat ऐसा उदाहरण नहीं है। क्योंकि वह काफ़ी unique repository है। जिस तरह मैंने उसे structure किया है, उस तरह का बहुत code मौजूद नहीं है। वह boilerplate code नहीं है। वह intellectually intensive code है, और हर चीज़ का बहुत सटीक तरीके से arranged होना ज़रूरी है। models में बहुत-सी cognitive कमियाँ हैं। एक उदाहरण के तौर पर, वे code को बार-बार गलत समझते रहे क्योंकि उनके पास internet के तमाम सामान्य तरीकों की बहुत ज़्यादा memory है, जिन्हें मैंने अपनाया ही नहीं था। उदाहरण के लिए models बार-बार सोचते रहे कि मैं सामान्य code लिख रहा हूँ, जबकि मैं वैसा नहीं कर रहा था।
Dwarkesh Patel 00:31:49
शायद एक उदाहरण?
Andrej Karpathy 00:31:51
मान लीजिए 8 GPU हैं और वे सभी forward और backward कर रहे हैं। उनके बीच gradients को synchronize करने का एक तरीका है PyTorch के Distributed Data Parallel container का इस्तेमाल करना, जो backward के दौरान अपने-आप communication शुरू करता है और gradients को synchronize करता है। मैंने DDP का इस्तेमाल नहीं किया। क्योंकि मैं उसे इस्तेमाल नहीं करना चाहता था। उसकी ज़रूरत नहीं थी। मैंने उसे हटा दिया और optimizer के step के अंदर अपना खुद का synchronization routine लिख लिया। models मुझे DDP container इस्तेमाल करवाना चाहते थे। वे इसे लेकर बहुत चिंतित थे। यह थोड़ा ज़्यादा technical हो जाएगा, लेकिन मैंने उस container का इस्तेमाल नहीं किया। क्योंकि उसकी ज़रूरत नहीं थी और मेरे पास वैसा ही एक custom implementation था।
Dwarkesh Patel 00:32:26
वे यह internalize नहीं कर पाए कि आपके पास अपनी चीज़ है।
Andrej Karpathy 00:32:28
वे उस बात से आगे नहीं बढ़ पाए। वे लगातार style बिगाड़ने की कोशिश करते रहे। वे बहुत ज़्यादा defensive हैं। हर तरह के try-catch statements बना देते हैं। वे लगातार production codebase बनाने की कोशिश करते हैं, लेकिन मेरे code में बहुत सारी assumptions हैं, और वह ठीक है। वहाँ मुझे यह सारा extra सामान नहीं चाहिए। इसलिए मुझे लगता है कि वे codebase को फुला देते हैं, complexity बढ़ा देते हैं, चीज़ों को बार-बार गलत समझते हैं, और कई बार ऐसे API इस्तेमाल करते हैं जो deprecated हो चुके हैं। पूरा mess बन जाता है। आप जाकर उसे साफ़ तो कर सकते हैं, लेकिन कुल मिलाकर वह useful नहीं है।
इसके अलावा, मुझे यह भी परेशान करने वाला लगता है कि मुझे जो चाहिए उसे English में type करना पड़े। क्योंकि उसमें बहुत typing लगती है। अगर मैं code के उस हिस्से में चला जाऊँ जहाँ मुझे कुछ चाहिए, और जहाँ code आना चाहिए वहाँ जाकर शुरुआती कुछ अक्षर type करना शुरू कर दूँ, तो autocomplete समझ जाता है और code दे देता है। यह वह बताने का बहुत high-bandwidth तरीका है कि आपको क्या चाहिए। आप जिस code की ज़रूरत है उसे point करते हैं, शुरुआती कुछ टुकड़े type करते हैं, और model उसे पूरा कर देता है।
मेरा मतलब है, stack के कुछ खास हिस्सों में ये models अच्छे हैं। मेरे पास दो उदाहरण हैं जहाँ मैंने model इस्तेमाल किए, और वे मुझे representative लगते हैं। एक तब था जब मैंने report generate की थी। वह ज़्यादा boilerplate तरह की थी, इसलिए उसका कुछ हिस्सा मैंने आंशिक रूप से vibe coding से किया। क्योंकि वह mission-critical नहीं था, इसलिए वह ठीक था, और उसने अच्छा काम किया।
दूसरा हिस्सा तब था जब मैं tokenizer को Rust में फिर से लिख रहा था। मैं Rust में बहुत अच्छा नहीं हूँ। क्योंकि Rust मेरे लिए काफ़ी नया है। इसलिए Rust code लिखते समय थोड़ा vibe coding हुआ। लेकिन मेरे पास Python implementation था जिसे मैं पूरी तरह समझता था, और मैं यह सुनिश्चित कर रहा था कि मैं उसका ज़्यादा efficient version बना रहा हूँ, और मेरे पास tests भी थे, इसलिए मुझे लगा कि ऐसी चीज़ें करना ज़्यादा सुरक्षित है। ये आपको उन languages या paradigms के लिए accessibility बढ़ाकर देते हैं जिनसे आप शायद परिचित न हों। उस संदर्भ में भी मुझे ये बहुत उपयोगी लगते हैं। Rust code बहुत है, और models उसमें काफ़ी अच्छे हैं। मुझे उसके बारे में बहुत ज़्यादा नहीं पता, इसलिए वहाँ models मेरे लिए बहुत उपयोगी हैं।
Dwarkesh Patel 00:34:23
यह सवाल इतना दिलचस्प इसलिए है क्योंकि लोगों की AI explosion और बहुत तेज़ी से superintelligence तक पहुँचने की मुख्य कहानी यही है कि AI, AI engineering और AI research को automate कर देगा। वे देखते हैं कि उनके पास Claude Code है और वे शुरू से पूरी application, CRUD application बना सकते हैं, और सोचते हैं, “अगर OpenAI और DeepMind के अंदर भी यही क्षमता हो, तो आपके हज़ारों versions, या आपके दस लाख versions को parallel में कल्पना कीजिए, जो छोटे-छोटे architectural tweaks ढूँढ रहे हों।”
आपको यह कहते सुनना बहुत दिलचस्प है कि ठीक इसी जगह वे असममित रूप से ज़्यादा खराब हैं। AI 2027 तरह का explosion जल्द होने की संभावना का अनुमान लगाने के लिए यह काफ़ी relevant है।
Andrej Karpathy 00:35:05
यह कहने का अच्छा तरीका है, और मैं समझता हूँ कि मेरी timeline थोड़ी लंबी क्यों है। आप सही कह रहे हैं। वे उस code में उतने अच्छे नहीं हैं जो पहले कभी लिखा नहीं गया। शायद इसे कहने का एक तरीका यही है, और जब हम ये models बना रहे हैं, तो हम उसी दिशा में पहुँचना चाहते हैं।
Dwarkesh Patel 00:35:19
बहुत naïve सवाल है, लेकिन जो architectural tweaks आप nanochat में जोड़ रहे हैं, वे कहीं न कहीं papers में तो हैं ही, है न? शायद किसी repository में भी हों। अगर आप कहें, “RoPE embeddings जोड़ दो”, तो क्या यह चौंकाने वाली बात नहीं है कि वे उसे गलत तरीके से कर दें?
Andrej Karpathy 00:35:42
यह मुश्किल है। वे जानते तो हैं, लेकिन पूरी तरह नहीं जानते। वे यह नहीं जानते कि repository, आपकी style, आपका code, आपका context, आपकी कुछ custom चीज़ें, और repository की सारी assumptions के साथ उसे पूरी तरह integrate कैसे किया जाए। उनके पास थोड़ा ज्ञान है, लेकिन वे अभी वहाँ तक नहीं पहुँचे हैं जहाँ उसे वास्तव में integrate और समझ सकें।
बहुत-सी चीज़ें लगातार बेहतर हो रही हैं। इस समय मैं जो state-of-the-art model इस्तेमाल करता हूँ, वह GPT-5 Pro है, और वह बहुत powerful model है। अगर मेरे पास 20 मिनट हों, तो मैं पूरी repository copy-paste करके GPT-5 Pro, oracle, के पास जाता हूँ और उससे कुछ सवाल पूछता हूँ। अक्सर वह इतना बुरा नहीं होता, और एक साल पहले जो मौजूद था उसकी तुलना में आश्चर्यजनक रूप से अच्छा है।
कुल मिलाकर, models अभी वहाँ तक नहीं पहुँचे हैं। मुझे लगता है कि industry बहुत बड़ी छलांग लेने का दिखावा कर रही है और ऐसा जताती है कि यह चमत्कारी है, लेकिन ऐसा नहीं है। यह slop है। वे इसका सामना नहीं कर रहे, और शायद funding जुटाने की कोशिश कर रहे हैं या कुछ ऐसा। मुझे नहीं पता क्या हो रहा है, लेकिन हम इस बीच वाले चरण में हैं। models अद्भुत हैं। फिर भी बहुत काम बाकी है। अभी के लिए, autocomplete मेरा sweet spot है। लेकिन कभी-कभी, कुछ तरह के code के लिए, मैं LLM agent की ओर जाऊँगा।
Dwarkesh Patel 00:36:53
यह एक और वजह से भी सचमुच दिलचस्प है। programming के इतिहास में productivity बढ़ाने वाली बहुत-सी चीज़ें आई हैं—compiler, linting, बेहतर programming languages—जिन्होंने programmer productivity बढ़ाई, लेकिन explosion तक नहीं पहुँचाया। यह autocomplete Tab जैसा बहुत लगता है, और दूसरी category बस programmer automation है। यह दिलचस्प है कि आप इसे बेहतर compiler जैसी ऐतिहासिक समानताओं की category में ज़्यादा देखते हैं।
Andrej Karpathy 00:37:26
शायद इससे एक अलग तरह की सोच निकलती है। मेरे लिए यह अलग करना मुश्किल है कि AI कहाँ शुरू होता है और कहाँ खत्म होता है। क्योंकि मैं मूल रूप से AI को computing के विस्तार के रूप में देखता हूँ, और वह भी काफी बुनियादी अर्थ में। मुझे यह एक continuum जैसा दिखता है। recursive self-improvement या programmers को accelerate करने वाली चीज़ों की शुरुआत से ही एक continuum: code editors, syntax highlighting, या type checking जैसी चीज़ें—data type checking—ये सारे tools जो हमने एक-दूसरे के लिए बनाए हैं।
यहाँ तक कि search engine भी। search engine AI का हिस्सा क्यों नहीं है? ranking AI है। एक समय पर, Google ने शुरुआती दिनों में खुद को search engine बनाने वाली AI company के रूप में सोचा था। और यह पूरी तरह जायज़ है।
मैं इसे दूसरों की तुलना में कहीं ज़्यादा continuum के रूप में देखता हूँ। मेरे लिए इसमें रेखा खींचना कठिन है। अब हमारे पास कहीं बेहतर autocomplete है, और अब हमें कुछ agents भी मिल रहे हैं, जो इस तरह की iterative चीज़ें हैं, लेकिन कभी-कभी track से उतर जाते हैं। जो हो रहा है वह यह है कि इंसान धीरे-धीरे low-level चीज़ें थोड़ा-थोड़ा कम कर रहे हैं। हम assembly code नहीं लिखते, क्योंकि हमारे पास compilers हैं। compiler C जैसी high-level language लेगा और assembly code लिख देगा।
हम बहुत, बहुत धीरे-धीरे खुद को abstract कर रहे हैं। एक चीज़ है जिसे मैं "autonomy slider" कहता हूँ, जहाँ ज़्यादा से ज़्यादा चीज़ें automate हो रही हैं—कम से कम उन चीज़ों में जो automate की जा सकती हैं—और हम उन्हें थोड़ा-थोड़ा कम कर रहे हैं, जबकि automation के ऊपर abstraction layer में खुद को ऊपर उठा रहे हैं।
00:40:05 – RL बहुत भयानक है
Dwarkesh Patel 00:40:05
आइए RL के बारे में थोड़ा बात करें। आपने इस पर बहुत दिलचस्प बातें ट्वीट की हैं। वैचारिक रूप से, हमें इस बारे में कैसे सोचना चाहिए कि इंसान सिर्फ environment के साथ interact करके एक समृद्ध world model कैसे बना सकते हैं? और वह भी ऐसे तरीके से जो episode के अंत में मिलने वाले अंतिम reward से लगभग असंबंधित लगता है?
अगर कोई व्यक्ति business शुरू करे, और 10 साल बाद उसे पता चले कि business सफल हुआ या असफल, तो हम कहेंगे कि उसने बहुत wisdom और experience हासिल किया। लेकिन ऐसा इसलिए नहीं है कि पिछले 10 सालों में हुई हर एक चीज़ की log probability ऊपर या नीचे weight की गई। कुछ कहीं अधिक intentional और समृद्ध हो रहा है। इसका ML analogy क्या है, और यह उस चीज़ से कैसे तुलना करता है जो हम अभी LLMs के साथ कर रहे हैं?
Andrej Karpathy 00:40:47
शायद मैं इसे इस तरह कहूँगा कि इंसान reinforcement learning का उपयोग नहीं करते। जैसा कि मैंने कहा। मुझे लगता है वे कुछ और करते हैं। reinforcement learning औसत व्यक्ति की सोच से कहीं ज़्यादा खराब है। reinforcement learning भयानक है। यह सिर्फ इसलिए चल पड़ी क्योंकि इससे पहले जो कुछ हमारे पास था वह और भी खराब था। क्योंकि पहले हम बस लोगों की नकल कर रहे थे, और इसलिए ये सारी समस्याएँ थीं।
reinforcement learning में, मान लीजिए आप एक math problem हल कर रहे हैं। क्योंकि यह बहुत सरल उदाहरण है। आपको एक math problem दी जाती है और आप उसका answer निकालने की कोशिश करते हैं। reinforcement learning में, आप पहले parallel में बहुत सारी चीज़ें try करेंगे। problem दिए जाने पर, आप सैकड़ों अलग-अलग attempts करेंगे। ये attempts जटिल हो सकते हैं। यह कुछ ऐसा हो सकता है: "इसे try करते हैं, उसे try करते हैं, यह काम नहीं किया, वह काम नहीं किया" वगैरह। फिर शायद आपको answer मिल जाता है। अब आप book के पीछे देखते हैं और कहते हैं, "ठीक है, सही answer यह है।" आप देख सकते हैं कि यह, यह, और वह चीज़ें सही answer तक पहुँचीं, लेकिन बाकी 97 नहीं पहुँचीं। शाब्दिक रूप से reinforcement learning जो करती है वह यह है कि जो चीज़ें वास्तव में काम कर गईं, उनके पास जाकर process में आपने जो भी हर एक चीज़ की, हर एक token, उसे "इसे और करो" की तरह upweight कर दिया जाता है।
इसकी समस्या यह है कि लोग कहेंगे आपका estimator high variance वाला है, लेकिन यह बस noise है। noise है। यह मान लेता है कि answer तक पहुँचने वाले solution का हर छोटा हिस्सा सही काम था, जबकि ऐसा नहीं है। हो सकता है कि सही answer तक पहुँचने से पहले आप कई गलत गलियों में गए हों। जब तक आपको सही answer मिल गया, आपने जो भी हर एक गलत चीज़ की, उसे भी "इसे और करो" के रूप में upweight कर दिया जाएगा। यह भयानक है। यह noise है।
आपने यह सारा काम किया, और अंत में आपको बस एक single number मिलता है: "ओह, सही था।" उसी के आधार पर आप पूरी trajectory को upweight या downweight करके weight करते हैं। इसे कहने का मेरा पसंदीदा तरीका है कि आप straw के ज़रिए supervision चूस रहे हैं। आपने यह सारा काम किया, जो शायद 1 minute का rollout हो सकता है, और आप अंतिम reward signal के supervision bits को straw से चूस रहे हैं, फिर उसे पूरी trajectory में broadcast कर रहे हैं, और उसी से trajectory को upweight या downweight कर रहे हैं। यह बस बेवकूफी है, पागलपन है।
इंसान कभी ऐसा नहीं करेंगे। पहली बात, इंसान कभी सैकड़ों rollouts नहीं करेंगे। दूसरी बात, जब किसी व्यक्ति को answer मिल जाता है, तो उसके पास एक काफी जटिल review process होगा, जैसे, "ठीक है, मुझे लगता है ये हिस्से मैंने अच्छे किए, ये हिस्से इतने अच्छे नहीं थे। शायद मुझे यह या वह करना चाहिए था।" वे चीज़ों पर विचार करते हैं। मौजूदा LLMs में ऐसा कुछ नहीं है। उसका कोई equivalent नहीं है। लेकिन मैं papers आते देख रहा हूँ। ऐसे papers आ रहे हैं जो यही करने की कोशिश कर रहे हैं। क्योंकि यह field के हर व्यक्ति को साफ़ दिखता है।
पहला imitation learning, वैसे, बेहद आश्चर्यजनक, चमत्कारिक और अद्भुत था। यह कि आप इंसानों की नकल पर fine-tune कर सकते हैं। यह अविश्वसनीय था। क्योंकि शुरुआत में हमारे पास सिर्फ base model था। base model autocomplete है। उस समय यह मेरे लिए स्पष्ट नहीं था, और मुझे यह सीखना पड़ा। जिस paper ने मेरा दिमाग उड़ा दिया, वह InstructGPT था। क्योंकि उसने यह दिखाया कि आप एक pretrained model, यानी autocomplete, को लें, और अगर आप उसे ऐसे text पर fine-tune करें जो dialogue जैसा दिखता है, तो model बहुत जल्दी adapt हो जाता है, बहुत conversational बन जाता है, और pretraining से मिली सारी knowledge बनाए रखता है। इसने सचमुच मेरा दिमाग उड़ा दिया। क्योंकि stylistically, मैं समझ नहीं पाया था कि वह इतनी जल्दी adjust हो सकता है और ऐसे data पर बस कुछ fine-tuning loops के ज़रिए user के लिए assistant बन सकता है। मेरे लिए यह कि यह काम करता है, बहुत चमत्कारिक था। बेहद अद्भुत। यह 2~3 साल का काम था।
अब RL आया। और RL simple imitation learning से थोड़ा बेहतर कर सकता है। क्योंकि आपके पास ऐसे reward functions हो सकते हैं और आप reward function पर hill climbing कर सकते हैं। कुछ problems में बस सही answer होता है, और आप expert trajectory की नकल किए बिना भी उस पर hill climbing कर सकते हैं। तो यह शानदार है। model ऐसे solutions भी खोज सकता है जिनके बारे में इंसान शायद कभी सोच भी न पाएँ। यह अद्भुत है। लेकिन फिर भी, यह बेवकूफी है।
हमें और चाहिए। कल मैंने Google का एक paper देखा जो इस reflection & review वाले विचार को ध्यान में रखने की कोशिश कर रहा था। क्या वह memory bank paper था? पता नहीं। मैंने उस दिशा में कुछ papers देखे हैं। इसलिए मुझे उम्मीद है कि LLMs के लिए algorithms कैसे किए जाएँ, इसमें अगला बड़ा update उसी क्षेत्र से आएगा। मुझे लगता है हमें तीन या चार या पाँच और ऐसी चीज़ों की ज़रूरत है।
Dwarkesh Patel 00:44:54
आप सचमुच बहुत यादगार phrases गढ़ते हैं। "straw के ज़रिए supervision चूसना" मुझे बहुत पसंद आया।
तो आप कह रहे हैं कि outcome-based reward की समस्या यह है कि आपके पास यह विशाल trajectory होती है, और आप अंत में मिले उस एक final bit से यह सीखने की कोशिश करते हैं कि क्या करना है और दुनिया के बारे में हर संभव चीज़ क्या सीखनी है। अगर यह इतनी स्पष्ट बात है, तो process-based supervision एक alternative के रूप में models को अधिक capable बनाने का सफल तरीका क्यों नहीं बन पाया? इस alternative paradigm के उपयोग को क्या रोक रहा है?
Andrej Karpathy 00:45:29
प्रोसेस-आधारित supervision बस यह दिखाता है कि हमारे पास सिर्फ बिल्कुल अंत में reward function नहीं होगा। 10 मिनट का काम करने के बाद हम यह नहीं कहेंगे कि तुमने अच्छा किया या बुरा। हम हर step पर बताएँगे कि तुम कितना अच्छा कर रहे हो। हमारे पास यह इसलिए नहीं है क्योंकि इसे सही तरीके से करना मुश्किल है। कुछ आंशिक उत्तर होते हैं और हमें नहीं पता कि credit कैसे assign करें। अगर आपको सही उत्तर मिल जाता है, तो वह बस उत्तर के साथ equivalence match है। उसे implement करना बहुत आसान है। लेकिन अगर आप process supervision कर रहे हैं, तो partial credit को automatable तरीके से कैसे assign करेंगे? यह स्पष्ट नहीं है।
कई labs इस काम को ऐसे LLM judges के साथ करने की कोशिश कर रही हैं। LLM यह करने की कोशिश करता है। आप LLM को prompt देते हैं, "अरे, छात्र का partial answer देखो। अगर answer यह है, तो तुम्हें क्या लगता है कि वह कितना अच्छा कर रहा है?" और फिर वे prompt को tune करने की कोशिश करते हैं।
यह मुश्किल होने की वजह काफी सूक्ष्म है। जब भी आप reward assign करने के लिए LLM का इस्तेमाल करते हैं, वे LLM अरबों parameters वाले बहुत बड़े सिस्टम होते हैं, और उन्हें game किया जा सकता है। अगर आप उन पर reinforcement learning कर रहे हैं, तो आप लगभग निश्चित रूप से LLM judges के लिए adversarial examples ढूँढ़ लेंगे। इसलिए आप इसे बहुत लंबे समय तक नहीं चला सकते। शायद 10 या 20 steps तक यह काम कर जाए, लेकिन 100 या 1,000 steps तक नहीं। मैं समझता हूँ कि यह साफ़ नहीं लगता, लेकिन मूल बात यह है कि मॉडल छोटी-छोटी दरारें ढूँढ़ लेगा। वह विशाल मॉडल के कोनों में मौजूद इन सभी झूठी चीज़ों को ढूँढ़ेगा और उन्हें धोखा देने का तरीका निकाल लेगा।
मेरे दिमाग में एक उदाहरण बहुत उभरकर आता है, और शायद यह सार्वजनिक भी था। अगर आप reward के लिए LLM judge का इस्तेमाल कर रहे हैं, तो आप छात्र से एक answer लेते हैं और पूछते हैं कि छात्र ने अच्छा किया या नहीं। हम उस reward function पर reinforcement learning से train कर रहे थे, और यह बहुत अच्छी तरह काम कर रहा था। फिर अचानक reward बेहद बड़ा हो गया। बहुत बड़ा jump आया और वह बिल्कुल perfect लग रहा था। आप उसे देखकर सोचते हैं, "वाह, इसका मतलब है कि छात्र इन सभी समस्याओं पर perfect है। इसने गणित पूरी तरह solve कर लिया।"
लेकिन जब आप मॉडल से मिल रहे completions को देखते हैं, तो वे पूरी तरह बकवास होती हैं। वे ठीक-ठाक शुरू होती हैं, और फिर "dhdhdhdh" में बदल जाती हैं। बस ऐसा होता है, "अच्छा, 2 plus 3 लो, फिर यह करो, वह करो, और फिर dhdhdhdh।" आप उसे देखते हैं और सोचते हैं, यह पागलपन है। इसे 1 या 100% reward कैसे मिल रहा है? जब आप LLM judge को देखते हैं, तो पता चलता है कि "dhdhdhdh" मॉडल के लिए एक adversarial example है, और वह उसे 100% probability दे रहा है।
यह बस इसलिए है क्योंकि यह LLM के लिए out-of-sample example है। Training के दौरान उसने इसे कभी नहीं देखा, और यह पूरी तरह generalization के क्षेत्र में है। Training के दौरान उसने इसे कभी नहीं देखा, और इसी pure generalization regime में आप ऐसे examples ढूँढ़ सकते हैं जो उसे तोड़ देते हैं।
Dwarkesh Patel 00:47:52
मूल रूप से आप LLM को एक prompt injection model बनने के लिए train कर रहे हैं।
Andrej Karpathy 00:47:56
वह भी नहीं। Prompt injection तो बहुत fancy शब्द है। हम adversarial examples ढूँढ़ रहे हैं, जैसा कि वे उन्हें कहते हैं। ये साफ़ तौर पर गलत, बकवास answers हैं, लेकिन मॉडल को लगता है कि ये शानदार हैं।
Dwarkesh Patel 00:48:07
अगर यह RL को ज़्यादा functional बनाने में bottleneck है, तो इसे automated तरीके से करने के लिए आपको LLM को बेहतर judge बनाना होगा। क्या मॉडल को ज़्यादा robust बनाने के लिए GAN जैसे approaches अपनाने होंगे?
Andrej Karpathy 00:48:22
Labs शायद यह सब कर रही होंगी। जो बात स्पष्ट है, वह यह है कि "dhdhdhdh" को 100% reward नहीं मिलना चाहिए। ठीक है, "dhdhdhdh" को लो, उसे LLM judge के training set में डालो, और कहो कि यह 100% नहीं बल्कि 0% है। आप यह कर सकते हैं, लेकिन हर बार जब आप ऐसा करते हैं, आपको एक नया LLM मिलता है, और फिर भी आपके पास adversarial examples रहते हैं। Adversarial examples अनंत हैं।
शायद अगर आप इसे कुछ बार दोहराएँ, तो adversarial examples ढूँढ़ना धीरे-धीरे कठिन हो जाएगा। लेकिन मैं इस पर 100% आश्वस्त नहीं हूँ। क्योंकि इसमें 1 trillion parameters या कुछ ऐसा है। मैं दावे से कह सकता हूँ कि labs यह कोशिश कर रही हैं। फिर भी मुझे लगता है कि हमें कुछ और ideas चाहिए।
Dwarkesh Patel 00:48:57
दिलचस्प। क्या आपके पास कोई विचार है कि वे दूसरे ideas किस रूप में हो सकते हैं?
Andrej Karpathy 00:49:02
एक idea है answers की review करने और synthetic examples शामिल करने का, ताकि जब आप उन पर train करें, तो मॉडल बेहतर हो, और किसी तरह meta-learn करे। मुझे लगता है कि कुछ शुरुआती papers हैं। मैं अभी उस stage पर हूँ जहाँ मैं सिर्फ abstracts पढ़ता हूँ। क्योंकि इन papers में से बहुत-से सिर्फ ideas हैं। किसी को इसे frontier LLM lab scale पर पूरी generality के साथ काम करके दिखाना होगा। क्योंकि जब आप इन papers को देखते हैं, वे सामने आते हैं, और उनमें थोड़ा noise होता है। Ideas अच्छे हैं, लेकिन मैंने किसी को यह विश्वसनीय ढंग से दिखाते नहीं देखा कि यह संभव है। फिर भी, LLM labs काफी बंद हैं, इसलिए कोई नहीं जानता कि वे अभी क्या कर रही हैं।
00:49:38 – इंसान कैसे सीखते हैं?
Dwarkesh Patel 00:49:38
मैं synthetic examples या खुद बनाए गए synthetic problems पर training के किसी तरीके की कल्पना कर सकता हूँ। लेकिन ऐसा लगता है कि इंसान कुछ और भी करते हैं—शायद sleep वही है, शायद daydreaming वही है—जहाँ वे ज़रूरी नहीं कि नकली समस्याएँ बना रहे हों, बल्कि बस reflect कर रहे हों।
मुझे यक़ीन नहीं है कि daydreaming या sleep, या सिर्फ reflection का ML analogy क्या होगा। मैंने कोई नई समस्या create नहीं की। साफ़ तौर पर, बहुत basic analogy reflection bits पर fine-tuning करना होगा, लेकिन intuitively मुझे लगता है कि शायद वह इतना अच्छा काम नहीं करेगा। क्या आपके पास कोई विचार है कि इसका analogy क्या हो सकता है?
Andrej Karpathy 00:50:17
मुझे लगता है कि हम वहाँ कुछ पहलू miss कर रहे हैं। उदाहरण के लिए, किताब पढ़ने को देखिए। जब कोई मौजूदा LLM किताब पढ़ता है, तो उसका मतलब यह होता है कि वह text sequence को unfold करता है, मॉडल अगले token की भविष्यवाणी करता है, और उससे कुछ knowledge हासिल करता है। असल में इंसान ऐसा नहीं करते। जब आप किताब पढ़ते हैं, तो किताब आपको ऐसी explanation नहीं लगती जिस पर ध्यान देकर train होना है। किताब synthetic data generation के लिए prompts का एक set होती है, या book club में जाकर दोस्तों के साथ उस पर बात करने का आधार। उस जानकारी को manipulate करके ही आप वास्तव में वह knowledge हासिल करते हैं। LLM में इसका कोई equivalent नहीं है। वे वास्तव में ऐसा नहीं करते। मुझे अच्छा लगेगा अगर pretraining के दौरान कोई ऐसा phase हो जहाँ वे सामग्री के बारे में सोचें, उसे जो वे पहले से जानते हैं उसके साथ reconcile करने की कोशिश करें, कुछ समय तक उसके बारे में सोचें, और उसे काम करने दें। इसका कोई equivalent अभी नहीं है। यह सब research है।
बहुत सूक्ष्म—और मेरे हिसाब से समझना बहुत कठिन—कारण हैं कि यह trivial क्यों नहीं है। अगर मैं एक बता सकूँ: हम synthetic generation करके उस पर train क्यों नहीं कर सकते? आप मॉडल को किताब के बारे में सोचते हुए synthetic generation देते हैं, उसे देखते हैं और सोचते हैं, "यह तो शानदार लग रहा है। हम इस पर train क्यों नहीं कर सकते?" आप कोशिश कर सकते हैं, लेकिन अगर आप बार-बार ऐसा करेंगे, तो मॉडल बहुत खराब हो जाएगा। ऐसा इसलिए है क्योंकि मॉडल से मिलने वाले सभी samples चुपचाप collapse हो जाते हैं। चुपचाप—अलग-अलग examples को देखकर यह साफ़ नहीं दिखता—वे संभावित विचारों के space के बहुत छोटे manifold पर कब्ज़ा करते हैं। जब LLM बाहर आते हैं, तो वे वही होते हैं जिसे हम "collapsed" कहते हैं। उनके पास एक collapsed data distribution होती है। इसे देखने का एक आसान तरीका है ChatGPT पर जाकर कहना, "मुझे एक joke सुनाओ।" उसके पास सिर्फ 3 jokes हैं। वह आपको संभव jokes की पूरी चौड़ाई नहीं देता। उसे सिर्फ 3 jokes पता हैं। वे चुपचाप collapse हो चुके हैं।
हमें इन मॉडलों से वह समृद्धि, विविधता और entropy नहीं मिल रही जो हमें इंसानों से मिलती है। इंसान कहीं ज़्यादा noisy होते हैं, लेकिन कम-से-कम वे biased नहीं होते, सांख्यिकीय अर्थ में। वे चुपचाप collapse नहीं हुए हैं। वे बहुत बड़ी मात्रा में entropy बनाए रखते हैं। तो collapse के बावजूद synthetic data generation को काम करते हुए entropy बनाए रखने का तरीका क्या है? यही research problem है।
Dwarkesh Patel 00:52:20
यह सुनिश्चित करने के लिए कि मैं सही समझ रहा हूँ, collapse का synthetic data generation से संबंध इसलिए है क्योंकि आप ऐसे synthetic problems या reflections बना पाना चाहते हैं जो पहले से data distribution में मौजूद नहीं हैं?
Andrej Karpathy 00:52:32
मेरा मतलब है, अगर कोई किताब का एक chapter है और आप LLM से उसके बारे में सोचने को कहें, तो वह आपको कुछ ऐसा देगा जो बहुत reasonable लगेगा। लेकिन अगर आप 10 बार पूछें, तो आपको एहसास होगा कि वे सब एक जैसे हैं।
Dwarkesh Patel 00:52:44
तो आपका मतलब है कि एक ही मात्रा की prompt information के लिए आप लगातार "reflection" को scale नहीं कर सकते और उससे लाभ नहीं ले सकते।
Andrej Karpathy 00:52:54
अलग-अलग samples ठीक लगते हैं, लेकिन उनका distribution काफ़ी भयानक है। इस अर्थ में काफ़ी भयानक कि अगर आप उसे उसकी अपनी ही outputs पर बहुत ज़्यादा train करते रहें, तो वह सचमुच collapse हो जाता है।
मुझे लगता है कि संभव है इसका कोई fundamental solution न हो। और मुझे यह भी लगता है कि इंसान भी समय के साथ collapse होते हैं। ये analogies हैरान करने वाली हद तक अच्छी हैं। इंसान अपनी ज़िंदगी के दौरान collapse होते हैं। यही वजह है कि बच्चे, अभी तक overfit नहीं हुए होते। वे ऐसी बातें कहेंगे जो आपको चौंका सकती हैं। क्योंकि आप देख सकते हैं कि वे कहाँ से आ रही हैं, लेकिन वह बस ऐसी बात नहीं होती जो लोग आम तौर पर कहते हैं। क्योंकि वे अभी collapse नहीं हुए हैं। लेकिन हम collapse हो चुके हैं। हम उन्हीं विचारों पर फिर लौटते रहते हैं। हम धीरे-धीरे वही बातें ज़्यादा कहने लगते हैं, learning rate नीचे चला जाता है, collapse और बदतर होता जाता है, और फिर सब कुछ बदतर होता जाता है।
Dwarkesh Patel 00:53:39
क्या आपने एक बहुत दिलचस्प paper देखा है, जिसमें कहा गया है कि सपने इस तरह के overfitting और collapse को रोकने का तरीका हैं? कि सपने evolutionary तौर पर adaptive इसलिए हैं क्योंकि वे आपको ऐसी अजीब परिस्थितियों में रखते हैं जो रोज़मर्रा की वास्तविकता से बहुत अलग होती हैं, ताकि इस तरह के overfitting को रोका जा सके।
Andrej Karpathy 00:53:55
दिलचस्प विचार है। जब आप अपने दिमाग में चीज़ें generate करते हैं और उन पर ध्यान देते हैं, तो मुझे लगता है कि आप अपने synthetic data पर train कर रहे होते हैं। अगर आप यह बहुत देर तक करें, तो आप track से भटक जाते हैं और बहुत ज़्यादा collapse कर जाते हैं। आपको हमेशा जीवन में entropy खोजनी चाहिए। दूसरे लोगों से बात करना entropy का एक शानदार source है, ऐसी चीज़ें। इसलिए शायद दिमाग ने भी उस प्रक्रिया में entropy की मात्रा बढ़ाने के लिए internal mechanisms बनाए होंगे। यह दिलचस्प विचार है।
Dwarkesh Patel 00:54:25
यह बहुत अधपका विचार है, इसलिए बस इसे कह रहा हूँ और आपकी प्रतिक्रिया चाहता हूँ। जिन learners को हम सबसे अच्छा जानते हैं, यानी बच्चे, वे information recall करने में बेहद खराब होते हैं। दरअसल, बचपन के शुरुआती चरणों में तो वे सब कुछ भूल जाते हैं। एक निश्चित उम्र से पहले हुई हर चीज़ के बारे में वे बस amnesia के मरीज होते हैं। लेकिन नई भाषा सीखने और दुनिया से सीखने में वे बेहद अच्छे होते हैं। शायद इसमें कोई ऐसा तत्व है जो पेड़ों की जगह जंगल को देखने देता है।
दूसरी ओर, spectrum के दूसरे छोर पर, LLM pretraining है, जहाँ ये models literally Wikipedia page में आगे क्या है, यह शब्द-दर-शब्द दोहरा सकते हैं। लेकिन abstract concepts को बहुत तेज़ी से सीखने की उनकी क्षमता, जिस तरह एक बच्चा कर सकता है, कहीं ज़्यादा सीमित है। फिर adults कहीं बीच में आते हैं, जिनमें childhood learning जैसी flexibility नहीं होती, लेकिन वे facts और information को उस तरीके से memorise कर सकते हैं जो बच्चों के लिए कठिन होता है। मुझे नहीं पता उस spectrum में कुछ दिलचस्प है या नहीं।
Andrej Karpathy 00:55:19
मुझे लगता है उसमें निश्चित रूप से कुछ बहुत दिलचस्प है, 100%। मुझे लगता है कि इंसानों में LLM की तुलना में पेड़ों की जगह जंगल देखने वाला तत्व कहीं ज़्यादा है। हम वास्तव में memorisation में इतने अच्छे नहीं हैं, और यह दरअसल एक feature है। क्योंकि हम memorisation में अच्छे नहीं हैं, इसलिए हमें अधिक सामान्य अर्थ में patterns खोजने के लिए मजबूर होना पड़ता है।
तुलनात्मक रूप से, LLM memorisation में बेहद अच्छे हैं। वे इन सभी training sources से passages सुना देंगे। आप उन्हें पूरी तरह nonsensical data दे सकते हैं। आप किसी भी मात्रा के text को hash कर सकते हैं या ऐसा कुछ कर सकते हैं, और एक पूरी तरह random sequence पा सकते हैं। अगर आप उस पर train करें, तो सिर्फ एक-दो repetitions में ही, अचानक वह पूरी चीज़ दोहरा सकता है। वह उसे memorise कर लेगा। कोई इंसान random numbers की एक sequence पढ़कर आपको उसे सुना नहीं सकता।
यह bug नहीं बल्कि feature है। क्योंकि यह आपको केवल उन्हीं components को सीखने के लिए मजबूर करता है जिन्हें generalise किया जा सकता है। जबकि LLM pretraining documents की अपनी सारी memory की वजह से distracted हो जाते हैं, और शायद किसी अर्थ में यह उनके लिए काफ़ी distract करने वाला होता है। इसलिए जब मैं cognitive core की बात करता हूँ, तो मैं उस memory को हटाना चाहता हूँ जिसके बारे में हम बात कर रहे थे। मैं चाहूँगा कि उनके पास कम memory हो, ताकि उन्हें चीज़ें lookup करनी पड़ें, और वे सिर्फ सोचने के algorithms, experiments के ideas, और action के लिए ज़रूरी पूरा cognitive glue बनाए रखें।
Dwarkesh Patel 00:56:36
क्या इसका संबंध model collapse को रोकने से भी है?
Andrej Karpathy 00:56:41
सोचने दीजिए। पक्का नहीं हूँ। वह लगभग एक अलग axis जैसा लगता है। models memorisation में बहुत अच्छे हैं, और किसी-न-किसी तरह हमें उसे हटाना होगा। इंसान इसमें बहुत खराब हैं, लेकिन यह अच्छी बात है।
Dwarkesh Patel 00:56:57
Model collapse का solution क्या है? कुछ बहुत naive चीज़ें हैं जो आप आज़मा सकते हैं। जैसे कि logits पर distribution ज़्यादा broad होना चाहिए, या ऐसी चीज़ें। बहुत-सी naive चीज़ें हैं जो आप कोशिश कर सकते हैं। naive approaches के साथ आख़िरकार समस्या क्या है?
Andrej Karpathy 00:57:11
अच्छा सवाल है। आप entropy पर regularization होने की कल्पना कर सकते हैं, ऐसी चीज़ें। लगता है कि वे empirical रूप से इतना अच्छा काम नहीं करतीं। क्योंकि अभी models collapse हुए हुए हैं। लेकिन मैं कहूँगा कि जिन ज़्यादातर tasks के लिए हम उन्हें चाहते हैं, उनमें वास्तव में diversity की ज़रूरत नहीं होती। शायद यही इस बात का जवाब है कि क्या हो रहा है।
Frontier labs models को useful बनाने की कोशिश कर रही हैं। मुझे लगता है output diversity उतनी... पहली बात, उस पर काम करना और उसका evaluation करना कहीं ज़्यादा मुश्किल है वगैरह, लेकिन शायद वह ज़्यादातर value capture नहीं कर रही।
Dwarkesh Patel 00:57:42
दरअसल, उस पर actively penalty लगती है। RL में अगर आप बहुत creative हैं, तो यह अच्छा नहीं है।
Andrej Karpathy 00:57:48
हाँ। या अगर आपको LLM से बहुत सारी writing help मिल रही है, तो यह शायद बुरा होगा। क्योंकि models चुपचाप आपको लगभग वही चीज़ें देते रहेंगे। वे सवाल का जवाब देने के कई अलग-अलग तरीकों को explore नहीं करेंगे।
शायद यह diversity models में इसलिए नहीं है क्योंकि बहुत-सी applications को इसकी ज़रूरत नहीं होती। लेकिन synthetic data generation time वगैरह पर यह एक समस्या बन जाती है। इसलिए हम models में इस entropy को बनाए रहने की अनुमति न देकर ख़ुद अपने पैर पर कुल्हाड़ी मार रहे हैं। शायद labs को और मेहनत करनी चाहिए।
Dwarkesh Patel 00:58:17
मुझे लगा आपने संकेत दिया कि यह बहुत fundamental problem है, जिसे solve करना आसान नहीं होगा। इसके बारे में आपकी intuition क्या है?
Andrej Karpathy 00:58:24
मुझे यक़ीन नहीं है कि यह बहुत fundamental है। मुझे नहीं पता कि मेरा ऐसा कहने का इरादा था या नहीं। मैंने इस तरह के experiments नहीं किए हैं, लेकिन मुझे लगता है कि शायद आप entropy को ऊँचा regularize कर सकते हैं। ताकि model को ज़्यादा से ज़्यादा answers देने के लिए encourage किया जाए, लेकिन आप नहीं चाहेंगे कि वह training data से बहुत दूर चला जाए। वह अपनी खुद की language बनाना शुरू कर देगा। वह बहुत ही rare words इस्तेमाल करने लगेगा, इसलिए distribution से बहुत दूर drift हो जाएगा।
इसलिए मुझे लगता है कि distribution को control करना बस tricky है। शायद उस अर्थ में यह आसान नहीं होगा।
Dwarkesh Patel 00:58:58
अगर अंदाज़ा लगाना हो, तो इष्टतम intelligence core कितने bits का होना चाहिए? von Neumann probe में डालने के लिए, वह कितना बड़ा होना चाहिए?
Andrej Karpathy 00:59:10
यह इस क्षेत्र के इतिहास में वास्तव में दिलचस्प है, क्योंकि एक समय पर सब कुछ scaling का दीवाना था। “ओह, हम बहुत बड़े models बनाएँगे, trillion-parameter models।” models एक बार आकार में ऊपर गए और अब नीचे आ गए हैं। state-of-the-art models अब छोटे हैं। फिर भी, मुझे लगता है कि वे बहुत ज़्यादा याद रखते हैं। इसलिए मैंने कुछ समय पहले यह भविष्यवाणी की थी कि मुझे लगता है हम लगभग 1 billion parameters पर भी एक बहुत अच्छा cognitive core पा सकते हैं।
अगर आप 1 billion parameter model से बात करें, तो मुझे लगता है कि 20 साल बाद आप उसके साथ बहुत उत्पादक बातचीत कर सकेंगे। वह सोचेगा, और इंसानों के काफ़ी ज़्यादा समान होगा। लेकिन अगर आप उससे कोई factual सवाल पूछें, तो उसे उसे देखना पड़ सकता है, लेकिन उसे पता होगा कि वह नहीं जानता और उसे देखना चाहिए, और वह ये सारी तर्कसंगत चीज़ें करेगा।
Dwarkesh Patel 00:59:54
मुझे हैरानी है कि आपको लगता है कि 1 billion parameters लगेंगे। क्योंकि हमारे पास पहले से ही 1 billion parameter models या कुछ billion parameter models हैं और वे बहुत intelligent हैं।
Andrej Karpathy 01:00:02
हूँ, state-of-the-art models शायद trillion parameters के आसपास हैं। लेकिन वे बहुत ज़्यादा चीज़ें याद रखते हैं।
Dwarkesh Patel 01:00:06
हाँ, लेकिन 10 साल बाद, उस रफ़्तार को देखते हुए... हमारे पास gpt-oss-20b है। वह original GPT-4 से बहुत बेहतर है, जो trillion से अधिक parameters का था। उस trend को देखते हुए, यह चौंकाने वाला है कि आपको लगता है 10 साल बाद भी cognitive core 1 billion parameters का होगा। अगर आप कहते, “ओह, वह tens of millions या millions का होगा,” तो मुझे उतनी हैरानी नहीं होती।
Andrej Karpathy 01:00:30
यहाँ समस्या है। training data internet है, और वह वास्तव में भयानक है। internet इतना भयानक है कि वहाँ से बहुत बड़े gains मिल सकते हैं। यहाँ तक कि internet भी—जब आप और मैं internet के बारे में सोचते हैं, तो आप Wall Street Journal जैसी चीज़ों के बारे में सोच रहे होते हैं। लेकिन यह वह नहीं है। अगर आप frontier labs के pretraining datasets देखें और random internet documents देखें, तो वे पूरी तरह कचरा हैं। मुझे बिल्कुल समझ नहीं आता कि यह कैसे काम करता है। stock tickers, symbols जैसी चीज़ें, internet के हर कोने से आई हुई बेहिसाब slop और junk। यह Wall Street Journal के लेखों जैसा नहीं है, वह तो बेहद दुर्लभ है। इसलिए internet इतना भयानक है कि हमें उस सबको compress करने के लिए वास्तव में बड़े models बनाने पड़ते हैं। उस compression का ज़्यादातर हिस्सा cognitive काम के बजाय memory का काम है।
लेकिन हम वास्तव में cognitive हिस्सा चाहते हैं, और memory को हटाना चाहते हैं। मेरा मतलब है, हमें intelligent models चाहिए जो pretraining set को refine करने में मदद करें ताकि उसे सिर्फ cognitive components तक सीमित किया जा सके। तब वह बहुत बेहतर dataset होगा, और मुझे लगता है कि हम उसे बहुत छोटे model के साथ कर पाएँगे क्योंकि उस पर training की जा सकेगी। लेकिन शायद उस पर सीधे train नहीं किया जाएगा; शायद वह अब भी किसी बहुत बेहतर model से distill किया जाएगा।
Dwarkesh Patel 01:01:35
लेकिन distilled version फिर भी 1 billion का क्यों होगा?
Andrej Karpathy 01:01:39
मुझे बस लगता है कि distillation बेहद अच्छी तरह काम करती है। इसलिए लगभग हर छोटा model—अगर कोई छोटा model है—तो वह लगभग निश्चित रूप से distilled है।
Dwarkesh Patel 01:01:46
सही है, लेकिन 10 साल बाद की distillation 1 billion से नीचे क्यों नहीं जाएगी?
Andrej Karpathy 01:01:50
ओह, आपको लगता है कि वह 1 billion से छोटा होना चाहिए? मेरा मतलब है, please, है न? मुझे नहीं पता। किसी बिंदु पर दिलचस्प काम करने के लिए कम-से-कम 1 billion knobs तो चाहिए ही होंगे। आपको लगता है यह इससे छोटा होना चाहिए?
Dwarkesh Patel 01:02:01
हाँ। पिछले कुछ सालों में low-hanging fruit देखने से—trillion-plus models से literally 2x छोटे models तक, और सिर्फ 2 साल में बेहतर performance के साथ—मुझे लगता है कि intelligence का core उससे बहुत, बहुत छोटा हो सकता है। Feynman के शब्द उधार लें, तो नीचे काफ़ी जगह है।
Andrej Karpathy 01:02:22
मुझे तो 1 billion parameter cognitive core की बात करना ही पहले से गैर-मुख्यधारा जैसा लगता है, और आप मुझसे भी आगे निकल रहे हैं। शायद यह थोड़ा और छोटा हो सकता है। दरअसल, मुझे लगता है कि आप चाहेंगे कि model के पास कुछ हद तक ज्ञान भी हो। आप यह नहीं चाहेंगे कि वह हर चीज़ lookup करे। क्योंकि फिर वह अपने दिमाग में सोच नहीं सकता। वह हमेशा बहुत सारी चीज़ें lookup करता रहेगा। कुछ बुनियादी curriculum ज्ञान के लिए होना चाहिए, लेकिन उसके पास कोई obscure knowledge नहीं होना चाहिए।
Dwarkesh Patel 01:02:48
हम चर्चा कर रहे हैं कि cognitive core क्या हो सकता है। एक अलग सवाल यह है कि frontier models का आकार समय के साथ क्या होगा। मैं सोच रहा हूँ कि क्या आपके पास इस पर कोई prediction है। हम GPT 4.5 तक scaling up देखते हैं, और अब scaling down या stagnation देख रहे हैं। इसके पीछे बहुत से कारण हो सकते हैं। आगे के लिए आपकी क्या भविष्यवाणी है? क्या सबसे बड़े models बड़े होंगे, छोटे होंगे, या वैसे ही रहेंगे?
Andrej Karpathy 01:03:14
मेरी कोई बहुत मजबूत भविष्यवाणी नहीं है। labs बस practical हैं। उनके पास FLOP budget और cost budget है। अब यह स्पष्ट हो गया है कि pretraining वह जगह नहीं है जहाँ आप ज़्यादातर FLOPs या cost लगाना चाहते हैं। यही वजह है कि models छोटे हो गए हैं। वे थोड़े छोटे हैं; pretraining phase छोटा है, लेकिन वे reinforcement learning, mid-training, और उसके बाद आने वाली बाकी चीज़ों में उसकी भरपाई करते हैं। वे बस हर चरण को लेकर practical हैं, और यह देखते हैं कि अधिकतम असर कैसे निकाला जाए।
उस trend की भविष्यवाणी करना काफ़ी मुश्किल है। मुझे अब भी उम्मीद है कि low-hanging fruit बहुत ज़्यादा है। यही मेरी default expectation है। यहाँ मेरी distribution बहुत wide है।
Dwarkesh Patel 01:03:51
क्या आपको उम्मीद है कि low-hanging fruit वैसा ही होगा जैसा पिछले 2 से 5 साल में हो रहा था? nanochat बनाम nanoGPT और आपने जो architectural tweaks किए, क्या वही उस तरह का स्वाद है जिसकी आपको उम्मीद है कि आगे भी होता रहेगा? आपको किसी बड़े paradigm shift की उम्मीद नहीं है।
Andrej Karpathy 01:04:11
ज़्यादातर, हाँ। मुझे उम्मीद है कि datasets बहुत, बहुत बेहतर होंगे। अगर आप औसत datasets देखें, तो वे बेहद भयानक हैं। वे इतने खराब हैं कि मुझे बिल्कुल समझ नहीं आता कि कोई चीज़ काम कैसे करती है। training set का औसत example देखिए: factual mistakes, errors, बकवास। किसी तरह, scale पर करने से noise धुल जाता है और कुछ signal बच जाता है। datasets में बहुत बड़ा सुधार होगा।
सब कुछ बेहतर होता है। हमारा hardware, hardware चलाने के लिए सारे kernels, और hardware से जो मिलता है उसे maximize करने के लिए सब कुछ। Nvidia धीरे-धीरे hardware को ही tweak कर रही है, Tensor Cores, यह सब होना ही है और होता रहेगा। सारे kernels बेहतर होंगे और chip का पूरा इस्तेमाल करेंगे। सारे algorithms शायद optimization, architecture, और उन सभी modeling components में बेहतर होंगे जिनसे यह तय होता है कि सब कुछ कैसे बनाया जाता है और हम किन algorithms को train कर रहे हैं। मुझे नहीं लगता कि कोई एक चीज़ dominate करेगी। हर चीज़ प्लस 20%। मोटे तौर पर मैंने यही देखा है।
01:06:25 – AGI 2% GDP growth में शामिल होगा।
Dwarkesh Patel 01:06:25
लोगों ने यह चार्ट बनाने के कई तरीके सुझाए हैं कि हम पूर्ण AGI तक पहुँचने में कितना आगे बढ़ चुके हैं। अगर आप कोई रेखा खींच सकते हैं, तो आप देख सकते हैं कि वह रेखा AGI को कहाँ काटती है और x-axis पर वह कहाँ होता है। लोगों ने सुझाव दिया है कि वह शिक्षा स्तर है। हमारे पास हाई-स्कूल स्तर था, फिर हम RL के साथ कॉलेज तक पहुँचे, और आगे चलकर हम PhD तक पहुँचेंगे।
Andrej Karpathy 01:06:44
मुझे वह पसंद नहीं है।
Dwarkesh Patel 01:06:45
या फिर वे horizon length का सुझाव देते हैं। शायद वे ऐसे काम कर सकते हैं जिनमें 1 मिनट लगता है, और वे उन्हें autonomously कर सकते हैं। फिर वे ऐसे काम autonomously कर सकते हैं जिनमें इंसान को 1 घंटा लगता है, फिर ऐसे काम जिनमें इंसान को 1 हफ्ता लगता है। यहाँ प्रासंगिक y-axis के बारे में आप क्या सोचते हैं? हमें AI की प्रगति के बारे में कैसे सोचना चाहिए?
Andrej Karpathy 01:07:05
इसके दो जवाब हैं। पहला, मैं लगभग इस सवाल को ही अस्वीकार करना चाहता हूँ। क्योंकि मैं इसे computing के विस्तार के रूप में देखता हूँ। क्या हमने कभी इस पर बात की है कि computing में प्रगति को कैसे chart किया जाए, या 1970s के बाद से computing में प्रगति को कैसे chart करें? y-axis क्या है? उस नज़रिए से पूरा सवाल थोड़ा मज़ाकिया लगता है।
जब लोग AI और मूल AGI के बारे में बात करते हैं, और जब OpenAI शुरू हुआ था तब हम इसके बारे में कैसे बात करते थे, तो AGI एक ऐसी system थी जो आर्थिक रूप से मूल्यवान हर काम को, मानव-स्तर के प्रदर्शन पर या उससे ऊपर, कर सके। यही definition थी। मैं उस समय इससे काफ़ी संतुष्ट था और मैं हमेशा उसी definition पर कायम रहा हूँ। फिर लोगों ने तरह-तरह की दूसरी definitions बना लीं। लेकिन मुझे वही definition पसंद है।
लोग जो पहला समझौता हमेशा करते हैं, वह यह है कि वे सारी physical चीज़ों को हटा देते हैं। क्योंकि हम सिर्फ़ digital knowledge work की बात कर रहे हैं। यह मूल definition की तुलना में काफ़ी बड़ा समझौता है। मूल definition थी कि इंसान जो भी काम कर सकता है, वह सब। मैं चीज़ें उठा सकता हूँ, वगैरह। AI यह नहीं कर सकता, साफ़ है, लेकिन ठीक है, मैं इसे मान लेता हूँ। "ओह, सिर्फ़ knowledge work" कहकर हम अर्थव्यवस्था का कितना हिस्सा बाहर कर रहे हैं? मुझे संख्या नहीं पता। मेरा अंदाज़ा है लगभग 10% से 20%, अगर मुझे अनुमान लगाना हो, सिर्फ़ knowledge work, जहाँ कोई घर से काम कर सकता है और tasks कर सकता है, ऐसी चीज़ें। फिर भी यह बहुत बड़ा बाज़ार है। अर्थव्यवस्था का आकार कितना है, और उसका 10% या 20% क्या होता है? हम अब भी कई trillion dollars की बात कर रहे हैं, सिर्फ़ अमेरिका में भी, market share या tasks के हिसाब से। इसलिए यह अब भी एक बहुत विशाल category है।
definition पर वापस आएँ, तो मैं यह देखना चाहता हूँ कि वह definition कितनी सच साबित होती है। क्या ऐसी jobs हैं या बहुत सारे tasks हैं? अगर jobs की जगह tasks के रूप में सोचें। यह मुश्किल है। क्योंकि समस्या यह है कि समाज jobs को उन tasks के आधार पर फिर से reorganize करेगा जो automate हो सकते हैं या नहीं हो सकते। आज ऐसी कौन-सी jobs हैं जिन्हें AI replace कर सकता है? हाल की एक अच्छी मिसाल Geoff Hinton की prediction थी कि radiologists अब job के रूप में नहीं रहेंगे, और यह कई मायनों में बहुत ग़लत साबित हुआ। radiologists अभी भी मौजूद हैं, अच्छी स्थिति में हैं, और बढ़ भी रहे हैं। जबकि computer vision images में उन तमाम चीज़ों को पहचानने में बहुत, बहुत अच्छा है जिन्हें उन्हें पहचानना होता है। यह बस एक जटिल job है जिसमें मरीजों से निपटना और इस पूरी प्रक्रिया के संदर्भ में बहुत-सी परतें शामिल हैं।
उस definition के हिसाब से, मुझे नहीं लगता कि AI ने अभी तक बहुत बड़ा असर डाला है। जिन jobs को मैं देखूँगा, उनमें कुछ ऐसी विशेषताएँ होती हैं जो उन्हें automation के लिए दूसरों की तुलना में जल्दी अधिक उपयुक्त बनाती हैं। उदाहरण के लिए, call center workers का नाम अक्सर आता है, और मुझे लगता है यह सही है। call center workers की jobs में ऐसी बहुत-सी simplifying properties होती हैं जो आज automation के लिए अनुकूल हैं। उनकी job काफ़ी सीधी होती है। यह tasks की एक sequence है, और सारे tasks लगभग एक जैसे दिखते हैं। आप किसी व्यक्ति के साथ phone call पर होते हैं, 10 मिनट की interaction होती है, या जो भी हो, शायद थोड़ी लंबी। मेरे अनुभव में तो काफ़ी लंबी होती है। आप किसी system में कोई काम पूरा करते हैं, कुछ database entries बदलते हैं या ऐसा कुछ। तो आप बार-बार कुछ दोहराते रहते हैं, और वही आपकी job है।
मैं task horizon—यानी किसी task को पूरा करने में कितना समय लगता है—को लेना चाहूँगा, और फिर context को हटा देना चाहूँगा। आप कंपनी की service के दूसरे हिस्सों या दूसरे customers के दूसरे पहलुओं से नहीं निपट रहे हैं। बस database, आप, और वह व्यक्ति जिसे आप service दे रहे हैं। यह ज़्यादा closed है, ज़्यादा समझने योग्य है, और पूरी तरह digital है। इसलिए मैं ऐसी चीज़ों को देखूँगा।
लेकिन वहाँ भी, मैं अभी पूर्ण automation नहीं खोज रहा हूँ। मैं autonomy slider देख रहा हूँ। मुझे उम्मीद है कि हम लोगों को तुरंत replace नहीं करेंगे। हम ऐसे AI लगाएंगे जो volume का 80% कर दें। वे volume का 20% इंसानों को escalate करेंगे, और इंसान उन 5 AI की teams को supervise करेंगे जो ज़्यादा templated call-center काम कर रही होंगी। मैं नई interfaces या नई companies तलाशूँगा जो लोगों को इन AI में से कुछ को manage करने के लिए एक layer दें। वे अभी perfect नहीं हैं। और फिर मैं उम्मीद करूँगा कि यही चीज़ पूरी अर्थव्यवस्था में दिखेगी। बहुत-सी jobs call center workers की तुलना में कहीं ज़्यादा कठिन हैं।
Dwarkesh Patel 01:11:02
radiologists के बारे में, मैं पूरी तरह अनुमान लगा रहा हूँ और मुझे radiologists के वास्तविक workflow में क्या-क्या शामिल होता है, इसका बिल्कुल पता नहीं है। लेकिन एक analogy जो लागू हो सकती है, वह है जब Waymo पहली बार deploy हुआ था, तब front seat में एक व्यक्ति बैठा होता था, और अगर कुछ बहुत गड़बड़ हो जाए तो उसे वहाँ होना पड़ता था। आज भी, लोग अब भी यह सुनिश्चित करने के लिए निगरानी करते हैं कि चीज़ें ठीक चल रही हैं। जो robotaxi अभी-अभी deploy हुआ है, उसमें भी अब तक एक इंसान मौजूद है।
अब हम ऐसी स्थिति में हो सकते हैं जहाँ हम job का 99% automate कर दें, लेकिन आख़िरी 1% जो इंसान को करना है, वह बाकी सबके लिए bottleneck बन जाने के कारण बेहद मूल्यवान हो जाता है। radiologists के मामले में, अगर Waymo के आगे बैठा वह व्यक्ति उस आख़िरी 1% को देने के लिए कई वर्षों तक विशेष प्रशिक्षण लेता है, तो उसकी wages बहुत बढ़ जानी चाहिए। क्योंकि वही एक चीज़ है जो बड़े पैमाने की deployment को bottleneck कर रही है। radiologists की wages भी, मुझे लगता है, इसी तरह की वजह से बढ़ी हैं—अगर आप आख़िरी bottleneck हैं और replaceable नहीं हैं। Waymo driver शायद दूसरे लोगों से replaceable हो सकता है। इसलिए आप ऐसा कुछ देख सकते हैं जहाँ wages 99% तक पहुँचने तक बढ़ती हैं और फिर जब आख़िरी 1% भी ग़ायब हो जाता है तो गिर जाती हैं। और मैं सोचता हूँ कि क्या हम radiology या call center workers की salaries या ऐसी चीज़ों में कुछ वैसा देख रहे हैं।
Andrej Karpathy 01:12:17
दिलचस्प सवाल है। मुझे नहीं लगता कि हम अभी radiology में यह देख रहे हैं। मुझे नहीं लगता कि radiology एक अच्छा उदाहरण है। मुझे नहीं पता Geoff Hinton ने radiology क्यों चुना। क्योंकि मुझे लगता है कि वह एक बेहद जटिल profession है।
उदाहरण के लिए, मुझे आज यह देखने में कहीं ज़्यादा दिलचस्पी होगी कि call center workers के साथ क्या हो रहा है। क्योंकि मुझे उम्मीद है कि templated चीज़ों का बड़ा हिस्सा आज automate किया जा सकता है। मेरे पास इसका first-hand access नहीं है, लेकिन मैं call center workers के साथ क्या हो रहा है, उसके trends ढूँढ़ूँगा। एक और चीज़ जिसकी मैं उम्मीद करूँगा, वह शायद यह है कि वे AI लगा रहे हों, लेकिन फिर भी मैं 1 या 2 साल इंतज़ार करूँगा। क्योंकि संभव है कि वे बाद में पीछे हटें और कुछ लोगों को फिर से hire करें।
Dwarkesh Patel 01:13:00
ऐसा evidence था कि AI अपनाने वाली companies में यह सामान्य तौर पर पहले से ही हो रहा है। मेरे ख़याल से यह काफ़ी चौंकाने वाला है।
एक और चीज़ जो मुझे सच में चौंकाने वाली लगी। AGI, सही? वह सब कुछ करेगा। physical work को छोड़ दें, लेकिन उसे सारा knowledge work कर पाने में सक्षम होना चाहिए। सहज रूप से मैं उम्मीद करता कि यह प्रगति ऐसे होती कि consultant जो छोटा task कर रहा है, उसे लिया जाए और category से हटा दिया जाए। accountant जो छोटा task कर रहा है, उसे लिया जाए और category से हटा दिया जाए। और फिर यह हर तरह के knowledge work में होता जाए।
लेकिन दूसरी ओर, अगर आप मानते हैं कि मौजूदा paradigm के साथ हम AGI की ओर बढ़ रहे हैं, तो प्रगति बिल्कुल वैसी नहीं दिखती। ऐसा नहीं लगता कि consultants और accountants को जबरदस्त productivity gains मिल रहे हैं। यह बहुत कुछ वैसा ही है जैसा programmers के काम में धीरे-धीरे कटौती होती दिख रही है। अगर आप इन कंपनियों की revenue देखें, और सामान्य chat revenue को अलग कर दें—जो Google जैसी चीज़ों के करीब है—तो सिर्फ API revenue देखें, तो coding हावी है। तो यह "general" चीज़, जिसे सभी knowledge work करने में सक्षम होना चाहिए, भारी तौर पर सिर्फ coding ही कर रही है। AGI के deploy होने का यह एक चौंकाने वाला तरीका है।
Andrej Karpathy 01:14:13
यहाँ एक दिलचस्प बात है। मेरा मानना है कि coding, इन LLMs और agents के लिए एकदम सही पहला क्षेत्र है। क्योंकि coding हमेशा से बुनियादी तौर पर text के इर्द-गिर्द काम करती रही है। computer terminal और text, और सब कुछ text पर आधारित है। LLMs को text पसंद है, क्योंकि उन्हें internet पर उसी तरह train किया जाता है। यह एक perfect text processor है, और वहाँ इतना सारा data मौजूद है। यह एकदम perfect fit है।
हमारे पास code और text को संभालने के लिए पहले से बना हुआ बहुत सारा infrastructure भी है। उदाहरण के लिए, Visual Studio Code या आपका पसंदीदा IDE code दिखाता है, और agent उससे connect कर सकता है। अगर agent कोई बदलाव करता है और एक diff बनता है, तो हमारे पास अचानक से पहले से ही वह सारा code मौजूद है जो diff का इस्तेमाल करके codebase के सभी अंतर दिखा सकता है। ऐसा लगता है कि हमने code के लिए बहुत सारा infrastructure पहले से तैयार कर रखा है।
इसे उन चीज़ों से तुलना करें जिन्हें इसका बिल्कुल लाभ नहीं मिलता। उदाहरण के लिए, कुछ लोग coding नहीं बल्कि slides के लिए automation बनाने की कोशिश कर रहे हैं। मैंने slide बनाने वाली companies देखी हैं। वह कहीं ज़्यादा, बहुत ज़्यादा कठिन है। कठिन इसलिए है क्योंकि slides text नहीं होतीं। वे छोटे graphics होते हैं, जो spatial रूप से arranged होते हैं, और उनमें visual components होते हैं। slides के लिए यह pre-built infrastructure मौजूद नहीं है। उदाहरण के लिए, अगर कोई agent slide बदलता है, तो आप diff कैसे दिखाएँगे? diff को देखेंगे कैसे? slides के लिए diff दिखाने जैसी कोई चीज़ नहीं है। किसी को वह बनाना पड़ेगा। इन चीज़ों में से कुछ text processor होने वाले AI के लिए उपयुक्त नहीं हैं, जबकि code है, और आश्चर्यजनक रूप से बहुत अच्छी तरह है।
Dwarkesh Patel 01:15:48
मुझे यकीन नहीं है कि सिर्फ इससे पूरी बात समझ में आ जाती है। मैंने व्यक्तिगत रूप से उन domains में LLM को उपयोगी बनाने की कोशिश की है जहाँ pure language input और language output होता है, जैसे transcript को rewrite करना, transcript के आधार पर clips बनाना। बहुत संभव है कि मैंने हर संभव चीज़ नहीं आज़माई हो। मैंने context में बहुत सारे अच्छे examples दिए, लेकिन शायद किसी तरह की fine-tuning करनी पड़ती।
हमारे साझा मित्र, Andy Matuschak ने कहा कि model को spaced repetition prompts लिखने में अच्छा बनाने के लिए उन्होंने 50 अरब तरह की चीज़ें आज़माईं। फिर से, यह एक बहुत language-input, language-output task है, और ऐसा काम है जो इन LLMs के repertoire के बिल्कुल केंद्र में होना चाहिए। उन्होंने few shot examples के साथ in-context learning आज़माई। supervised fine-tuning और retrieval भी आज़माया। फिर भी वह उससे ऐसे cards नहीं बनवा सके जिनसे वे संतुष्ट हों।
तो language-output domain में भी, coding से अलग, इन models से बहुत अधिक आर्थिक मूल्य निकालना काफ़ी मुश्किल है—यह बात प्रभावशाली है। मुझे नहीं पता कि इसकी व्याख्या क्या है।
Andrej Karpathy 01:16:57
यह समझ में आता है। मैं यह नहीं कह रहा कि जो कुछ भी text है वह trivial है। मुझे लगता है कि code काफ़ी structured होता है। शायद मैं यह कहना चाहूँगा कि text कहीं अधिक ornate होता है, text में entropy कहीं अधिक होती है। मुझे नहीं पता इसे और कैसे कहूँ। code मुश्किल भी है, इसलिए लोग महसूस करते हैं कि साधारण knowledge से भी वे LLM की वजह से काफ़ी empowered हो गए हैं। मेरे पास इसका बहुत अच्छा जवाब नहीं है। साफ़ है कि text चीज़ों को कहीं, कहीं आसान बनाता है, लेकिन इसका मतलब यह नहीं कि हर text चीज़ trivial है।
01:17:36 – ASI (superintelligence)
Dwarkesh Patel 01:17:36
आप superintelligence के बारे में क्या सोचते हैं? क्या आपको लगता है कि यह सामान्य इंसानों या human companies से गुणात्मक रूप से अलग महसूस होगी?
Andrej Karpathy 01:17:45
मैं इसे समाज में automation की प्रगति के रूप में देखता हूँ। अगर आप computing के trends को extrapolate करें, तो बहुत सी चीज़ों का gradual automation होगा, और superintelligence उसी का extrapolation होगी। समय के साथ मैं उम्मीद करता हूँ कि अधिक से अधिक autonomous entities बहुत सारा digital work करेंगी, और फिर कुछ समय बाद physical work भी। मूल रूप से, मैं इसे बस automation के रूप में देखता हूँ, मोटे तौर पर कहें तो।
Dwarkesh Patel 01:18:10
लेकिन automation में वे चीज़ें शामिल हैं जो इंसान पहले से कर सकते हैं, जबकि superintelligence का मतलब है ऐसी चीज़ें जो इंसान नहीं कर सकते।
Andrej Karpathy 01:18:16
लेकिन लोगों के कामों में से एक नई चीज़ें invent करना भी है, और अगर यह बात समझ में आती है, तो मैं उसे भी automation में शामिल करूँगा।
Dwarkesh Patel 01:18:20
लेकिन थोड़ा कम abstract और ज़्यादा गुणात्मक रूप से, कुछ ऐसा... क्योंकि यह चीज़ या तो बहुत तेज़ सोच सकती है, या इसकी बहुत सारी copies हो सकती हैं, या वे copies फिर से आपस में merge हो सकती हैं, या यह कहीं ज़्यादा intelligent हो सकती है—AI के पास ऐसे कई advantages हो सकते हैं—तो क्या ऐसी AI वाली civilization इंसानी civilization से गुणात्मक रूप से अलग महसूस होगी?
Andrej Karpathy 01:18:51
मुझे लगता है, हाँ। मूल रूप से यह automation ही होगा, लेकिन बेहद अजनबी लगेगा। यह वास्तव में अजीब दिखेगा। जैसा आपने कहा, हम यह सब computer clusters पर चला सकते हैं और इसे कहीं ज़्यादा तेज़ी से कर सकते हैं।
जब दुनिया ऐसी दिखेगी, तो जिन scenarios को लेकर मैं चिंतित होने लगता हूँ उनमें से कुछ हैं—जो हो रहा है उस पर control और understanding का धीरे-धीरे खोना। मुझे लगता है understanding का gradual loss सबसे संभावित परिणाम है। हम धीरे-धीरे इन सब चीज़ों को हर जगह परत-दर-परत चढ़ाते जाएँगे, और उन्हें समझने वाले लोग कम से कम होते जाएँगे। फिर जो हो रहा है उस पर control और understanding, दोनों का gradual loss होगा। मेरे लिए यही सबसे संभावित नतीजा लगता है कि यह सब कैसे आगे बढ़ेगा।
Dwarkesh Patel 01:19:31
मैं इसमें थोड़ा और गहराई में जाना चाहता हूँ। यह साफ़ नहीं है कि control का loss और understanding का loss एक ही चीज़ हैं। TSMC, Intel के board—या किसी भी company का नाम ले लीजिए—वे बस प्रतिष्ठित 80 वर्षीय लोग होते हैं। उन्हें बहुत कम समझ होती है, और शायद व्यवहार में उनके पास वास्तव में ठोस control भी नहीं होता।
इसका बेहतर उदाहरण अमेरिका के राष्ट्रपति हैं। राष्ट्रपति के पास बहुत power होती है। मैं मौजूदा पदाधिकारी के बारे में कोई टिप्पणी करने की कोशिश नहीं कर रहा—या शायद कर रहा हूँ—लेकिन actual understanding का स्तर और control का स्तर बहुत अलग होते हैं।
Andrej Karpathy 01:20:06
यह उचित बात है। अच्छा counterpoint है। मुझे लगता है कि मैं दोनों के loss की अपेक्षा करता हूँ।
Dwarkesh Patel 01:20:15
कैसे? understanding का loss तो स्पष्ट है, लेकिन control का loss क्यों?
Andrej Karpathy 01:20:20
हम सच में बहुत गहराई तक ऐसे क्षेत्र में जा रहे हैं जहाँ यह कैसा दिखेगा, हमें पता नहीं, लेकिन अगर मैं science fiction लिखता, तो मैं किसी एक ऐसी entity की दिशा में नहीं जाता जो सब कुछ अपने कब्ज़े में ले ले, बल्कि कई competing entities की दिशा में जाता जो धीरे-धीरे अधिक से अधिक autonomous होती जा रही हैं। उनमें से कुछ rogue हो जाती हैं और दूसरी उन्हें हरा देती हैं। यह पूरी तरह autonomous activity के उन hotspots की तरह है जिन्हें हमने delegate कर दिया है। मुझे लगता है इसका flavor कुछ ऐसा होगा।
Dwarkesh Patel 01:20:52
यह तथ्य कि वे हमसे ज़्यादा intelligent हैं, control के loss की वजह नहीं बनता। वजह यह है कि वे एक-दूसरे से compete कर रही हैं, और उस competition से जो भी निकलता है, वह control के loss की ओर ले जाता है।
Andrej Karpathy 01:21:06
हाँ। इन चीज़ों का बड़ा हिस्सा लोगों के लिए tools होगा, और वे लोगों की ओर से act कर रहे होंगे या ऐसा कुछ। तो शायद वे लोग control में होंगे, लेकिन शायद पूरे समाज के स्तर पर, इस अर्थ में कि हमें जो परिणाम चाहिए, वहाँ control का loss होगा। आपके पास अब भी ऐसी entities होंगी जो व्यक्तियों की ओर से act कर रही हैं, लेकिन मोटे तौर पर वे फिर भी नियंत्रण से बाहर जैसी दिखेंगी।
Dwarkesh Patel 01:21:30
यह वह सवाल है जो मुझे शायद पहले पूछना चाहिए था। हम अभी इस बारे में बात कर रहे थे कि जब आप आज AI engineering या AI research करते हैं, तो ऐसा लगता है कि ये models किसी प्रतिस्थापन से ज़्यादा compiler की श्रेणी में आते हैं।
किसी बिंदु पर, अगर आपके पास AGI हो, तो उसे वह काम कर पाना चाहिए जो आप करते हैं। क्या आपको लगता है कि समानांतर में आपके दस लाख copies होना AI प्रगति में बहुत बड़ा acceleration ला देगा? अगर ऐसा होता है, तो क्या आप उम्मीद करते हैं कि जब हमारे पास वास्तविक AGI होगा, तब intelligence explosion देखने को मिलेगा? मैं आज के LLMs की बात नहीं कर रहा हूँ।
Andrej Karpathy 01:22:01
हाँ, लेकिन वह तो हमेशा की तरह ही होगा। क्योंकि हम पहले से ही intelligence explosion के भीतर हैं और दशकों से हैं। मूल रूप से GDP curve, जो industry के बहुत से पहलुओं का exponentials का weighted sum है। हर चीज़ धीरे-धीरे automate हो रही है, और यह सैकड़ों वर्षों से हो रहा है। Industrial Revolution, physical components, tool-making वगैरह के कुछ हिस्सों में automation था। compiler शुरुआती software automation था, वगैरह। हम लंबे समय से recursively self-improve कर रहे हैं और explode कर रहे हैं।
इसे देखने का एक और तरीका यह है कि अगर आप biomechanics वगैरह को न देखें, तो पृथ्वी काफी उबाऊ जगह लगती थी और बहुत समान दिखाई देती थी। space से देखने पर, हम इस fireworks event के ठीक बीच में हैं, लेकिन हम इसे slow motion में देख रहे हैं। मुझे निश्चित रूप से लगता है कि यह बहुत लंबे समय से हो रहा है। फिर से, मैं AI को ऐसी technology नहीं मानता जो उस चीज़ से अलग हो जो पहले से बहुत समय से हो रही थी।
Dwarkesh Patel 01:23:00
तो क्या आप इसे इस hyperexponential trend के साथ continuous मानते हैं?
Andrej Karpathy 01:23:03
हाँ। यह बात मेरे लिए बहुत दिलचस्प थी, क्योंकि मैं कुछ समय से GDP में AI को ढूँढने की कोशिश कर रहा था। मुझे लगा था कि GDP बढ़नी चाहिए। लेकिन मैंने दूसरी technologies देखीं जिन्हें मैं बहुत transformative मानता था, जैसे computer या mobile phone वगैरह। आप उन्हें GDP में ढूँढ नहीं सकते। GDP वही exponential है।
यहाँ तक कि शुरुआती iPhone में App Store भी नहीं था, और न ही modern iPhone की बहुत-सी सजावटें थीं। इसलिए भले ही आप 2008, जब iPhone आया, को इस बड़े tectonic shift के रूप में सोचें, वास्तव में ऐसा नहीं है। हर चीज़ इतनी फैली हुई है और इतनी धीरे फैलती है कि अंत में सब कुछ उसी exponential में average हो जाता है। computer के साथ भी बिल्कुल यही बात है। आप GDP में उन्हें इस तरह नहीं देख सकते कि "ओह, अब computers आ गए हैं।" ऐसा नहीं हुआ। क्योंकि यह बहुत धीरे unfold होता है।
AI के साथ भी आप बिल्कुल यही देखेंगे। यह बस और automation है। यह हमें दूसरे तरह के programs लिखने देता है जिन्हें हम पहले नहीं लिख सकते थे। लेकिन AI अब भी मूल रूप से program ही है। यह एक नए तरह का computer है और नए तरह का computing system है। लेकिन इसमें ये सारी समस्याएँ अब भी हैं, यह समय के साथ diffuse होगा, और फिर भी उसी exponential में जुड़ जाएगा। हमारे पास तब भी एक exponential होगा जो बेहद steep होगा। उस तरह के environment में रहना बहुत अजीब होगा।
Dwarkesh Patel 01:24:10
अगर आप Industrial Revolution से पहले से अब तक के trend को देखें, तो क्या आप कह रहे हैं कि हमारे पास एक hyperexponential है, जो 10,000 साल पहले 0% growth से 0.02% growth और अब 2% growth तक गया? वही hyperexponential है। अगर आप उस पर AI को chart करें, तो क्या आप कह रहे हैं कि AI आपको 20% growth या 200% growth तक ले जाएगा?
या फिर अगर आप पिछले 300 साल देखें, तो आपने हर technology—computer, electrification, steam engine, railroad वगैरह—को देखा, लेकिन growth rate बिल्कुल वही 2% रहा? क्या आप कह रहे हैं कि growth rate बढ़ेगा?
Andrej Karpathy 01:24:46
growth rate भी मोटे तौर पर स्थिर ही रहा है, सही?
Dwarkesh Patel 01:24:49
सिर्फ पिछले 200 से 300 वर्षों में। लेकिन मानव इतिहास के दौरान यह explode हुआ। 0% से, फिर और तेज़, और तेज़, और तेज़। industrial explosion, 2%।
Andrej Karpathy 01:25:01
कुछ समय तक मैं GDP curve में AI को ढूँढने की कोशिश करता रहा, और मैंने खुद को समझा लिया कि यह गलत है। यहाँ तक कि जब लोग recursive self-improvement और labs वगैरह की बात करते हैं, तब भी यह business as usual ही है। बेशक यह recursively self-improve करेगा, और यह होता आया है।
LLMs engineers को LLMs की अगली round बनाने के लिए कहीं ज़्यादा efficiently काम करने देते हैं, और components के कहीं ज़्यादा हिस्से automate और orchestrate हो रहे हैं। Google Search तक पहुँच रखने वाले सभी engineers भी उसका हिस्सा हैं। IDE रखने वाले सभी engineers, autocomplete वाले सभी engineers, या Claude Code वाले सभी engineers, वगैरह—ये सब उसी overall acceleration का हिस्सा हैं। यह बहुत smooth है।
Dwarkesh Patel 01:25:41
स्पष्ट करने के लिए, आप कह रहे हैं कि growth rate नहीं बदलेगा। intelligence explosion बस इस रूप में दिखेगा कि जैसे internet ने 2% growth trajectory पर बने रहने में मदद की, वैसे ही यह हमें 2% growth trajectory पर बने रहने देगा।
Andrej Karpathy 01:25:53
हाँ, मेरी expectation यही है कि हम उसी pattern पर बने रहेंगे।
Dwarkesh Patel 01:25:58
अगर मैं इसका counterargument दूँ, तो मेरी expectation यह है कि यह explode करेगा। क्योंकि वास्तविक AGI—और मैं LLM coding bots की बात नहीं कर रहा, बल्कि server पर इंसानों के वास्तविक replacement की बात कर रहा हूँ—मुझे इन दूसरी productivity-enhancing technologies से गुणात्मक रूप से अलग लगता है। क्योंकि वह श्रम खुद है।
मुझे लगता है कि हम बहुत श्रम-सीमित दुनिया में रहते हैं। अगर आप startup founders या किसी से भी बात करें, और पूछें कि उन्हें किस चीज़ की ज़रूरत है, तो जवाब होगा वास्तव में प्रतिभाशाली लोग। अगर अरबों अतिरिक्त लोग हों जो चीज़ें invent कर सकें, integrate कर सकें, और end-to-end companies बना सकें, तो वह किसी एक technology से गुणात्मक रूप से अलग लगता है। वह ऐसा है जैसे पृथ्वी को 10 अरब अतिरिक्त लोग मिल जाएँ।
Andrej Karpathy 01:26:44
शायद यह एक counterpoint है। इस मुद्दे पर मैं किसी भी दिशा में convinced होने के लिए काफ़ी खुला हूँ। लेकिन उदाहरण के लिए, computing भी labor है। computing labor था। computer आए, तो बहुत-सी jobs खत्म हो गईं, क्योंकि computer अब बहुत-सी digital information processing को automate कर रहे हैं जहाँ पहले इंसानों की ज़रूरत थी। इसलिए computer labor हैं, और वह unfold हुआ।
उदाहरण के लिए self-driving भी computer द्वारा किया गया labor है। वह भी पहले से unfold हो रहा है। यह अब भी business as usual ही है।
Dwarkesh Patel 01:27:13
संभव है कि ऐसी चीज़ों को कहीं तेज़ rate से churn out करने वाली machine हो। इतिहास में ऐसे उदाहरण रहे हैं जहाँ growth regime 0.2% growth से 2% growth तक बदला। अगली self-driving car और अगला internet और जो भी हो... उन्हें churn out करने वाली machine काफ़ी plausible लगती है...
Andrej Karpathy 01:27:33
मैं समझता हूँ कि आप कहाँ से आ रहे हैं। साथ ही, मुझे लगता है लोग यह मान लेते हैं कि "हमारे पास डिब्बे में एक भगवान है, और अब वह सब कुछ कर सकता है," लेकिन ऐसा दिखाई नहीं देगा। वह कुछ चीज़ें कर पाएगा। कुछ दूसरी चीज़ों में fail होगा। हम उसे धीरे-धीरे society में डालेंगे, और अंत में वही pattern मिलेगा। यही मेरी prediction है।
यह धारणा कि हमारे पास अचानक डिब्बे में एक पूरी तरह intelligent, पूरी तरह flexible, पूरी तरह general इंसान होगा, और हम उसे समाज की मनमानी समस्याओं पर allocate कर सकेंगे—मुझे नहीं लगता कि हमारे पास ऐसा discontinuous change होगा। मुझे लगता है कि हम industries भर में इसी तरह के gradual diffusion तक पहुँचेंगे।
Dwarkesh Patel 01:28:14
अक्सर ऐसी बातचीतों में गलतफ़हमी इसी वजह से होती है। इस संदर्भ में मुझे intelligence शब्द का इस्तेमाल पसंद नहीं है। क्योंकि intelligence यह संकेत देता है कि server पर बैठी एक single superintelligence होगी, और वह किसी दिव्य तरीके से जान जाएगी कि कौन-सी नई technologies और inventions इस explosion को जन्म देंगी। जब मैं 20% growth की कल्पना करता हूँ, तो मैं वह नहीं सोच रहा होता। मैं सैकड़ों मिलियन बहुत समझदार, इंसान-जैसे minds की कल्पना करता हूँ, संभवतः, या शायद बस उतना ही काफ़ी हो।
लेकिन तथ्य यह है कि उनमें से सैकड़ों मिलियन, अरबों होंगे, और हर एक अलग-अलग नए products बनाएगा, और यह खोजेगा कि खुद को economy में कैसे integrate करना है। अगर कोई बेहद experienced और smart immigrant किसी देश में आए, तो उसे यह सिखाने की ज़रूरत नहीं होगी कि economy में कैसे integrate होना है। वह खुद समझ जाएगा। वह company शुरू कर सकता है, inventions कर सकता है, और दुनिया की productivity बढ़ा सकता है।
मौजूदा व्यवस्था में भी ऐसे उदाहरण हैं जहाँ आर्थिक वृद्धि 10–20% रही है। अगर लोगों की संख्या बहुत हो और लोगों की तुलना में पूंजी कम हो, तो 10% से अधिक की वृद्धि के साथ दशकों तक Hong Kong या Shenzhen जैसा कुछ देखा जा सकता है। बहुत से बेहद बुद्धिमान लोग हैं जो संसाधनों का उपयोग करने और इस catch-up अवधि के लिए तैयार हैं। क्योंकि हमारे पास यह discontinuity थी, और मुझे लगता है AI में भी कुछ ऐसा ही हो सकता है।
Andrej Karpathy 01:29:33
मैं समझता हूँ, लेकिन मुझे अब भी लगता है कि आप किसी discontinuous jump को मानकर चल रहे हैं। जैसे कोई unlock होने वाली चीज़ है जिसका हम बस दावा करने का इंतज़ार कर रहे हैं। अचानक हमारे पास data center में geniuses होंगे। मुझे अब भी लगता है कि आप ऐसा discontinuous jump मान रहे हैं जिसका कोई historical precedent मुझे किसी भी statistics में नहीं मिलता, और शायद ऐसा होगा भी नहीं।
Dwarkesh Patel 01:29:52
मेरा मतलब है, Industrial Revolution ऐसा ही एक jump था। हम 0.2% growth से 2% growth पर गए। मैं सिर्फ यह कह रहा हूँ कि हम वैसा ही एक और jump देखेंगे।
Andrej Karpathy 01:30:00
मुझे इस पर थोड़ा संदेह है। शायद इसे देखना पड़ेगा। उदाहरण के लिए, Industrial Revolution से पहले के कुछ records बहुत अच्छे नहीं हैं। इस बारे में मैं थोड़ा skeptical हूँ, लेकिन मेरी कोई बहुत strong opinion नहीं है। आप कह रहे हैं कि यह एक single event था जो बेहद magical था। और आप कह रहे हैं कि शायद वैसा ही एक और event होगा, जो उतना ही magical होगा। वह paradigm को तोड़ देगा, वगैरह।
Dwarkesh Patel 01:30:23
असल में... Industrial Revolution में निर्णायक बात यह थी कि वह magical नहीं था। अगर आप zoom in करें, तो 1770 या 1870 में ऐसा नहीं दिखता कि कोई एक key invention हुई थी। लेकिन उसी समय progress बहुत तेज़ थी, और उसने economy को ऐसे regime में पहुँचा दिया जहाँ exponent 10 गुना हो गया। मुझे AI में भी कुछ वैसा ही दिखने की उम्मीद है। मुझे नहीं लगता कि कोई एक single moment होगा जब निर्णायक invention हो जाएगी।
Andrej Karpathy 01:30:51
यह unlock हो रही excess supply है। जैसे कोई नया energy source। कोई unlock है—इस मामले में, किसी तरह की cognitive ability—और करने के लिए cognitive work की excess supply है।
Dwarkesh Patel 01:31:02
सही।
Andrej Karpathy 01:31:03
आप उम्मीद कर रहे हैं कि जब वह excess supply threshold पार करेगी, तो यह नई technology उसे भर देगी।
Dwarkesh Patel 01:31:06
शायद इसे समझने का एक तरीका यह है कि पूरे इतिहास में बहुत-सी growth इसलिए आई क्योंकि लोग ideas सोचते हैं, और फिर लोग उन ideas को implement करके कुछ करते हैं और valuable output बनाते हैं। इस समय के अधिकांश हिस्से में population explode कर रही थी। वही growth को drive कर रही थी।
पिछले 50 वर्षों में, लोगों ने तर्क दिया है कि growth stagnate हो गई है। developed देशों की population भी stagnate हो गई है। मुझे लगता है कि हम population की exponential growth की तरफ लौट रहे हैं, जो output की super-exponential growth पैदा करेगी।
Andrej Karpathy 01:31:37
यह कहना सच में बहुत कठिन है। मैं उस दृष्टिकोण को समझता हूँ। लेकिन सहज रूप से मुझे वह दृष्टिकोण महसूस नहीं होता।
01:32:50 – बुद्धिमत्ता और संस्कृति का विकास
Dwarkesh Patel 01:32:50
आपने मुझे Nick Lane की किताब recommend की थी। उसके आधार पर, मुझे भी वह बेहद दिलचस्प लगी और मैंने उनका interview किया। intelligence और evolutionary history के बारे में सोचने को लेकर मेरे कुछ सवाल हैं।
अब जबकि आपने पिछले 20 वर्षों से AI research की है, तो intelligence क्या है और उसे विकसित करने के लिए क्या चाहिए, इस बारे में आपके पास शायद अधिक ठोस समझ होगी। तो क्या उसके परिणामस्वरूप आपको यह ज्यादा आश्चर्यजनक लगता है या कम, कि evolution बस अपने-आप उससे टकरा गई?
Andrej Karpathy 01:33:19
मुझे Nick Lane की किताबें बहुत पसंद हैं। यहाँ आते समय मैं उनका podcast सुन रहा था। intelligence और उसके evolution के बारे में कहूँ तो, यह बहुत, बहुत हाल की चीज़ है। मुझे आश्चर्य होता है कि यह evolved हुई।
यह सोचना बहुत fascinating है कि बाहर मौजूद तमाम दुनियाएँ कैसी होंगी। मान लीजिए Earth जैसे हज़ार ग्रह हों, तो वे कैसे दिखेंगे। Nick Lane यहाँ आए थे और शुरुआती चरणों के कुछ हिस्सों पर बात की थी। उनका मानना है कि broadly speaking, life-forms बहुत मिलते-जुलते होंगे, और उनमें से अधिकांश पर bacteria जैसी चीज़ें होंगी। वहाँ कुछ discontinuities हैं। intelligence का evolution सहज रूप से मुझे काफ़ी rare event लगता है।
शायद हमें यह देखना चाहिए कि कोई चीज़ कितने समय तक मौजूद रही। अगर bacteria 2 अरब साल तक रहे और कुछ नहीं हुआ, तो eukaryotes तक पहुँचना शायद काफ़ी कठिन रहा होगा। क्योंकि bacteria पृथ्वी के evolution या history के शुरुआती दौर में ही प्रकट हो गए थे। animals कितने समय से हैं? शायद कुछ सौ मिलियन साल, बहुकोशिकीय animals जो दौड़ते-फिरते, रेंगते आदि हैं। यह शायद पृथ्वी के जीवनकाल का 10% है। शायद उस timescale पर यह उतना कठिन नहीं है। फिर भी मुझे सहज रूप से हैरानी होती है कि यह विकसित हुआ। शायद मैं सिर्फ animal-like life-forms की उम्मीद करता, जो animal-like काम कर रही हों। लेकिन यह कि कुछ ऐसा मिल जाए जो culture और knowledge रच सके और जमा कर सके, यह मेरे लिए आश्चर्यजनक है।
Dwarkesh Patel 01:34:42
इसके कुछ दिलचस्प follow-up सवाल हैं। अगर आप Sutton के दृष्टिकोण को मानें, तो intelligence का सार animal intelligence है... उनका एक quote था, “अगर आप squirrel तक पहुँच गए, तो आपने AGI का ज़्यादातर हिस्सा हासिल कर लिया।”
हम Cambrian explosion के तुरंत बाद, 60 करोड़ साल पहले, squirrel intelligence तक पहुँच गए थे। और जो चीज़ इसे trigger करती हुई लगती है, वह 60 करोड़ साल पहले की Great Oxygenation Event थी। लेकिन जैसे ही वह हुआ, intelligence algorithm squirrel intelligence बनाने के लिए वहीं मौजूद था। इससे संकेत मिलता है कि animal intelligence इतनी कठिन नहीं थी। जैसे ही environment में oxygen आई, हमारे पास eukaryotes थे, और algorithm लगभग तुरंत मिल गया। हो सकता है कि evolution का इतनी जल्दी संयोग से उस पर पहुँच जाना एक accident रहा हो, लेकिन पता नहीं क्या यह इस ओर इशारा करता है कि आखिरकार यह काफ़ी simple होगा।
Andrej Karpathy 01:35:31
इनमें से किसी भी बात पर कुछ कहना बहुत कठिन है। आप थोड़ा-बहुत इस आधार पर जा सकते हैं कि कोई चीज़ कितने समय तक मौजूद रही, या कितना समय ऐसा लगा जैसे कुछ bottleneck में अटका हुआ था। Nick Lane bacteria और archaea में इस बेहद स्पष्ट bottleneck को समझाने में बहुत अच्छे हैं। 2 अरब साल तक, कुछ नहीं हुआ। biochemistry में भारी diversity है, लेकिन कुछ भी बढ़कर animals नहीं बना। पूरे 2 अरब साल।
जैसा आपने कहा, animals और intelligence के मामले में हमने ठीक वैसी equivalent चीज़ देखी है या नहीं, मुझे नहीं पता। हम यह भी देख सकते हैं कि हमें क्या लगता है कि कोई खास intelligence कितनी बार स्वतंत्र रूप से उत्पन्न हुई।
Dwarkesh Patel 01:36:07
यह जाँचने के लिए सच में बहुत अच्छी बात है।
Andrej Karpathy 01:36:09
उस बारे में एक विचार। एक तरफ hominid intelligence है, और फिर bird intelligence है। कौए वगैरह, जो बेहद चतुर हैं, लेकिन उनके brain parts काफ़ी अलग हैं, और हमारे साथ उनकी इतनी समानता नहीं है। यह इस बात का थोड़ा संकेत है कि intelligence कई बार उत्पन्न होती है। ऐसे में, आप उम्मीद करेंगे कि यह और अधिक बार हो।
Dwarkesh Patel 01:36:32
पिछले मेहमानों में Gwern और Carl Shulman ने इस बारे में बहुत दिलचस्प बात कही थी। उनका दृष्टिकोण यह था कि scalable algorithm, जो इंसानों में है और primates में है, वही birds में भी विकसित हुआ, और शायद दूसरी बार भी हुआ। लेकिन humans ने ऐसा evolutionary niche खोज लिया जिसमें वे intelligence में सीमांत वृद्धि का प्रतिफल पा सकें और उस वृद्धि को हासिल करने वाले scalable brain algorithm भी रख सकें।
उदाहरण के लिए, अगर birds का brain बड़ा होता, तो वे बस आसमान से गिर पड़ते। वे brain size के हिसाब से बहुत smart हैं, लेकिन वे ऐसे niche में नहीं हैं जो brain के और बड़ा होने का प्रतिफल दे। शायद कोई बहुत smart... ऐसा हो सकता है।
Andrej Karpathy 01:37:28
जैसे dolphin?
Dwarkesh Patel 01:37:28
बिल्कुल, humans के पास हाथ हैं जो tool use सीखने को reward करते हैं। हम digestion को externalize कर सकते हैं, और brain को ज्यादा energy दे सकते हैं, और वहीं से flywheel शुरू होता है।
Andrej Karpathy 01:38:02
काम करने वाली चीज़ें भी। अगर मैं एक डॉल्फ़िन होता, तो शायद यह और मुश्किल होता। आप आग कैसे जलाते हैं? पानी के भीतर, पानी में जो चीज़ें की जा सकती हैं उनका ब्रह्मांड शायद रासायनिक रूप से ज़मीन पर की जा सकने वाली चीज़ों से छोटा होगा।
मैं इन niches और किस चीज़ को incentivize किया जा रहा है, इस दृष्टिकोण से सहमत हूँ। मुझे यह अब भी चमत्कारिक लगता है। आप उम्मीद करते कि बड़े muscles वाले जानवरों पर चीज़ें अटक जाएँगी। intelligence तक पहुँचना वास्तव में एक आकर्षक turning point है।
Dwarkesh Patel 01:38:28
Gwern ने इसे जिस तरह कहा, उसका मतलब यह है कि यह इतना कठिन इसलिए था क्योंकि सीखना इतना महत्वपूर्ण होना चाहिए कि सही circuit को सीधे DNA में फिर से distill करना सार्थक न हो, और साथ ही इतना भी महत्वपूर्ण न हो कि उसे बिल्कुल न सीखा जाए — इन दोनों के बीच की बहुत संकरी रेखा। यह कुछ ऐसा होना चाहिए जो जीवन भर सीखने वाला algorithm बनाने को incentivize करे।
Andrej Karpathy 01:38:55
किसी तरह की adaptability को incentivize करना होगा। आप ऐसा अप्रत्याशित environment चाहते हैं कि evolution algorithm को weights में bake न कर सके। बहुत से जानवर इस अर्थ में पहले से baked-in होते हैं। इंसानों को जन्म के बाद test time पर पता लगाना पड़ता है। आप ऐसा environment चाहते हैं जो बहुत तेज़ी से बदलता हो, जहाँ यह पहले से नहीं जाना जा सके कि क्या अच्छा काम करेगा। उस चीज़ को test time पर समझने के लिए intelligence पैदा होती है।
Dwarkesh Patel 01:39:28
Quintin Pope की एक दिलचस्प ब्लॉग पोस्ट थी, जिसमें कहा गया कि वे sharp leap की उम्मीद नहीं करते क्योंकि इंसानों में sharp leap हुआ था। लगता है कि 60,000 साल पहले हमारे पास आज जैसी cognitive architecture थी। 10,000 साल पहले, कृषि क्रांति, modernity। उन 50,000 वर्षों में क्या हुआ? हमें यह cultural scaffolding बनानी पड़ी ताकि पीढ़ियों के पार ज्ञान जमा किया जा सके।
AI training के तरीके में यह ऐसी क्षमता है जो मानो मुफ्त में मौजूद है। कई मामलों में यह literally distilled होती है। जब आप model को दोबारा train करते हैं, तो वे एक-दूसरे पर train हो सकते हैं, उसी pretraining corpus पर train हो सकते हैं, और उन्हें literally शुरुआत से शुरू नहीं करना पड़ता। इंसानों को इस cultural loop को चलाने में बहुत समय लगा, लेकिन LLM training के तरीके में यह एक ऐसी चीज़ लगती है जो बस मुफ्त में मिल जाती है।
Andrej Karpathy 01:39:45
हाँ भी और नहीं भी। क्योंकि LLM के पास वास्तव में culture के बराबर कुछ नहीं है। शायद हम उन्हें बहुत ज़्यादा दे रहे हैं और इसीलिए उन्हें उसे बनाने के लिए incentivize नहीं कर रहे, या कुछ ऐसा। लेकिन culture का आविष्कार, recorded record का आविष्कार, और एक-दूसरे को notes देना — मुझे नहीं लगता कि मौजूदा LLMs में उसका कोई equivalent है। मैं कहूँगा कि LLMs के पास अभी वास्तव में culture नहीं है, और यह बाधाओं में से एक है।
Dwarkesh Patel 01:40:05
क्या आप इस बात का कुछ अंदाज़ा दे सकते हैं कि LLM culture कैसा दिखेगा?
Andrej Karpathy 01:40:09
सबसे सरल मामले में, वह एक बहुत बड़ा scratchpad होगा जिसे LLM edit कर सकेगा। और जब वह कुछ पढ़ रहा हो या किसी task में मदद कर रहा हो, तो वह अपने लिए उस scratchpad को edit कर रहा होगा। LLM दूसरे LLMs के लिए किताबें क्यों नहीं लिख सकता? वह शानदार होगा। दूसरे LLMs इस LLM की किताब क्यों नहीं पढ़ सकते, उससे प्रेरित क्यों नहीं हो सकते, या उससे चौंक क्यों नहीं सकते, वगैरह? इन चीज़ों के लिए अभी कोई equivalent नहीं है।
Dwarkesh Patel 01:40:29
दिलचस्प। आपको क्या लगता है, इस तरह की चीज़ कब शुरू होगी? और multi-agent systems तथा किसी तरह की स्वतंत्र AI civilization और culture के बारे में क्या?
Andrej Karpathy 01:40:40
multi-agent क्षेत्र में दो शक्तिशाली ideas हैं, लेकिन दोनों को अब तक वास्तव में मज़बूती से आगे नहीं बढ़ाया गया है। पहला, मैं कहूँगा, culture है — जहाँ LLMs अपने उद्देश्यों के लिए knowledge का बढ़ता हुआ repertoire रखते हैं।
दूसरा, self-play के शक्तिशाली idea से कहीं ज़्यादा मिलता-जुलता दिखता है। मेरे विचार से यह बेहद शक्तिशाली है। evolution में intelligence और evolution को आगे बढ़ाने वाली बहुत सी competition होती है। अधिक algorithmic रूप में, AlphaGo में, AlphaGo खुद से खेलता है, और इसी तरह वह Go में वास्तव में अच्छा होना सीखता है। self-playing LLM का equivalent अभी नहीं है, लेकिन मुझे उम्मीद है कि वह भी होगा। अभी तक किसी ने यह नहीं किया है। उदाहरण के लिए, LLM ऐसे बहुत से problems क्यों नहीं बना सकता जिन्हें दूसरा LLM हल करना सीख रहा हो? फिर LLM लगातार और कठिन problems देने की कोशिश करे, वगैरह।
इसे organize करने के बहुत से तरीके हैं। यह एक research area है, लेकिन मैंने इन दोनों multi-agent improvements के लिए अब तक कोई भी सचमुच convincing case नहीं देखा। हम अभी ज़्यादातर single individual agent के दायरे में हैं, लेकिन यह बदलेगा। culture वाले क्षेत्र में, मैं organizations को भी शामिल करना चाहूँगा। वह भी मैंने अभी तक convincing रूप में नहीं देखा। यही वजह है कि हम अब भी शुरुआती दौर में हैं।
Dwarkesh Patel 01:41:53
क्या आप उस मुख्य bottleneck की पहचान कर सकते हैं जो LLMs के बीच इस तरह के cooperation को रोक रही है?
Andrej Karpathy 01:41:59
शायद मैं इसे इस तरह कहूँगा: इन analogies में से कुछ को काम नहीं करना चाहिए, लेकिन किसी तरह, हैरानी की बात है कि वे काम करती हैं। छोटे models, या कम बुद्धिमान models में से बहुत से, हैरानी की बात है, किंडरगार्टन के बच्चों, या प्राथमिक स्कूल, या हाई स्कूल के छात्रों जैसे लगते हैं। किसी तरह, हम अभी भी इतना graduate नहीं हुए हैं कि ये चीज़ें takeover कर सकें। मेरा Claude Code या Codex, वे अब भी प्राथमिक कक्षा के छात्रों जैसे लगते हैं। मुझे पता है कि वे PhD quiz हल कर सकते हैं, लेकिन cognitive रूप से वे अब भी किंडरगार्टन या प्राथमिक स्कूल के बच्चों जैसे लगते हैं।
मुझे नहीं लगता कि वे culture बना सकते हैं, क्योंकि वे अब भी बच्चे हैं। वे prodigy बच्चे हैं। इनके पास इन सब चीज़ों की perfect memory है। वे हर तरह का ऐसा slop काफ़ी विश्वासयोग्य ढंग से बना सकते हैं जो बहुत अच्छा दिखता है। लेकिन मुझे अब भी लगता है कि उन्हें वास्तव में पता नहीं होता कि वे क्या कर रहे हैं, और जिन तमाम छोटे checkboxes को हमें अभी भी इकट्ठा करना है, उनके पार उनमें सचमुच cognition नहीं है।
01:42:55 autonomous driving में इतना समय क्यों लगा
Dwarkesh Patel 01:42:55
आपने कहा कि Tesla में आपने 2017 से 2022 तक autonomous driving का नेतृत्व किया। और आपने इस प्रगति को सीधे देखा — शानदार demos से लेकर अब हज़ारों कारों के वास्तव में autonomous रूप से चलने तक। इसमें 10 साल क्यों लगे? उस दौरान क्या हो रहा था?
Andrej Karpathy 01:43:11
एक बात जिसका मैं लगभग तुरंत खंडन करना चाहूँगा, वह यह है कि यह कहीं से भी समाप्ति के करीब नहीं पहुँचा है। कई मायनों में जिन पर मैं बात करूँगा। autonomous driving बहुत दिलचस्प है, क्योंकि मैंने उस पर 5 साल बिताए, इसलिए मेरी बहुत-सी intuition निश्चित रूप से वहीं से आती है। autonomous driving का पूरा इतिहास है, जिसके पहले demos 1980s तक जाते हैं। आप 1986 में CMU के demo को देख सकते हैं। वहाँ सड़क पर खुद चलने वाला truck है।
Fast-forward करें। जब मैं Tesla में शामिल हुआ, तब मैंने Waymo का बहुत शुरुआती demo देखा था। मूल रूप से, 2014 के आसपास या कुछ ऐसा — यानी लगभग 10 साल पहले — उसने मुझे एक perfect ride दी थी। तो 10 साल पहले एक perfect Waymo ride। ऐसा इसलिए हुआ क्योंकि वहाँ काम करने वाला मेरा एक दोस्त था, जिसने मुझे Palo Alto के आसपास घुमाया। मुझे लगा था कि यह बहुत करीब है, लेकिन फिर भी इसमें लंबा समय लगा।
कुछ तरह के tasks और jobs वगैरह में एक बहुत बड़ा demo-product gap होता है, जहाँ demo बहुत आसान होता है लेकिन product बहुत कठिन। autonomous driving जैसे मामलों में यह खास तौर पर सच है, जहाँ failure की cost बहुत ज़्यादा होती है। बहुत से industries, tasks, और jobs में शायद यह गुण नहीं होता, लेकिन जब होता है, तो वह timeline को निश्चित रूप से लंबा कर देता है।
उदाहरण के लिए, software engineering में, मुझे लगता है कि वह गुण मौजूद है। बहुत-सी vibe coding के लिए ऐसा नहीं है। लेकिन अगर आप वास्तव में production-grade code लिख रहे हैं, तो वह गुण होना चाहिए। क्योंकि किसी भी तरह की गलती security vulnerability या ऐसी किसी चीज़ में बदल सकती है। करोड़ों, यहाँ तक कि सैकड़ों करोड़ लोगों के personal resident registration numbers लीक हो सकते हैं या ऐसा कुछ हो सकता है। इसलिए software में, लोगों को सावधान रहना पड़ता है, ठीक self-driving की तरह। self-driving में, अगर कुछ गलत हो जाए, तो चोट लग सकती है। और उससे भी बुरे नतीजे हो सकते हैं। लेकिन software में, यह लगभग अनंत है। यह कितना भयानक बन सकता है।
मुझे लगता है कि वे उस गुण को साझा करते हैं। इसमें इतना लंबा समय लगने की वजह, और इसे सोचने का तरीका, यह है कि यह march of nines है। हर एक 9 एक निश्चित मात्रा का काम है। हर एक 9 उतनी ही मात्रा का काम है। अगर आपके पास एक demo है और कुछ 90% समय काम करता है, तो वह बस पहला 9 है। फिर आपको दूसरा 9, तीसरा 9, चौथा 9, पाँचवाँ 9 चाहिए। जब मैं Tesla में लगभग 5 साल था, तब हमने शायद तीन 9 या दो 9 पूरे किए। मुझे नहीं पता वह क्या है, लेकिन iteration के कई 9 होते हैं। और अभी भी ज़्यादा 9 चाहिए।
यही वजह है कि ऐसी चीज़ों में इतना समय लगता है। मेरे लिए यह निश्चित रूप से formative था, किसी ऐसी चीज़ को demo के रूप में देखना। मैं demos से बहुत प्रभावित नहीं होता। जब भी मैं किसी चीज़ का demo देखता हूँ, मैं उससे बेहद कम प्रभावित होता हूँ। अगर वह ऐसा demo है जिसे किसी ने दिखाने के लिए बनाकर तैयार किया है, तो और भी बुरा। अगर मैं उसके साथ interact कर सकता हूँ, तो थोड़ा बेहतर है। लेकिन तब भी, वह पूरा नहीं हुआ है। आपको असली product चाहिए। जब वह reality से टकराता है, तो उसे इन सारी चुनौतियों का सामना करना पड़ेगा, और व्यवहार के ऐसे बहुत-से अलग pockets होंगे जिन्हें patch करना पड़ेगा।
हम यह सब unfold होते देखेंगे। यह 9s की march है। हर 9 स्थिर है। demos उत्साहजनक हैं। फिर भी बहुत भारी मात्रा में काम बाकी है। अगर आप vibe coding नहीं कर रहे हैं, तो यह एक महत्वपूर्ण safety domain है, और वह सब ठीक है और मज़ेदार है। उसी ने उस नज़रिए से मेरी timeline को भी मज़बूत किया।
Dwarkesh Patel 01:46:25
यह सुनना बहुत दिलचस्प है। कि software में जिन safety guarantees की ज़रूरत है, वे self-driving से बहुत अलग नहीं हैं। लोग अक्सर कहते हैं कि self-driving को इतना समय इसलिए लगा क्योंकि failure की लागत बहुत ज़्यादा है। इंसान औसतन हर 4 लाख मील पर, या हर 7 साल में, एक गलती करते हैं। अगर आपको ऐसा coding agent रिलीज़ करना हो जो कम-से-कम 7 साल तक गलती न करे, तो उसे deploy करना कहीं ज़्यादा मुश्किल होगा।
लेकिन आपका point यह है कि अगर उसने कोई गंभीर coding गलती की, तो वह कुछ ऐसा होगा जैसे हर 7 साल में किसी महत्वपूर्ण system को तोड़ देना...
Andrej Karpathy 01:46:56
यह करना बहुत आसान है।
Dwarkesh Patel 01:46:57
असल में, wall-clock time के हिसाब से, वह 7 साल से बहुत कम होगा। क्योंकि वह लगातार उस तरह का code उगल रहा होगा। tokens के हिसाब से वह 7 साल होगा। लेकिन wall-clock time के हिसाब से...
Andrej Karpathy 01:47:09
कुछ मायनों में, यह उससे कहीं कठिन समस्या है। self-driving उन हज़ारों चीज़ों में से सिर्फ़ एक है जो लोग करते हैं। यह लगभग एक single vertical जैसा है, मेरे हिसाब से। जबकि जब आप सामान्य software engineering की बात करते हैं, तो उसका surface area बहुत बड़ा है।
Dwarkesh Patel 01:47:20
लोग उस analogy पर एक और आपत्ति करते हैं। self-driving में, उस समय का बड़ा हिस्सा इस समस्या को हल करने में गया कि मज़बूत base perception कैसे हो, representations कैसे बनाए जाएँ, और ऐसे models कैसे हों जिनमें इतनी common sense हो कि वे कुछ थोड़ा out-of-distribution दिखने पर generalize कर सकें। अगर कोई सड़क पर इस तरह हाथ हिला रहा हो, तो उसके लिए अलग से train करने की ज़रूरत नहीं पड़ती। उसमें इस बात की कुछ समझ होगी कि ऐसी चीज़ पर कैसे respond करना है।
ये वे चीज़ें हैं जो आज के LLMs या VLMs के साथ आपको मुफ़्त में मिल रही हैं, इसलिए आपको representation की इन बहुत बुनियादी समस्याओं को हल करने की ज़रूरत नहीं है। इसलिए अब अलग-अलग domains में AI deploy करना ऐसा होगा जैसे मौजूदा models के साथ self-driving car को किसी दूसरे शहर में deploy करना, और यह मुश्किल तो है, लेकिन 10 साल का काम नहीं है।
Andrej Karpathy 01:48:07
मुझे इस पर 100% भरोसा नहीं है। अगर मैं इससे पूरी तरह सहमत हो जाऊँ। मुझे नहीं पता कि हमें मुफ़्त में कितना मिल रहा है। जो मिल रहा है, उसे समझने में अभी भी बहुत सारे gaps हैं। हम निश्चित रूप से एक single being से ज़्यादा generalizable intelligence पा रहे हैं। जबकि self-driving एक बहुत special-purpose task है। एक अर्थ में, special-purpose task बनाना शायद कहीं ज़्यादा कठिन है। क्योंकि वह उस ज़्यादा general चीज़ से नहीं निकल रहा जो scale पर हो रही है, अगर यह समझ में आता हो।
लेकिन analogy अभी भी पूरी तरह resonate नहीं करती। क्योंकि LLMs अभी भी काफ़ी error-prone हैं और उनमें भरने के लिए बहुत सारे gaps हैं। मुझे नहीं लगता कि हमें box के बाहर से पूरी तरह magical generalization मिल रही है, कम-से-कम कुछ अर्थों में।
एक और पहलू जिस पर मैं लौटना चाहता था, वह यह है कि self-driving cars अभी भी finish होने के करीब भी नहीं हैं। deployments अभी काफ़ी minimal हैं। Waymo के पास भी बहुत कम cars हैं। मोटे तौर पर कहें तो वे ऐसा इसलिए कर रहे हैं क्योंकि यह economic नहीं है। उन्होंने कुछ ऐसा बनाया है जो भविष्य में रहता है। उन्हें भविष्य को खींचकर लाना पड़ा, लेकिन उसे uneconomic तरीके से बनाना पड़ा। सिर्फ़ उन cars और उनके operations और maintenance की marginal cost ही नहीं, बल्कि पूरे capital expenditure समेत ऐसे सारे costs हैं। इसे economic बनाना अभी भी उनके लिए कड़ी मेहनत होगी।
साथ ही, जब आप इन cars को देखते हैं तो कोई चला नहीं रहा होता, लेकिन मुझे सच में लगता है कि यह थोड़ा misleading है। क्योंकि इन cars के साथ किसी-न-किसी रूप में loop में humans के बहुत sophisticated remote operation centers होते हैं। मेरे पास पूरी range नहीं है, लेकिन आपकी अपेक्षा से ज़्यादा human-in-the-loop है। कहीं लोग बैठे हैं जो आसमान से beam होकर इसमें आ रहे हैं। मुझे नहीं पता कि वे driving में पूरी तरह loop में होते हैं या नहीं। कभी-कभी होते हैं, लेकिन वे निश्चित रूप से involved हैं और वहाँ लोग हैं। एक अर्थ में, हमने वास्तव में इंसान को हटाया नहीं है, हमने बस उन्हें कहीं ऐसी जगह भेज दिया है जहाँ आप उन्हें देख नहीं सकते।
मुझे अभी भी लगता है कि self-driving को सचमुच वास्तविक बनाने के लिए कुछ काम बाकी है। लेकिन जैसा आपने कहा, environment से environment जाने वाली बात पर मैं सहमत हूँ। self-driving को वास्तव में वास्तविक बनाने में अभी भी चुनौतियाँ हैं। लेकिन मैं सहमत हूँ कि उसने निश्चित रूप से वह threshold पार कर लिया है जहाँ वह वास्तविक जैसा महसूस होता है, जब तक कि वह वास्तव में remote-operated न हो। उदाहरण के लिए, Waymo शहर के हर हिस्से में नहीं जा सकता। मेरा अंदाज़ा है कि वे शहर के वही हिस्से हैं जहाँ उसे अच्छा signal नहीं मिलता। खैर, मुझे stack के बारे में कुछ नहीं पता। मैं बस अनुमान लगा रहा हूँ।
Dwarkesh Patel 01:50:23
आपने Tesla में 5 साल तक self-driving को lead किया था।
Andrej Karpathy 01:50:27
माफ़ कीजिए, मुझे Waymo के details के बारे में कुछ नहीं पता। वैसे, मुझे Waymo बहुत पसंद है और मैं हमेशा उसमें सफ़र करता हूँ। मुझे बस लगता है कि लोग कभी-कभी progress को लेकर थोड़ा ज़्यादा naive हो जाते हैं, और अभी भी बहुत बड़ी मात्रा में काम बाकी है। मेरे हिसाब से Tesla ने कहीं ज़्यादा scalable approach अपनाई, और team बेहद अच्छा काम कर रही है। मैं इस बारे में predictions के रिकॉर्ड पर हूँ कि यह कैसे आगे बढ़ेगा। Waymo को शुरुआती बढ़त इसलिए मिली क्योंकि वह बहुत सारे sensors को package कर सका। लेकिन मुझे लगता है कि Tesla ज़्यादा scalable strategy अपना रहा है और अंततः यह उससे कहीं ज़्यादा मिलता-जुलता दिखेगा। इसलिए यह अभी भी unfold होना बाकी है, और हुआ नहीं है। लेकिन मैं self-driving को ऐसी चीज़ की तरह नहीं बताना चाहता जिसे 10 साल लगे, क्योंकि अभी तक लगे ही नहीं हैं, अगर यह समझ में आता हो।
Dwarkesh Patel 01:51:08
क्योंकि पहली बात, इसकी शुरुआत 1980 में हुई थी, 10 साल पहले नहीं, और फिर दूसरी बात, इसका अंत अभी तक आया ही नहीं है।
Andrej Karpathy 01:51:14
अंत अभी करीब भी नहीं है। क्योंकि जब हम self-driving की बात करते हैं, तो आम तौर पर मेरे हिसाब से उसका मतलब scale पर self-driving होता है। कि लोगों को driving license लेने की ज़रूरत ही न पड़े, वगैरह।
Dwarkesh Patel 01:51:22
मैं एक अलग उपमा देने के दो तरीके सुझाना चाहता हूँ। यह सवाल खास तौर पर इसलिए दिलचस्प है क्योंकि AI कितनी तेज़ी से deploy होता है, और शुरुआती दौर में वह कितना मूल्यवान है, यह शायद आज की दुनिया के सबसे महत्वपूर्ण सवालों में से एक है। अगर आप यह मॉडल करने की कोशिश कर रहे हैं कि 2030 कैसा दिखेगा, तो यह ऐसा सवाल है जिसे आपको कुछ हद तक समझना होगा।
एक और बात जो आप सोच सकते हैं, वह यह है कि पहली बात, self-driving में latency की requirements होती हैं। मुझे बिल्कुल नहीं पता कि असली models क्या हैं, लेकिन मान लीजिए वे tens of millions of parameters जैसी किसी चीज़ के हैं। यह वह constraint नहीं है जो LLM का उपयोग करने वाले knowledge work के लिए ज़रूरी हो। हालांकि computer use और ऐसी चीज़ों के साथ ऐसा हो सकता है।
लेकिन दूसरी बड़ी बात, और शायद ज़्यादा महत्वपूर्ण, यह capital expenditure वाला सवाल है। हाँ, model की एक अतिरिक्त copy उपलब्ध कराने की कुछ अतिरिक्त लागत होती है, लेकिन एक session चलाने की operating cost काफ़ी कम होती है, और inference scaling कैसे आगे बढ़ती है वगैरह के आधार पर आप AI की लागत को training run पर amortize कर सकते हैं। लेकिन यह निश्चित रूप से वैसा नहीं है जैसे model का एक और instance उपलब्ध कराने के लिए पूरी तरह नई car बनानी पड़े। इसलिए व्यापक deployment की economics कहीं ज़्यादा अनुकूल है।
Andrej Karpathy 01:52:37
मुझे लगता है यह सही है। अगर आप bits की दुनिया में ही रहते हैं, तो bits, physical world को छूने की तुलना में दस लाख गुना आसान हैं। मैं यह बात निश्चित रूप से मानता हूँ। Bits पूरी तरह बदलने योग्य हैं, और उन्हें बहुत तेज़ी से मनमाने ढंग से दोबारा व्यवस्थित किया जा सकता है। Industry में भी मैं कहीं तेज़ adaptation की उम्मीद करूँगा। पहली बात क्या थी?
Dwarkesh Patel 01:52:59
Latency requirements और model size पर उसके implications?
Andrej Karpathy 01:53:02
मुझे लगता है मोटे तौर पर यह सही है। साथ ही, अगर आप scale पर knowledge work की बात कर रहे हैं, तो व्यावहारिक रूप से मुझे लगता है कि कुछ latency requirements होंगी। क्योंकि आपको बहुत बड़ी मात्रा में compute बनाना होगा और उसे उपलब्ध कराना होगा।
आख़िरी पहलू जिसके बारे में मैं बहुत संक्षेप में बात करना चाहता हूँ, वह है बाकी सब कुछ। समाज इसके बारे में क्या सोचता है? कानूनी प्रभाव क्या हैं? यह कानूनी तौर पर कैसे काम करता है? Insurance के लिहाज़ से यह कैसे काम करता है? इसकी वे परतें और पहलू क्या हैं? Waymo पर cone रख देने वाले लोगों के equivalent क्या होंगे? इन सब चीज़ों के equivalent होंगे। इसलिए मुझे लगता है कि self-driving एक बहुत अच्छी उपमा है जिससे आप बहुत सी बातें उधार ले सकते हैं। Car के ऊपर रखे cone का equivalent क्या है? छिपे हुए remote teleoperation worker का equivalent क्या है, और उसके सारे पहलू क्या हैं?
Dwarkesh Patel 01:53:53
अभी AI buildout को लेकर आपकी क्या राय है? अगले 1 या 2 साल में हम दुनिया में उपलब्ध compute को 10 गुना बढ़ाने वाले हैं, और दशक के अंत तक 100 गुना से भी ज़्यादा। अगर AI का उपयोग कुछ लोगों की भोली भविष्यवाणियों से कम रहने वाला है, तो क्या इसका मतलब है कि हम compute का overbuild कर रहे हैं, या यह अलग सवाल है?
Andrej Karpathy 01:54:15
कुछ वैसा जैसा railroads में हुआ था।
Dwarkesh Patel 01:54:18
क्या कहा, माफ़ कीजिए?
Andrej Karpathy 01:54:19
क्या वह railroads था या?
Dwarkesh Patel 01:54:20
हाँ, वही था।
Andrej Karpathy 01:54:21
हाँ। इसका एक historical precedent है। या फिर वह telecom industry थी? Internet के वास्तव में आने से 10 साल पहले ही उसके लिए तैयारी कर लेना और 90s के आख़िर में telecom industry में पूरा bubble बना देना।
मैं समझता हूँ कि यहाँ मैं बहुत pessimistic लग रहा हूँ। मैं वास्तव में optimistic हूँ। मुझे लगता है कि यह काम करेगा। मुझे लगता है कि यह संभालने लायक है। मैं केवल इसलिए pessimistic लगता हूँ क्योंकि अगर आप मेरी Twitter timeline पर जाएँ, तो मुझे ये सारी चीज़ें दिखती हैं जो मुझे समझ में नहीं आतीं। इसके होने के कई कारण हैं। सच कहूँ तो उसका बहुत बड़ा हिस्सा सिर्फ funding है। Incentive structure है। बहुत कुछ funding हो सकता है। बहुत कुछ सिर्फ attention है, और internet पर attention को money में बदलना है, ऐसी चीज़ें। बहुत कुछ चल रहा है, और मैं बस उसी पर प्रतिक्रिया दे रहा हूँ।
लेकिन कुल मिलाकर मैं अभी भी technology को लेकर बहुत optimistic हूँ। हम ये सारी चीज़ें सुलझा लेंगे। बहुत तेज़ मात्रा में progress हुई है। मुझे नहीं पता कि overbuild है या नहीं। मेरी समझ से, जो बन रहा है, हम उसे absorb कर पाएँगे। उदाहरण के लिए, Claude Code या OpenAI Codex जैसी चीज़ें 1 साल पहले भी मौजूद नहीं थीं। सही है? यह चमत्कारी technology है जो पहले मौजूद नहीं थी। पहले से ही, जैसा कि आप ChatGPT वगैरह में देखते हैं, बहुत बड़ी मात्रा में demand होगी।
इसलिए मुझे नहीं पता कि overbuild है या नहीं। मैं बस उन बेहद तेज़ timelines में से कुछ पर प्रतिक्रिया दे रहा हूँ जिन्हें लोग बार-बार ग़लत बताते हैं। मैंने AI field में 15 साल काम किया है और बहुत सम्मानित लोगों को भी इस सवाल को बार-बार ग़लत समझते सुना है। मैं चाहता हूँ कि इसे ठीक तरह calibrate किया जाए, और इसका कुछ हिस्सा ऐसे सवालों के साथ geopolitical implications वगैरह भी रखता है। मैं नहीं चाहता कि लोग उस क्षेत्र की चीज़ों में ग़लतियाँ करें। मैं चाहता हूँ कि हम इस वास्तविकता पर आधारित रहें कि technology क्या है और क्या नहीं है।
01:56:20 - शिक्षा का भविष्य
Dwarkesh Patel 01:56:20
आइए शिक्षा और Eureka के बारे में बात करें। एक काम जो आप कर सकते हैं, वह है कोई दूसरा AI lab शुरू करना और फिर उन समस्याओं को हल करने की कोशिश करना। मैं जानना चाहता हूँ कि आप अभी क्या कर रहे हैं, और क्यों वह AI research खुद नहीं है।
Andrej Karpathy 01:56:33
मैं इसे जिस तरह कहता हूँ, वह यह है कि AI labs जो कर रही हैं, उसके बारे में मुझे कुछ हद तक determinism महसूस होता है। मुझे लगता है कि मैं वहाँ मदद कर सकता हूँ, लेकिन मुझे यक़ीन नहीं कि मैं उसे uniquely बेहतर बना पाऊँगा। मेरा व्यक्तिगत बड़ा डर यह है कि इन चीज़ों का बहुत कुछ मानवता के पहलू पर हो, और मानवता ही इससे disempowered हो जाए। मुझे सिर्फ उन सभी Dyson spheres की परवाह नहीं है जो हम बनाएँगे और जिन्हें AI पूरी तरह autonomous तरीके से बनाएगा, बल्कि मुझे इस बात की भी परवाह है कि इंसानों के साथ क्या होता है। मैं चाहता हूँ कि भविष्य में इंसान अच्छा करें।
मुझे लगता है कि frontier lab में incremental improvements की तुलना में मैं वहाँ कहीं ज़्यादा uniquely value add कर सकता हूँ। मुझे सबसे ज़्यादा डर किसी ऐसी चीज़ से लगता है जैसी फ़िल्मों WALL-E या Idiocracy में दिखाई गई है। जहाँ मानवता इन चीज़ों के किनारे पर रह जाती है। मैं चाहता हूँ कि इस भविष्य में इंसान बहुत, बहुत बेहतर हों। मेरे लिए, यह शिक्षा के ज़रिए हासिल किया जा सकता है।
Dwarkesh Patel 01:57:35
तो आप वहाँ क्या कर रहे हैं?
Andrej Karpathy 01:57:36
इसे समझाने का सबसे आसान तरीका यह है कि हम Starfleet Academy बनाने की कोशिश कर रहे हैं। मुझे नहीं पता आपने Star Trek देखा है या नहीं।
Dwarkesh Patel 01:57:44
नहीं देखा।
Andrej Karpathy 01:57:44
Starfleet Academy एक elite institution है frontier technology, spaceships बनाने, और उन cadets को graduate करने के लिए जो इन spaceships के pilots बनेंगे, वगैरह। इसलिए मैं बस technical knowledge के लिए एक elite institution की कल्पना करता हूँ, एक तरह का school जो बहुत up-to-date और सर्वश्रेष्ठ हो।
Dwarkesh Patel 01:58:05
मेरे पास आपके लिए सवालों की जो category है, वह यह समझाने की है कि technical या scientific content को अच्छी तरह कैसे सिखाया जाए। क्योंकि आप उस दुनिया के masters में से एक हैं। मैं यह भी जानना चाहता हूँ कि आपने पहले से YouTube पर जो content डाला है, उसके बारे में आप क्या सोचते हैं, और Eureka के बारे में भी, अगर वह अलग है तो कैसे।
Andrej Karpathy 01:58:25
Eureka के बारे में, शिक्षा को लेकर एक बात जो मुझे बहुत fascinate करती है, वह यह है कि मुझे लगता है AI के साथ-साथ रहने पर शिक्षा काफ़ी बुनियादी रूप से बदल जाएगी। किसी हद तक उसे फिर से rewired और बदला जाना होगा।
मुझे अब भी लगता है कि हम काफ़ी शुरुआती चरण में हैं। बहुत से लोग होंगे जिनके पास LLM होगा और वे उससे वे साफ़-साफ़ चीज़ें करवाने की कोशिश करेंगे जो आप उससे पूछ सकते हैं। अभी prompting के ज़रिए जो भी बुनियादी चीज़ें की जा सकती हैं, वे कीजिए। यह मददगार है, लेकिन मुझे अब भी यह थोड़ा sloppy लगता है। मैं इसे ठीक से करना चाहता हूँ, और मुझे नहीं लगता कि इसकी capabilities उस स्तर पर हैं जो मैं चाहता हूँ। मैं जो चाहता हूँ, वह एक वास्तविक tutor experience है।
मेरे दिमाग में सबसे प्रमुख उदाहरण यह है कि मैं हाल ही में Korean सीख रहा था। यानी language learning। मैंने वह चरण पार किया जब मैं इंटरनेट पर अपने दम पर Korean सीख रहा था। फिर मैं उस चरण में गया जहाँ मैं Korea में Korean सुनने वाले कुछ और लोगों के साथ एक छोटी class का हिस्सा था, और वह सचमुच मज़ेदार था। हम teacher के साथ लगभग 10 लोग Korean सुन रहे थे। उसके बाद मैं one-on-one tutor पर आ गया।
जो बात मुझे बेहद आकर्षक लगी, वह यह थी कि मुझे लगता है मेरे पास सचमुच एक बहुत अच्छी tutor थी, और मैं बस यह सोचता रहा कि यह tutor मेरे लिए क्या कर रही थी, वह experience कितना अद्भुत था, और मैं जो अंततः बनाना चाहता हूँ उसके लिए मेरा standard कितना ऊँचा है। बहुत ही छोटी-सी बातचीत से, उसने तुरंत समझ लिया कि मैं student के रूप में कहाँ हूँ, मैं क्या जानता हूँ और क्या नहीं जानता। वह ठीक-ठीक यह परख सकती थी कि मेरे world model को समझने के लिए किस तरह के सवाल या चीज़ों की पड़ताल करनी है। अभी कोई भी LLM आपके लिए यह 100% नहीं करेगा, आसपास भी नहीं। लेकिन tutor, अगर वे अच्छे हों, तो यह करते हैं। एक बार समझ लेने के बाद, उसने सचमुच मेरी current capability के टुकड़े से मुझे वह सब दिया जिसकी मुझे ज़रूरत थी। आपको हमेशा ठीक स्तर की चुनौती मिलनी चाहिए। आप ऐसी किसी चीज़ का सामना नहीं कर सकते जो बहुत कठिन हो या बहुत trivial हो, और tutor आपको बिल्कुल सही चीज़ देने में सचमुच माहिर होते हैं।
मुझे लगा कि सीखने की एकमात्र सीमा मैं खुद हूँ। मुझे हमेशा perfect information दी जा रही थी। मैं ही एकमात्र limiting factor हूँ। यह अच्छा लगा। क्योंकि इसका मतलब है कि रास्ते में एकमात्र बाधा मैं ही हूँ। ऐसा नहीं कि ज्ञान मिल नहीं सकता, या उसे ठीक से समझाया नहीं गया, वगैरह। बस मेरी याद रखने की क्षमता और ऐसी बातें। यही मैं लोगों के लिए चाहता हूँ।
Dwarkesh Patel 02:00:27
आप इसे automate कैसे करते हैं?
Andrej Karpathy 02:00:29
बहुत अच्छा सवाल है। मौजूदा capabilities के साथ, आप नहीं करते। यही वजह है कि मुझे लगता है कि इस तरह का AI tutor बनाना अभी वास्तव में सही समय नहीं है। मुझे अब भी लगता है कि यह एक उपयोगी product है, और बहुत से लोग इसे बनाएँगे, लेकिन standard बहुत ऊँचा है और capabilities वहाँ नहीं हैं। आज भी, मैं कहूँगा कि ChatGPT एक बेहद valuable educational product है। लेकिन मेरे लिए, उसके साथ रहते हुए यह देखना कि standard कितना ऊँचा है, बेहद आकर्षक था। मुझे लगभग ऐसा लगा जैसे इसे बनाने का कोई तरीका ही नहीं है।
Dwarkesh Patel 02:01:02
लेकिन आप इसे बना रहे हैं, सही?
Andrej Karpathy 02:01:03
जिसके पास भी सचमुच एक अच्छा tutor रहा है, वह सोचता है, “मैं इसे कैसे बनाऊँ?” मैं उस capability का इंतज़ार कर रहा हूँ।
मैंने computer vision पर AI consulting की है। बहुत-से मामलों में, मैं companies के लिए जो value लेकर आया, वह यह था कि मैंने उनसे कहा कि AI का इस्तेमाल मत कीजिए। मैं AI expert था, उन्होंने समस्या समझाई, और मैंने कहा, “AI का इस्तेमाल मत कीजिए।” यही मेरी value add थी। शिक्षा में भी अभी मुझे वैसा ही लगता है। जो चीज़ मेरे दिमाग में है, उसके लिए अभी समय नहीं आया है, लेकिन समय आएगा। फिलहाल, मैं कुछ ऐसा बना रहा हूँ जो थोड़ा ज़्यादा पारंपरिक दिखता है, जिसमें physical और digital components वगैरह हैं। लेकिन भविष्य में यह कैसा दिखना चाहिए, यह साफ़ है।
Dwarkesh Patel 02:01:43
जितना आप बताना चाहें, क्या यह कुछ ऐसा है जिसे आप इस साल या अगले साल release करने की उम्मीद कर रहे हैं?
Andrej Karpathy 02:01:49
मैं पहला course बना रहा हूँ। मैं एक बहुत, बहुत अच्छा course बनाना चाहता हूँ। इस मामले में AI, यानी सीखने के लिए जाने लायक एक साफ़-साफ़ cutting-edge destination। चूँकि यह वह क्षेत्र है जिसे मैं जानता हूँ, इसलिए वहाँ सचमुच अच्छा करने के लिए यह एक बहुत अच्छा पहला product है। तो मैं यही बना रहा हूँ। आपने जिस Nanochat का संक्षेप में ज़िक्र किया, वह उस class का capstone project है जिसे मैं बना रहा हूँ, LLM101N। यह उसका एक बहुत बड़ा हिस्सा है। लेकिन अब मुझे बहुत-से intermediate steps बनाने हैं, फिर TAs की एक छोटी team hire करनी है और पूरा course बनाना है।
एक और बात जो मैं कहना चाहता हूँ, वह यह है कि बहुत-से मामलों में, जब लोग education के बारे में सोचते हैं, तो वे ज़्यादा उस चीज़ के बारे में सोचते हैं जिसे मैं ज्ञान फैलाने वाला एक softer component कहूँगा। मेरे दिमाग में कुछ बहुत कठिन और technical है। मेरे विचार में, education ज्ञान तक पहुँचने के लिए एक ramp बनाने की बहुत कठिन technical process है। मेरे हिसाब से, nanochat ज्ञान का एक ramp है। क्योंकि यह बहुत simple है। यह पूरे stack का पूरी तरह simplified version है। अगर आप यह artifact किसी को दें और वह इसे देखे, तो वह बहुत बड़ी मात्रा में चीज़ें सीख रहा होता है। यह बहुत-सी ऐसी चीज़ें देता है जिन्हें मैं eureka per second कहता हूँ, यानी understanding per second। यही मैं चाहता हूँ, बहुत-से eureka per second। तो मेरे लिए, यह एक technical problem है कि हम इस ramp को बहुत efficiently कैसे बनाएँ। ताकि लोग कभी अटकें नहीं, और हर चीज़ हमेशा न तो बहुत कठिन हो और न बहुत trivial, और उनके पास आगे बढ़ने के लिए हमेशा बिल्कुल सही material हो।
Dwarkesh Patel 02:03:25
तो short term में आप जो कल्पना कर रहे हैं, वह यह है कि tutor आपकी understanding को probe कर सके, इसकी बजाय अगर आपके पास खुद को probe करने लायक पर्याप्त self-awareness हो, तो आप कभी अटकेंगे नहीं। TA से बात करने, LLM से बात करने, और reference implementation देखने के बीच, आप सही जवाब ढूँढ सकते हैं। अभी तक automation या AI यहाँ मुख्य हिस्सा नहीं लगते। अभी तक, यहाँ बड़ा alpha यह है कि AI को explain करने की आपकी क्षमता, जो class के source material के रूप में codify हुई है। मूल रूप से course वही है।
Andrej Karpathy 02:04:00
आपको हमेशा industry में मौजूद capabilities के हिसाब से खुद को adjust करना पड़ता है। बहुत-से लोग बस ChatGPT से पूछने जैसी चीज़ों के पीछे जाएँगे। लेकिन अभी, उदाहरण के लिए, अगर आप ChatGPT के पास जाएँ और उससे कहें कि वह आपको AI सिखाए, तो कोई तरीका नहीं है। वह आपको slop देगा। AI अभी nanochat कभी नहीं लिखेगा। लेकिन nanochat एक सचमुच उपयोगी intermediate point है। मैं यह सारा material बनाने के लिए AI के साथ collaborate कर रहा हूँ, इसलिए AI अब भी बुनियादी रूप से बहुत मददगार है।
मैंने पहले Stanford में CS231n बनाया था, जो मुझे लगता है Stanford की पहली deep learning class थी, और वह बहुत popular थी। उस समय 231n बनाने और अब LLM101N बनाने के बीच का अंतर काफ़ी stark है। मुझे लगता है कि LLMs, जैसा कि वे अभी मौजूद हैं, उनसे मुझे सचमुच power मिला है, लेकिन मैं बहुत ज़्यादा loop में हूँ। वे material बनाने में मदद करते हैं, और मैं बहुत तेज़ी से आगे बढ़ता हूँ। वे बहुत-सी tedious चीज़ें कर रहे हैं, वगैरह। मुझे लगता है कि मैं course बहुत तेज़ी से develop कर रहा हूँ, और इसमें LLM का infusion है, लेकिन यह अभी वहाँ नहीं पहुँचा है जहाँ वह creative तरीके से content बना सके। उसके लिए अब भी मुझे वहाँ होना पड़ता है। मुश्किल हिस्सा हमेशा यह है कि जो मौजूद है, उसके साथ खुद को align करना।
Dwarkesh Patel 02:05:04
जब आप कल्पना करते हैं कि कुछ वर्षों बाद Eureka के ज़रिए क्या उपलब्ध हो सकता है, तो बड़ा bottleneck यह लगता है कि हर field में ऐसे Karpathy ढूँढना, जो अपनी understanding को इस तरह के ramps में बदल सकें।
Andrej Karpathy 02:05:18
समय के साथ यह बदलेगा। अभी, यह AI और लोगों की teams के साथ मिलकर काम करने के लिए faculty hire करने जैसा होगा। शायद cutting-edge courses बनाने के लिए। समय के साथ, शायद कुछ TAs AI हो सकते हैं। मुझे लगता है कि आप course की सारी material ले सकते हैं और फिर student के लिए एक बहुत अच्छा automated TA दे सकते हैं। खासकर जब उनके पास ज़्यादा बुनियादी सवाल हों या ऐसी कोई स्थिति हो। लेकिन course की overall architecture के लिए, और यह सुनिश्चित करने के लिए कि वह सही है, मुझे लगता है कि faculty की ज़रूरत होगी। तो मैं देखता हूँ कि यह कैसे evolve हो सकता है। शायद भविष्य में किसी बिंदु पर मैं उतना उपयोगी न रहूँ और AI ज़्यादातर design मुझसे कहीं बेहतर कर रहा हो। लेकिन फिर भी मुझे लगता है कि वहाँ तक पहुँचने में समय लगेगा।
Dwarkesh Patel 02:05:59
क्या आप ऐसे लोगों की कल्पना कर रहे हैं जिनके पास अन्य क्षेत्रों में विशेषज्ञता है और वे कोर्स में योगदान दें, या फिर आपको लगता है कि आपकी यह समझ कि आप कैसे पढ़ाना चाहते हैं, उसके मद्देनज़र कंटेंट डिज़ाइन करने वाला व्यक्ति आपके विज़न के लिए बेहद ज़रूरी होना चाहिए? जैसे Sal Khan Khan Academy के सभी वीडियो खुद narrate करते हैं। क्या आप कुछ ऐसा सोच रहे हैं?
Andrej Karpathy 02:06:20
नहीं, मैं faculty hire करूँगा। क्योंकि कुछ domains ऐसे हैं जिनमें मैं expert नहीं हूँ। आखिरकार छात्रों के लिए state-of-the-art अनुभव देने का यही एकमात्र तरीका है। मुझे उम्मीद है कि मैं faculty hire करूँगा, लेकिन मैं शायद कुछ समय तक AI में ही रहूँगा। मौजूदा क्षमताओं के लिए मैं शायद लोगों की अपेक्षा से अधिक पारंपरिक चीज़ सोच रहा हूँ।
जब मैं Starfleet Academy बनाने की बात करता हूँ, तो मैं शायद एक physical institution की कल्पना करता हूँ, और उसके नीचे एक layer के रूप में digital offering की। वह उस state-of-the-art अनुभव जैसा नहीं है जो तब मिलेगा जब कोई व्यक्ति physically full-time आए और हम शुरू से अंत तक material पर काम करें और यह सुनिश्चित करें कि आप समझ रहे हैं। वह physical offering है। digital offering इंटरनेट की बहुत-सी चीज़ें और शायद कोई LLM assistant है। वह थोड़ा अधिक gimmicky है और उसके नीचे की layer है, लेकिन कम-से-कम 8 अरब लोगों के लिए सुलभ है।
Dwarkesh Patel 02:07:08
मूल रूप से आप आज उपलब्ध tools के लिए first principles से एक university फिर से invent कर रहे हैं, और ऐसे लोगों को चुन रहे हैं जिनके पास material के साथ सचमुच जुड़ने की motivation और interest हो।
Andrej Karpathy 02:07:26
सिर्फ education नहीं, बहुत-सा re-education भी होना होगा। मैं उसमें मदद करना चाहता हूँ। क्योंकि jobs शायद काफ़ी बदलने वाली हैं। उदाहरण के लिए, आज बहुत-से लोग खासकर AI में upskill करने की कोशिश कर रहे हैं। मुझे लगता है कि यह इससे जुड़ा पढ़ाने के लिए वाकई एक बहुत अच्छा course है। motivation के लिहाज़ से, pre-AGI motivation हल करना बहुत आसान है। क्योंकि लोग पैसा कमाना चाहते हैं। आज industry में पैसा कमाने का यही तरीका है। post-AGI कहीं अधिक दिलचस्प हो सकता है। क्योंकि अगर सब कुछ automate हो जाए और किसी के पास कोई काम ही न रहे, तो कोई school क्यों जाएगा?
मैं अक्सर कहता हूँ कि pre-AGI education उपयोगी है। post-AGI education मज़ेदार है। कुछ-कुछ उसी तरह जैसे आज लोग gym जाते हैं। हमें भारी वस्तुओं को हिलाने-डुलाने के लिए उनकी physical strength की ज़रूरत नहीं है। क्योंकि हमारे पास वह करने वाली machines हैं। फिर भी वे gym जाते हैं। लोग gym क्यों जाते हैं? क्योंकि यह मज़ेदार है, healthy है, और abs होने पर आप अच्छे दिखते हैं। यह करना लोगों को आकर्षक लगता है। बहुत गहरे, psychological, evolutionary अर्थ में मानवता के लिए। education भी इसी तरह विकसित होगी। लोग school वैसे ही जाएँगे जैसे gym जाते हैं।
अभी, बहुत-से लोग सीखते नहीं हैं। क्योंकि सीखना कठिन है। वे material से bounce हो जाते हैं। कुछ लोग उस barrier को पार कर लेते हैं, लेकिन ज़्यादातर लोगों के लिए यह कठिन है। यह एक technical problem है जिसे solve किया जा सकता है। जब मैं Korean सीख रहा था, तब मेरे tutor ने मेरे लिए जो किया, वह एक ऐसी technical problem है जिसे solve किया जा सकता है। वह संभालने योग्य है, बनाया जा सकता है, और किसी को उसे बनाना चाहिए। वह किसी भी चीज़ को सीखना trivial और desirable बना देगा, और लोग उसे मज़े के लिए करेंगे। क्योंकि वह trivial होगा। अगर आपके पास knowledge के किसी भी टुकड़े के लिए ऐसा tutor हो, तो कुछ भी सीखना बहुत आसान हो जाएगा, और लोग ऐसा करेंगे। वे इसे उसी वजह से करेंगे जिस वजह से लोग gym जाते हैं।
Dwarkesh Patel 02:09:17
यह अलग सुनाई देता है... तो post-AGI में, आप इसे entertainment या self-improvement के लिए इस्तेमाल कर रहे हैं। लेकिन ऐसा भी लगा कि आपके पास एक ऐसा विज़न है जिसमें यह education मानवता को AI पर नियंत्रण बनाए रखने से भी जुड़ी है। यह अलग सुनाई देता है। कुछ लोगों के लिए यह entertainment है, लेकिन दूसरों के लिए empowerment? आप इसे कैसे देखते हैं?
Andrej Karpathy 02:09:41
अगर यह समझ में आता हो तो मुझे लगता है कि वह आखिरकार थोड़ा losing game है। long term में, हाँ। शायद उस long term में जो industry के ज़्यादातर लोग सोचते हैं उससे भी अधिक लंबा है, यह losing game है। लोगों को लगता है कि हम इतनी दूर तक जा सकते हैं, लेकिन हम इंसान कितनी दूर जा सकता है उसकी सतह भी मुश्किल से खरोंच पाए हैं। ऐसा सिर्फ इसलिए है क्योंकि लोग बहुत आसान या बहुत कठिन material से bounce हो जाते हैं। लोग इससे बहुत आगे जा सकते हैं। हर कोई पाँच भाषाएँ बोलेगा। क्योंकि क्यों नहीं? यह बहुत trivial होगा। हर कोई undergraduate का पूरा basic curriculum जानता होगा, वगैरह।
Dwarkesh Patel 02:10:18
अब मैं विज़न समझ रहा हूँ, और यह बहुत दिलचस्प है। gym culture के साथ यह एकदम सही analogy है। मुझे नहीं लगता कि 100 साल पहले लगभग कोई भी muscular रहा होगा। लगभग कोई भी अपनी मर्ज़ी से दो या तीन plates के साथ bench press नहीं कर पाता होगा। अब यह बेहद आम है, क्योंकि systematically train करने और gym में weightlifting करने, या marathon दौड़ने के लिए systematically train करने का यह idea है। यह ऐसी क्षमता है जो ज़्यादातर इंसानों में स्वाभाविक रूप से नहीं होती। आप learning के लिए भी कई अलग-अलग domains में ऐसी ही चीज़ों की कल्पना कर रहे हैं—कहीं अधिक intensive, गहराई से, और तेज़ी से।
Andrej Karpathy 02:10:54
बिलकुल। मैं कुछ हद तक मानव स्वभाव की स्थायित्व पर दाँव लगा रहा हूँ। मुझे लगता है कि ये सारी चीज़ें करना desirable रहेगा, और लोग इन्हें वैसे ही admire करेंगे जैसे वे हज़ारों साल से करते आए हैं। यह सच बना रहेगा। इतिहास में इसके कुछ प्रमाण भी हैं। उदाहरण के लिए, अगर आप aristocrats को देखें, या प्राचीन Greece को देखें, या ऐसी चीज़ों को, तो जब भी हमारे पास छोटे pockets जैसे वातावरण रहे हैं जो एक अर्थ में post-AGI थे, लोगों ने शारीरिक और संज्ञानात्मक रूप से कुछ खास तरीकों से flourishing में बहुत समय बिताया। मुझे इसकी संभावना को लेकर ठीक महसूस होता है।
अगर यह गलत निकला और मैं गलत हुआ और हम Wall-E या Idiocracy जैसे future में पहुँचे, तो मुझे Dyson spheres हैं या नहीं, इसकी भी परवाह नहीं होगी। यह एक भयानक परिणाम है। मैं सचमुच मानवता की परवाह करता हूँ। एक अर्थ में हर किसी को superhuman होना चाहिए।
Dwarkesh Patel 02:11:52
फिर भी वह... वह मूल रूप से वही है जो हम... culture world जैसा कुछ कहें, सही? आप मूल रूप से ऐसी दुनिया की बात कर रहे हैं जहाँ आप technology की trajectory को transform नहीं कर सकते, या सिर्फ अपने labor या cognition से decisions को प्रभावित नहीं कर सकते। शायद आप decisions को इसलिए प्रभावित कर सकें क्योंकि AI आपकी approval माँगे, लेकिन मैं सचमुच भविष्य को इसलिए प्रभावित नहीं कर रहा कि मैंने कुछ invent किया या कोई नया design सोचा।
Andrej Karpathy 02:12:21
शायद। मुझे लगता है कि एक transition period होगा जिसमें अगर हम बहुत-सी चीज़ें समझते हों तो हम loop में रहेंगे और चीज़ों को आगे बढ़ा सकेंगे। long term में, यह शायद गायब हो जाएगा। cognitive era में powerlifting जैसा कुछ sport बन सकता है। शायद कुछ लोग चरम पर जाकर सचमुच चीज़ों को जानने का Olympics बनाने की कोशिश करें। अगर आपके पास perfect AI tutor हो, तो आप शायद बेहद दूर तक जा सकते हैं। मुझे लगता है कि आज के geniuses भी इंसानी दिमाग़ क्या कर सकता है, उसकी सतह को मुश्किल से ही छू रहे हैं।
Dwarkesh Patel 02:12:59
मुझे यह विज़न बहुत पसंद है। और मुझे यह भी लगता है कि product-market fit के लिहाज़ से मैं शायद आपका सबसे सही व्यक्ति हूँ। क्योंकि मेरे काम में हर हफ़्ते अलग-अलग topics सीखना शामिल है, और मैं इसे लेकर बहुत उत्साहित हूँ।
Andrej Karpathy 02:13:17
मैं भी कुछ ऐसा ही हूँ। बहुत-से लोग, उदाहरण के लिए, school से नफ़रत करते हैं और वहाँ से निकलना चाहते हैं। मुझे school सचमुच बहुत पसंद था। मुझे चीज़ें सीखना बहुत अच्छा लगता था, वगैरह। मैं school में ही रहना चाहता था। मैं PhD तक वहीं रहा, और फिर उन्होंने मुझे और रुकने नहीं दिया, तो मैं industry में चला गया। मोटे तौर पर कहूँ तो, मुझे सीखना पसंद है, अपने आप में सीखने के लिए भी, लेकिन मुझे सीखना इसलिए भी पसंद है क्योंकि यह empowerment का एक रूप है, और उपयोगी और productive है।
Dwarkesh Patel 02:13:39
आपने एक subtle point भी रखा, जिसे मैं spelling out करना चाहता हूँ। अब तक online courses के साथ जो हुआ है, उसमें ऐसा क्यों नहीं हुआ कि वे पहले ही हर एक इंसान को सब कुछ जानने लायक बना दें? वे बस motivation के लिहाज़ से बहुत demanding हैं। क्योंकि कोई साफ़ ramp नहीं है और फँस जाना बहुत आसान है। इसके बजाय, अगर आपके पास यह हो—कुछ सचमुच अच्छे human tutor जैसा—तो motivation के नज़रिए से यह एक बड़ा unlock होगा।
Andrej Karpathy 02:14:10
मुझे ऐसा लगता है। सामग्री से बाहर छिटक जाना बुरा लगता है। सच में बुरा लगता है। जब आपने किसी चीज़ में समय लगाया हो लेकिन उसका फल न मिले, या जो मिल रहा हो वह इतना आसान या इतना कठिन हो कि आप पूरी तरह बोर हो जाएँ, तो एक तरह का नकारात्मक reward मिलता है। जब आप इसे सही तरह से करते हैं, तो सीखना अच्छा लगता है। वहाँ तक पहुँचना एक तकनीकी समस्या है। कुछ समय तक यह AI प्लस मानव सहयोग होगा, और किसी बिंदु पर, शायद सिर्फ AI होगा।
Dwarkesh Patel 02:14:36
क्या मैं अच्छी तरह सिखाने के बारे में कुछ सवाल पूछ सकता हूँ? अगर आपको किसी दूसरे क्षेत्र के किसी शिक्षक को यह सलाह देनी हो कि वह वैसी ही YouTube tutorial बनाए जैसी आपने बनाई है। खास तौर पर ऐसे domain के बारे में बात करना दिलचस्प हो सकता है जहाँ आप किसी की technical understanding को उनसे code लिखवाकर या ऐसा कुछ करके test नहीं कर सकते। आप क्या सलाह देंगे?
Andrej Karpathy 02:14:58
यह काफ़ी व्यापक विषय है। शायद 10-20 tips और tricks होंगे जो मैं अर्ध-सचेत रूप से करता हूँ। लेकिन इसका बहुत बड़ा हिस्सा मेरे physics background से आता है। मैंने अपने physics background का सच में, बहुत ज़्यादा आनंद लिया। इस पर एक लंबी बात की जा सकती है कि शुरुआती स्कूली शिक्षा में हर किसी को physics क्यों पढ़नी चाहिए। क्योंकि शुरुआती स्कूली शिक्षा बाद में industry में काम आने वाले ज्ञान या याददाश्त को जमा करने के बारे में नहीं है। यह दिमाग को boot करने के बारे में है। और physics दिमाग को सबसे अच्छी तरह boot करती है। क्योंकि physics में जो कुछ आप दिमाग से करवाते हैं, उनमें से कुछ चीज़ें बाद में बेहद मूल्यवान होती हैं।
मॉडल और abstraction बनाने का विचार, और यह समझना कि किसी system को समझाने वाला एक first-order approximation होता है, लेकिन second-, third-, fourth-order terms भी हो सकते हैं या नहीं भी हो सकते। यह विचार कि आप एक बहुत noisy system को देख रहे हैं, लेकिन उसमें कुछ मूलभूत frequencies हैं जिन्हें abstract किया जा सकता है। जब कोई physicist क्लास में आकर कहता है, "मान लेते हैं कि एक spherical cow है," तो सब लोग उस पर हँसते हैं, लेकिन यह शानदार है। बहुत से तरीकों से आप गाय को गोले के रूप में approximate कर सकते हैं, इसलिए यह industry भर में बहुत सामान्यीकृत होने वाली बेहतरीन सोच है।
उदाहरण के लिए, एक बहुत अच्छी किताब है, Scale। यह biology के बारे में एक physicist द्वारा लिखी गई किताब है। शायद यह भी एक ऐसी किताब है जिसे मैं पढ़ने की सलाह दूँगा। आप जानवरों के बारे में बेहद दिलचस्प approximations पा सकते हैं और उनके scaling laws का chart बना सकते हैं। आप उनकी heart rate जैसी चीज़ों को देख सकते हैं, और वे जानवर के आकार वगैरह से मेल खाती हैं। आप जानवरों को volume के संदर्भ में समझ सकते हैं। आप उनके heat dissipation के बारे में बात कर सकते हैं। क्योंकि heat dissipation surface area के साथ बढ़ती है, यानी square के हिसाब से। लेकिन heat generation या emission cube के हिसाब से बढ़ती है। इसलिए मुझे बस ऐसा लगता है कि physicists के पास दुनिया में problem solving के लिए सही cognitive tools होते हैं।
उस training की वजह से, मैं हमेशा हर चीज़ में first-order term या second-order term ढूँढ़ने की कोशिश करता हूँ। जब मैं किसी system या चीज़ को देखता हूँ, तो मेरे दिमाग में ideas या knowledge के web का एक उलझा हुआ ताना-बाना होता है। मैं यह ढूँढ़ने की कोशिश करता हूँ कि महत्वपूर्ण क्या है। first-order component क्या है? मैं इसे कैसे simplify कर सकता हूँ? मैं सबसे सरल चीज़ कैसे ले सकता हूँ जो इसे दिखाए, उसे वास्तव में दिखाऊँ, और फिर उसके बाद दूसरे terms जोड़ूँ?
मुझे लगता है कि इसका अच्छा उदाहरण मेरी repositories में से एक है, जिसे micrograd कहा जाता है। पता नहीं आप इससे परिचित हैं या नहीं। micrograd 100 lines of code में backpropagation दिखाता है। आप addition और multiplication जैसे सरल operations से neural network बना सकते हैं। neural network के Lego blocks। आप computational graph बनाते हैं और forward pass व backward pass करते हैं ताकि gradients मिलें। अब, यही सभी neural network learning का core है।
तो micrograd, 100 lines का काफ़ी interpretable Python code है, और यह arbitrary neural networks के लिए forward और backward कर सकता है, लेकिन यह efficient नहीं है। इसलिए micrograd, Python की ये 100 lines, neural networks कैसे train होते हैं यह समझने के लिए ज़रूरी सब कुछ हैं। बाकी सब बस efficiency है। efficiency पाने के लिए बहुत भारी मात्रा में काम करना पड़ता है। आपको tensor चाहिए, batching, striding, kernels बनाना, memory movement को सही तरह orchestrate करना, वगैरह। मोटे तौर पर कहें तो यह सब बस efficiency है। लेकिन neural network training का मुख्य बौद्धिक टुकड़ा micrograd है। 100 lines। आसानी से समझा जा सकता है। यह gradients निकालने के लिए chain rule का recursive application है। यह आपको किसी भी differentiable function को optimize करने देता है।
इसलिए मुझे ऐसे छोटे-order terms ढूँढ़ना, उन्हें परोसना और खोज निकालना बहुत पसंद है। मुझे लगता है कि teaching सबसे बौद्धिक रूप से दिलचस्प चीज़ है। क्योंकि आपके पास understanding की यह उलझन होती है, और आप उसे इस तरह व्यवस्थित करने की कोशिश कर रहे होते हैं कि एक ramp बने जहाँ हर चीज़ सिर्फ उससे पहले वाली चीज़ पर निर्भर हो। knowledge की इस उलझन को सुलझाना, एक cognitive task के रूप में, मुझे बेहद बौद्धिक रूप से दिलचस्प लगता है। मुझे व्यक्तिगत रूप से यह करना बहुत पसंद है, लेकिन चीज़ों को एक खास तरीके से व्यवस्थित करने की कोशिश के प्रति भी एक fascination है। शायद वही मेरी मदद करता है।
Dwarkesh Patel 02:18:41
यह learning experience को काफ़ी ज़्यादा motivating भी बना देता है। transformers पर आपका tutorial bigram से शुरू होता है, जो literally एक lookup table है, "यहाँ अभी एक शब्द है, या यहाँ पिछला शब्द है, यहाँ अगला शब्द है।" यह सचमुच बस एक lookup table है।
Andrej Karpathy 02:18:58
हाँ, वही इसका सार है।
Dwarkesh Patel 02:18:59
lookup table से शुरू करके transformer तक जाना वाकई शानदार तरीका है। हर हिस्सा motivated लगता है। आप इसे क्यों जोड़ेंगे? अगली चीज़ क्यों जोड़ेंगे? आप attention formula को याद कर सकते हैं, लेकिन हर एक हिस्से की relevance, और वह कौन-सी समस्या हल कर रहा है, यह समझना अलग बात है।
Andrej Karpathy 02:19:13
समाधान पेश करने से पहले पीड़ा दिखाइए, और फिर देखिए कि वह कितना चतुर है। आप छात्र को उस progression से गुज़राना चाहते हैं। इसे अच्छा, आकर्षक और दिलचस्प बनाने वाली और भी बहुत-सी छोटी बातें हैं। मैं हमेशा छात्र को prompt देता हूँ।
और भी बहुत-सी छोटी लेकिन महत्वपूर्ण चीज़ें हैं जो अच्छे शिक्षक करेंगे। आप इसे कैसे हल करेंगे? मैं आपके अनुमान लगाने से पहले समाधान नहीं देने वाला। वह बेकार होगा। वह कुछ हद तक... मैं गाली नहीं देना चाहता, लेकिन आपको खुद कोशिश करने का मौका दिए बिना अगर मैं समाधान दे दूँ, तो यह आपके साथ बुरा व्यवहार है।
Dwarkesh Patel 02:19:51
क्योंकि जब आप खुद इसे सोचने की कोशिश करते हैं, तो आपको action space क्या है, goal क्या है, और फिर क्यों सिर्फ यही action उस goal को पूरा करता है—इसकी बेहतर समझ मिलती है।
Andrej Karpathy 02:20:03
आपके पास खुद कोशिश करने का मौका होता है, और जब मैं समाधान देता हूँ तो आप उसकी कद्र करते हैं। यह हर नई जोड़ी गई fact पर knowledge की मात्रा को maximize करता है।
Dwarkesh Patel 02:20:11
ऐसा क्यों है कि जो लोग अपने क्षेत्र के असली expert होते हैं, वे अक्सर उस चीज़ को सीख रहे किसी व्यक्ति को समझाने में खराब होते हैं?
Andrej Karpathy 02:20:24
expertise और curse of knowledge। यह एक वास्तविक phenomenon है, और मैं भी इससे उतना ही पीड़ित हूँ जितना इससे बचने की कोशिश करता हूँ। आप कुछ चीज़ों को obvious मान लेते हैं, और जो लोग अभी शुरुआत कर रहे हैं, उनके स्थान पर खुद को रख नहीं पाते। यह बहुत व्यापक है और मेरे साथ भी होता है।
एक चीज़ जो बहुत मददगार है। उदाहरण के लिए, हाल ही में कोई मुझे biology का एक paper दिखाना चाहता था, और मेरे मन में तुरंत बहुत सारे भयानक सवाल आ गए। मैंने जो किया, वह यह था कि ChatGPT का इस्तेमाल करके paper को context window में डाला और सवाल पूछे। उसने कुछ आसान चीज़ें clear कर दीं। फिर मैंने वह thread उस व्यक्ति के साथ share किया जिसने वह paper लिखा था या वह काम किया था। मुझे लगा कि अगर वे मेरे बेवकूफ़ी भरे सवाल देख सकें, तो इससे उन्हें भविष्य में चीज़ें बेहतर ढंग से समझाने में मदद मिल सकती है।
मेरी सामग्री के बारे में, अगर लोग मेरी बनाई चीज़ों पर ChatGPT के साथ अपनी बेवकूफ़ी भरी बातचीत share करें, तो मुझे सच में बहुत अच्छा लगेगा। क्योंकि उससे मुझे फिर से शुरुआती व्यक्ति की स्थिति में खुद को रखने में सच में मदद मिलती है।
Dwarkesh Patel 02:21:19
एक और ट्रिक है जो हैरान करने वाली तरह से बहुत अच्छी तरह काम करती है। जब कोई पेपर लिखता है, ब्लॉग पोस्ट लिखता है, या प्रेज़ेंटेशन देता है, तो लंच के समय वे उसे कैसे समझाएँगे, उसका वर्णन या ट्रांसक्रिप्ट न सिर्फ़ कहीं ज़्यादा समझने योग्य होता है, बल्कि वास्तव में ज़्यादा सटीक और वैज्ञानिक भी होता है। 100% मामलों में। मेरा मतलब है कि लोगों में चीज़ों को जितना संभव हो उतने अमूर्त, jargon से भरे तरीके से समझाने का एक झुकाव होता है, और वे मुख्य विचार समझाने से पहले चार पैराग्राफ तक भूमिका बाँधते रहते हैं। लेकिन जब आप किसी से one-on-one बात करते हैं, तो उसमें कुछ ऐसा होता है जो उन्हें बस वही कहने पर मजबूर करता है जो वे कहना चाहते हैं।
Andrej Karpathy 02:22:07
बस बोलिए। मैंने वह ट्वीट देखा था, और मुझे वह बहुत अच्छा लगा। मैंने उसे बहुत से लोगों के साथ साझा किया। मैंने यह बात बार-बार महसूस की है।
सबसे उल्लेखनीय उदाहरण मेरे PhD के दिनों का है, जब मैं research कर रहा था। आप किसी का पेपर पढ़ते हैं, और यह समझने की कोशिश करते हैं कि वह क्या कर रहा है। फिर बाद में conference में बीयर पीते हुए आप उनसे मिलते हैं, और पूछते हैं, "तो यह पेपर क्या कर रहा था? यह पेपर आखिर किस बारे में है?"
और वे बस तीन वाक्य बोलते हैं जो उस पेपर के सार को पूरी तरह पकड़ लेते हैं और आइडिया को पूरी तरह दे देते हैं। फिर आपको पेपर पढ़ने की ज़रूरत ही नहीं रहती। यह सिर्फ़ तब होता है जब आप बीयर वगैरह के साथ किसी टेबल पर बैठे होते हैं, और वे कहते हैं, "ओह हाँ, पेपर बस यह करता है—इस आइडिया को लेता है, उस आइडिया को लेता है, फिर यह experiment आज़माता है और यह भी ट्राय करता है।" वे उसे बातचीत के अंदाज़ में बिल्कुल सही तरह से रख देते हैं। फिर वह abstract ऐसा क्यों नहीं है?
Dwarkesh Patel 02:22:51
बिलकुल। यह इस नज़रिए से आता है कि जो कोई किसी आइडिया को समझाने की कोशिश कर रहा है, उसे उसे बेहतर तरीके से कैसे formulate करना चाहिए। एक छात्र के तौर पर, दूसरे छात्रों के लिए आपकी क्या सलाह है, अगर Karpathy जैसा कोई व्यक्ति वहाँ नहीं है जो आइडिया की व्याख्या कर दे? अगर आप किसी का पेपर पढ़ रहे हों या कोई किताब पढ़ रहे हों, तो अपने विशेषज्ञता-क्षेत्र के बाहर किसी रुचिकर विषय को सीखने के लिए आप कौन-सी रणनीतियाँ अपनाते हैं?
Andrej Karpathy 02:23:20
ईमानदारी से कहूँ तो मुझे नहीं पता कि मेरे पास कोई बहुत अनोखे tips और tricks हैं या नहीं। यह एक तकलीफ़देह प्रक्रिया है। एक चीज़ जो मेरे लिए हमेशा काफ़ी मददगार रही है—मैंने इस पर एक छोटा-सा ट्वीट किया था—वह यह है कि ज़रूरत के हिसाब से सीखना काफ़ी अच्छा है। depth-first learning। depth-first, need-based learning—जहाँ आप किसी ऐसे खास project को पूरा करने की कोशिश कर रहे होते हैं जिसके अंत में कुछ reward मिले—और breadth-first learning, यानी, "ओह, चलो कोई भी 101 करते हैं, और यहाँ वे सारी चीज़ें हैं जिनकी शायद आपको ज़रूरत पड़े," इनके बीच थोड़ा-बहुत अदला-बदली होना ज़रूरी है। बहुत-से स्कूल यही करते हैं—वे breadth-first learning करते हैं, जैसे, "ओह, भरोसा रखिए, आपको इसकी बाद में ज़रूरत पड़ेगी" वगैरह। ठीक है, मैं भरोसा कर लूँगा। ज़रूरत होगी तो सीख लूँगा। लेकिन मुझे वह तरह की learning पसंद है जिसमें कुछ करके reward मिलता है, और आप ज़रूरत के हिसाब से सीख रहे होते हैं।
एक और चीज़ जो मुझे बेहद मददगार लगी। यह शिक्षा का थोड़ा ज़्यादा परोपकारी पक्ष है, लेकिन लोगों को चीज़ें समझाना किसी चीज़ को और गहराई से सीखने का बेहद खूबसूरत तरीका है। मेरे साथ यह हमेशा होता है। शायद दूसरों के साथ भी होता होगा। क्योंकि अगर आप किसी चीज़ को सच में नहीं समझते, तो आपको एहसास होता है कि आप उसे समझा नहीं सकते। आप कोशिश करते हैं और कहते हैं, "ओह, मैं इसे समझता ही नहीं हूँ।" और उस सच्चाई का सामना करना बहुत झुंझलाहट भरा होता है। आप वापस जा सकते हैं और पक्का कर सकते हैं कि आपने समझ लिया है। आप समझ की इन खाइयों को भरते हैं। यह आपको उनका सामना करने पर मजबूर करता है। यह आपको उन्हें सुलझाने पर मजबूर करता है।
मुझे किसी चीज़ को फिर से समझाना पसंद है, और दूसरों को भी ऐसा करना चाहिए। क्योंकि तब आपको ज्ञान को manipulate करना पड़ता है, और समझाते समय आप क्या कह रहे हैं, यह सचमुच समझना पड़ता है।
Dwarkesh Patel 02:24:48
समापन के लिए यह बिल्कुल सही बात है। Andrej, यह शानदार रहा।
Andrej Karpathy 02:24:51
धन्यवाद।
1 टिप्पणियां
Hacker News राय
मेरे हिसाब से AI की प्रगति को 'जैसे 9 की मार्च' की तरह देखना महत्वपूर्ण है। हर अतिरिक्त 9% जोड़ने पर लगभग उतनी ही मेहनत लगती है। अगर आपने 90% वाला demo बना लिया है, तो अब दूसरा 9%, तीसरा 9% वगैरह जोड़ते जाना होता है। Tesla में 5 साल काम करते समय भी मैंने ऐसी दोहराव वाली प्रक्रिया कई बार देखी। अभी भी बहुत लंबा रास्ता बाकी है। AI की प्रगति अक्सर किसी तय benchmark पर क्षमता में घातीय बढ़त जैसी दिखती है, लेकिन अगले स्तर पर जाने की कठिनाई भी घातीय रूप से बढ़ती है, इसलिए लंबी अवधि में यह रैखिक सुधार जैसी लगती है
हाल में Rich Sutton का इंटरव्यू देखा तो लगा कि AGI सिर्फ अतिरिक्त 9% जोड़ते जाने की समस्या नहीं है। इंटरव्यू लेने वाले ने मान लिया था कि language understanding के लिए दुनिया का कोई model होना चाहिए, लेकिन Sutton ने उस मान्यता को तुरंत खारिज कर दिया। उस संशयवादी रवैये से सहमत हुआ जा सकता है
यह बात marathon वाली एक पुरानी कहावत याद दिलाती है। marathon दो हिस्सों में होती है: पहले 20 mile, और फिर जीवन की सबसे ज्यादा दर्दनाक और थकाऊ हालत में दौड़े जाने वाले आखिरी 10km
मुझे लेखक की यह उपमा पसंद आई। लेकिन किसी बिंदु के बाद AI खुद प्रगति में मदद करने लगता है, और यही बात इसे पुराने domain-specific ML या दूसरे systems से निर्णायक रूप से अलग बनाती है। इसी वजह से मुझे उम्मीद है कि अगले 2 साल में तेज acceleration हो सकता है
मैं भी अक्सर मज़ाक में कहता हूँ कि मैंने काम का पहला 90% पूरा किया, और अब अगले 90% पर जा रहा हूँ
यह सोच कई जगह लागू होती है। तथाकथित Pareto efficiency, यानी 80/20 नियम की तरह, 20% मेहनत से पूरे काम का 80% हो जाता है। लेकिन बचे हुए 20% को खत्म करने में ज्यादातर समय लगता है। यह सिद्धांत बार-बार लागू होता है। हाल के IT क्षेत्र में भी यह चीज़ खास तौर पर दिखती है। तेज़ी से आगे बढ़ना और experiment करना ज़्यादातर हिस्से में अच्छा है, लेकिन इस प्रक्रिया में बहुत-सी समस्याएँ जमा होती जाती हैं, और आखिरकार किसी न किसी को cleanup और review करना पड़ता है। हर छोटी समस्या मिलकर बड़ी समस्या बन जाती है। 99.9% system uptime का मतलब भी साल में 9 घंटे downtime है, और 1 अरब में 10 लाख cases कोई नज़रअंदाज़ करने लायक पैमाना नहीं है। technology की scalability की वजह से यह क्षेत्र तेज़ी से बढ़ा, लेकिन उसका साया भी उतना ही बड़ा हुआ। औसत से ऊपर की skill सिर्फ मेहनत से आसानी से पाई जा सकती है, लेकिन किसी की क्षमता किसी क्षेत्र में वास्तव में mastery से बहुत दूर हो सकती है। जैसे 100 million dollar वाला इंसान, billionaire की तुलना में, wealth distance के लिहाज़ से homeless व्यक्ति के अधिक करीब हो सकता है, वैसे ही हमारी संवेदना वक्राकार होती है
जब भी AI researchers और computer scientists इंसानी दिमाग, AI और computer की तुलना करने लगते हैं, मुझे एक अजीब-सा एहसास होता है। सिर्फ computer science पढ़े हुए हम लोग biology, neuroscience, evolution जैसी चीज़ों के बारे में पर्याप्त जानते हैं, ऐसा क्यों मान लेते हैं, यह सोचता हूँ। यह चर्चा अपने आप में दिलचस्प है, लेकिन मन के किसी कोने में यह बात रहती है कि 'मत भूलो, तुम अभी neuroscience पर बात करते दो CS graduates को सुन रहे हो'
मेरा मानना है कि AI क्षेत्र में ऐसी बातें और यह terminology ही खत्म कर देनी चाहिए। इससे आम लोगों में अंतहीन भ्रम ही पैदा होता है। असल में LLM की प्रकृति बस इतनी है कि matrices को train करके अगला token predict कराया जाता है। AGI, Roko's basilisk, human consciousness जैसी बातों को घसीटे बिना भी इसी अवधारणा से सब समझाया जा सकता है
अगर जवाब दूँ कि ऐसी मान्यता पैदा ही क्यों होती है, तो वजह है 'अहंकार'
दरअसल मज़ाक में कहा जाता है कि हम तर्क शुरू ही 'पूरी तरह गोल और शून्य घर्षण वाले दिमाग' की कल्पना से करते हैं
मैं भी undergraduate दिनों में ऐसी तुलना करता था, और आखिरकार एक conceptual model पर टिक जाता था: अगर दिमाग X करता है, तो computer भी ऊपर-ऊपर से वैसा X करता होगा, या फिर Y और Z जैसे चरणों से X को दोहरा सकता होगा। लेकिन जब से समझ आया कि दिमाग बेहद जटिल और रासायनिक मशीन है, तब से ऐसी तुलना को लेकर मैं ज्यादा संशय में हूँ
AI और neuroscience में, खासकर पुराने शोधकर्ताओं के बीच, काफ़ी overlap रहा है। उदाहरण के लिए Karpathy की advisor Fei-Fei Li ने cat brain vision पर शोध किया और फिर computer vision में आ गईं, Demis Hassabis के पास computational neuroscience में PhD है, और Geoff Hinton ने psychology पढ़ी थी। Reinforcement Learning and Decision Making conference (RLDM) reinforcement learning और neuroscience को जोड़ती है ताकि दोनों क्षेत्रों के विशेषज्ञ संवाद कर सकें। सच में, औसत AI researcher को दिमाग के बारे में एक सामान्य computer science छात्र से कहीं अधिक पता होने की संभावना है, हालांकि शोध करने के लिए फिर भी वह विशेषज्ञता कम पड़ सकती है
अगर आधुनिक LLM/AI की कोई बुनियादी सीमा है, तो वह यह है कि इन्हें मुख्यतः abstract data पर फोकस करके इंसानी logical reasoning से जुड़े prefrontal cortex की नकल करने के लिए train किया जाता है। लेकिन इंसानी वास्तविक निर्णय काफी हद तक भावनाओं और intuition-केंद्रित limbic system की गतिविधि से आते हैं। यानी ज्यादातर मामलों में हम 'कारण समझने से पहले कुछ कर बैठते हैं', और उसके बाद prefrontal cortex उस काम के लिए कहानी गढ़ देता है। नतीजतन LLM इंसानी वास्तविकता को संभालने के तरीके से बिल्कुल अलग जगह पर खड़े होकर केवल कुछ neural activity patterns की नकल कर रहे हैं
मैं इस संदेश को अभी पढ़ रहे किसी भी व्यक्ति के जीवनकाल में AGI नहीं आएगा, इस पर अपनी पूरी संपत्ति लगाने को तैयार हूँ। और यह बात भविष्य के उन पाठकों के जीवन तक भी लागू है जो इस लेख को बहुत बाद में पढ़ेंगे। सच में दिलचस्प सवाल यह है कि इस शर्त को साबित कैसे किया जा सकता है
मैं जानना चाहता हूँ कि आप ऐसा क्यों सोचते हैं। Hacker News रोज़ पढ़ते हुए AGI पर तरह-तरह की भविष्यवाणियाँ बिना किसी ठोस तर्क के गंभीर अंदाज़ में आती दिखती हैं, और यह मुझे उलझाता है। मुझे सच में नहीं पता क्या होने वाला है
अगर इस शर्त को सच में मान्य बनाना है, तो Polymarket जैसे prediction market में असली पैसा लगाना होगा। लेकिन पहले AGI की ठोस परिभाषा पर सहमति चाहिए। अगर सामने वाला अपनी सुविधा से परिभाषा बदल दे, तो शर्त जीतना लगभग नामुमकिन हो जाएगा
अगर आप सच में अपनी संपत्ति दाँव पर लगाना चाहते हैं, तो क्योंकि इस तरह के लेन-देन को cash out करना लगभग असंभव है, व्यवहारिक जवाब prediction market ही है। Polymarket पर AGI से जुड़ी कई शर्तें हैं
शायद Nvidia stock को short करना ज्यादा व्यवहारिक होगा
यह escrow (पक्षों के बीच धन सुरक्षित रखे जाने की व्यवस्था) इस्तेमाल करने की बात है
मैं भी एक बात जोड़ना चाहूँगा: मुझे लगता है कि हम अब भी 'बुद्धिमत्ता क्या है और यह कैसे काम करती है' इस पर एक schematic स्तर की समझ भी नहीं रखते। consciousness और intelligence कैसे जुड़ी हैं, यह भी स्पष्ट नहीं है। ऐसी स्थिति में AGI या AI पर होने वाली चर्चाएँ, यहाँ तक कि भविष्यवाणियाँ भी, काफी हद तक कमज़ोर आधार पर खड़ी लगती हैं। जब हमें यह तक नहीं पता कि intelligence है क्या, तब artificial intelligence को परिभाषित करना ही बेमानी लगता है
intelligence या consciousness को परिभाषित करना इतना कठिन इसलिए है क्योंकि हम पूरी तरह एक ही sample (मनुष्य) पर निर्भर हैं, और उसके ऊपर बेबुनियाद रहस्यवाद भी चढ़ा देते हैं। संबंधित लेख: https://bower.sh/who-will-understand-consciousness
इस हिस्से से मैं सच में गहराई से सहमत हूँ। हम invertebrates की consciousness तक model नहीं कर पाए हैं, और 'mind' पर भी कोई ठोस theory नहीं है। आखिरकार AI बस समझने का अभिनय कर रहा है, मुझे नहीं लगता कि उसका वास्तविक intelligence से कोई खास संबंध है
अगर इंटरव्यू का रिकॉर्ड सही है, तो Karpathy ने इस इंटरव्यू में कहीं भी यह नहीं कहा कि AGI 10 साल के भीतर आ जाएगा, और न ही यह कि AGI कब आएगा, इस पर कोई ठोस दावा किया। यानी Patel का शीर्षक वास्तविक सामग्री से अलग होकर भ्रम पैदा करता है
vibe coding और autocomplete की तुलना करें तो मौजूदा LLM models में काफ़ी cognitive flaws हैं। उदाहरण के लिए, इन्हें code लिखने के आम तरीकों पर इतना train किया गया है कि मैं जो तरीका नहीं अपनाता, उसे ये बार-बार गलत समझ लेते हैं। और मुझे जो चाहिए उसे अंग्रेज़ी में विस्तार से टाइप करना बहुत झंझट है, जबकि मैं मनचाही code location पर जाकर बस कुछ अक्षर लिखूँ तो autocomplete तुरंत code सुझा देता है। दूसरी ओर, models codebase को बहुत जटिल बना देते हैं, बेवजह का code जोड़ते हैं, पुराने APIs इस्तेमाल करते रहते हैं, तो कुल मिलाकर समझ नहीं आता कि ये वास्तव में कितने मददगार हैं
लगता है आगे चलकर 50% unemployment वाली दुनिया में भी हम अब तक यह बहस कर रहे होंगे कि 'क्या यह सचमुच AGI है'
मुझे यह बात ही अजीब लगती है कि AGI को लक्ष्य माना जाता है। AI शब्द भी गलत और भ्रामक है। LLM artificial intelligence नहीं है, और बहुत बड़ा LLM भी नहीं। फिर भी language model बेहद उपयोगी और संभावित रूप से क्रांतिकारी technology है। LLM को AI कहना उसकी value को बढ़ा-चढ़ाकर भी दिखाता है और कम भी करके दिखाता है। इसके artificial intelligence न होने से निराश होने की ज़रूरत नहीं, यह फिर भी शानदार technology है
अब जब Nvidia दुनिया की सबसे बड़ी market cap वाली कंपनी बन गई है, AGI पर असली चर्चा भारी पूँजी की 'hype train' में दब गई है। संबंधित कंपनियों की valuation का बड़ा हिस्सा इस विश्वास पर टिका है कि निकट भविष्य में AGI साकार हो जाएगा। अगर AGI बहुत पास लगे, तो ऐसा लगता है कि मौजूदा अग्रणी कंपनियाँ पूरा बाज़ार खा जाएँगी, और अगर बहुत दूर लगे, तो निवेश और खर्च टिकाऊ नहीं दिखते
हो सकता है असली corporate valuation AGI के साकार होने की उम्मीद से कम, और white-collar automation के ज़रिए कंपनियों द्वारा middle-class wages बचाने के लिए AI technology पर भारी पैसा खर्च करने की प्रवृत्ति पर ज्यादा टिकी हो
AGI न भी हो, सिर्फ AI से भी जबरदस्त आर्थिक मूल्य पैदा किया जा सकता है
सही बात। AGI 5~10 साल वाली narrative के साथ जोड़कर, चीन के साथ technology war को लगभग space race जैसा बताकर 'trillions of dollars' के निवेश की मांग की जा रही है। 2024 में भी इस तरह की खबरें आई थीं: https://www.cnbc.com/2024/02/09/openai-ceo-sam-altman-reportedly-seeking-trillions-of-dollars-for-ai-chip-project.html