गेम्स से आगे, वास्तविक दुनिया तक सीखने वाली AI: John Carmack की reality-based reinforcement learning चुनौती

(twitter.com/ID_AA_Carmack)

17 पॉइंट द्वारा GN⁺ 2025-05-24 | 1 टिप्पणियां | WhatsApp पर शेयर करें

John Carmack के "Upper Bound 2025 प्रस्तुति" की तैयारी नोट्स का सारांश और स्लाइड्स
John Carmack ने Id Software, Oculus, Keen Technologies आदि में काम करने के बाद अब reinforcement learning-आधारित AGI रिसर्च पर फोकस किया है
वे LLM से दूरी रखते हुए, जानवरों की तरह environment के साथ interact करके सीखने वाली सतत और कुशल learning में रुचि रखते हैं
क्लासिक Atari गेम्स के आधार पर real-time camera और joystick input से सीखने वाला physical RL system बनाया गया है
speed, latency, continual learning, forgetting prevention आदि जैसे तकनीकी मुद्दों को व्यापक रूप से सामने रखा गया है, जिन्हें RL सिस्टम को वास्तविक दुनिया जैसा बनाने के लिए हल करना होगा
CNN architecture, reward representation, exploration strategy आदि पर अनुभव-आधारित तीक्ष्ण insights साझा किए गए हैं, और मौजूदा प्रथाओं पर सवाल उठाए गए हैं

स्लाइड्स: https://docs.google.com/presentation/d/…
तैयारी नोट्स: https://docs.google.com/document/d/…

Quick Background

Id Software के संस्थापक के रूप में Quake ने GPU के विकास को आगे बढ़ाया, जिससे AI क्षेत्र पर अप्रत्यक्ष प्रभाव पड़ा
Armadillo Aerospace में vertical takeoff and landing rocket research पर 10 वर्षों तक काम किया
Oculus में आधुनिक VR तकनीक की नींव रखी
Keen Technologies की स्थापना की, और reinforcement learning पर फोकस करते हुए AI रिसर्च को समर्पित हैं
Richard Sutton के साथ रिसर्च कर रहे हैं और reinforcement learning पर समान दार्शनिक दृष्टि साझा करते हैं

Where I thought I was going

Not LLMs

LLM "learning के बिना knowledge" हैं, इसलिए उनका दर्शन उस interaction-based learning से अलग है जिसकी वे तलाश कर रहे हैं
यह संभावना खुली है कि LLM, RL की जगह ले सकते हैं, लेकिन उन्हें जानवरों की तरह environment से सीखने का तरीका अधिक आकर्षक लगता है

Games

लंबे समय के गेम डेवलपमेंट अनुभव के कारण games को experimental environment के रूप में इस्तेमाल किया
DeepMind के Atari रिसर्च की तरह सिर्फ pixel-based input से learning की संभावना को परखा
लेकिन बहुत बड़ी training frame संख्या और efficiency की समस्या अब भी चुनौती बनी हुई है
multi-task, online, efficient learning अभी भी अनसुलझी है

Video

शुरुआत में TV जैसे passive video learning पर विचार किया, लेकिन बाद में गेम learning पर ही फोकस करने का निर्णय लिया

Missteps

बहुत low-level (C++ CUDA) से शुरुआत की, फिर PyTorch पर आकर experimentation की रफ्तार बढ़ी
Atari के बजाय Sega Master System से शुरू किया, लेकिन comparison data की कमी के कारण बदला
video-based learning को फिलहाल रोका, क्योंकि सिर्फ गेम के भीतर learning में ही पर्याप्त चुनौतियाँ हैं

Settling in with Atari

commercial games की विविधता रिसर्च bias को कम करने में मदद करती है
ALE को सीधे इस्तेमाल करने की सलाह दी गई है (Gym जैसे wrappers समस्या पैदा कर सकते हैं)
नवीनतम मॉडल अधिकांश गेम्स में high score हासिल कर चुके हैं, लेकिन "Atari 100k" की तरह data-efficient learning अधिक महत्वपूर्ण है
environment का deterministic behavior sticky action जैसी तकनीकों से पार करना होगा

Reality is not a turn based game

वास्तविक दुनिया एजेंट का इंतज़ार नहीं करती → asynchronous processing और latency को ध्यान में रखना होगा
single environment में learning की विफलता algorithm की मूल समस्या का संकेत हो सकती है
speed: ऐसी policy चाहिए जिसका high-speed evaluation संभव हो (जैसे CUDA graph का उपयोग)
latency: अधिकतर RL algorithms latency के प्रति कमजोर हैं → policy application delay को प्रतिबिंबित करने वाली संरचना चाहिए

Physical Atari

physical environment में Atari learning system बनाया गया
वास्तविक joystick संचालन, स्क्रीन को देखने वाला camera, और RL agent real-time में काम करते हैं
कई गेम्स टेस्ट करते हुए score recognition, action delay, control error जैसी वास्तविक समस्याओं पर विचार किया गया
joystick movement अस्थिर है, और score recognition सबसे कठिन समस्या है
कुछ गेम्स में score साफ़ न दिखने के कारण उन्हें बाहर रखा गया

Sparse rewards / Curiosity

RL, sparse reward वाले environment में कमजोर है → intrinsic reward और artificial curiosity का उपयोग ज़रूरी है
क्या गेम score को ही reward की जगह इस्तेमाल किया जा सकता है, इस पर भी खोज की गई
गेम्स के बीच switching, और नए गेम्स में रुचि बनाए रखना जैसे मानव व्यवहार पैटर्न को दोहराने की कोशिश की गई

Sequential multi-task learning

continual learning environment में catastrophic forgetting अब भी गंभीर समस्या है
इंसान पुरानी skills याद रखते हैं, लेकिन मौजूदा models पुराने गेम्स पर लौटने पर तेज़ी से performance खो देते हैं
memory retention, learning-rate adjustment, weight sparsity आदि से सुधार की कोशिश की गई
Task ID का उपयोग cheating माना गया, इसलिए transition को implicit होना चाहिए

Transfer Learning

अधिक training वाले गेम्स के माध्यम से नए गेम्स को तेज़ी से सीखना संभव होना चाहिए
OpenAI का Sonic challenge अंततः फिर से from scratch learning पर लौट आया
GATO आदि में negative transfer देखा गया
"धीरे सीखो ताकि तेज़ सीख सको" जैसी रणनीति की ज़रूरत हो सकती है
नया benchmark प्रस्तावित: कई गेम्स को क्रमवार दोहराते हुए score का मूल्यांकन

Plasticity vs generalization

generalization का मतलब कुछ चीज़ों को अनदेखा करना है, जबकि plasticity नए patterns पहचानना है → दोनों में टकराव हो सकता है
generalization का सैद्धांतिक आधार कमजोर है, अधिकतम CNN के inductive bias तक
reinforcement learning का value function generalization का परिणाम है, और बहुत संवेदनशील है

Exploration

random action selection की सीमाएँ हैं → एक गलती से survival तय हो सकता है
action space structuring, confidence-based policy जैसी कोशिशें की गईं
time-scale actions पर भी विचार ज़रूरी है → 60fps learning बहुत कठिन है

Recurrence vs frame stacks

Atari में frame stack प्रभावी है, लेकिन recurrent structure दिमाग़ के अधिक समान है
Transformer batch learning में मजबूत हैं, लेकिन सामान्य recurrent online learning अभी अधूरा है

Function approximation-आधारित learning

NN एक साथ value estimation, generalization, probability averaging, और policy improvement करते हैं
हर weight update सभी output values को प्रभावित करता है
initialization, activation function, optimizer का संयोजन performance पर बड़ा प्रभाव डालता है

Value representation

classic DQN reward clamping learning stability के लिए प्रभावी है
categorical representation, MSE उपयोग, MuZero की value compression जैसे विभिन्न approaches मौजूद हैं
हर गेम का score range अलग होता है, जो multi-task learning में समस्या बनता है

Conv Nets

CNN अब भी RL की बुनियादी संरचना है
बड़े image networks RL में performance गिराते हैं (उदाहरण: ConvNeXT)
kernel structure बदलाव, parameter sharing, Isotropic CNN जैसे experiments किए गए
DenseNet, Dilated CNN जैसी संरचनाओं से efficient information flow हासिल करने की कोशिश की गई
biological structure के समान CNN सुधारों पर काम किया गया

1 टिप्पणियां

GN⁺ 2025-05-24

Hacker News की राय

जब भी Carmack के व्याख्यान या लेख देखता हूँ, हर बार यह बेहद दिलचस्प अनुभव लगता है। इस बार के नोट्स में भी इंजीनियर के रूप में उनकी सोचने की प्रक्रिया को बारीकी से दर्ज करने का तरीका प्रभावशाली है। रिसर्च दिशा के रूप में real-time learning पर उनका फोकस देखकर जिज्ञासा हुई। मेरी समझ यह है कि Carmack online learning को real time में चलाने की कोशिश कर रहे हैं। यह शानदार demo और optimization अनुभव का उपयोग करने वाली एक रोचक चुनौती है, लेकिन हाल की सीख और रिसर्च प्रवृत्तियों को देखें तो real-time inference और learning के लिए पर्याप्त computing resources न होने पर नतीजे सीमाओं से टकरा सकते हैं। दिमाग ही Atari गेम्स हल करने का एकमात्र उदाहरण है, और मानव मस्तिष्क की computing क्षमता भी अब तक स्पष्ट रूप से मापी नहीं गई है। इस संदर्भ में सच में यह सवाल है कि क्या real-time constraints पर ज़ोर देने के बजाय learning efficiency पर ध्यान देना बेहतर नहीं होगा। बेशक constraints के भीतर काम करने से बहुत मूल्य मिलता है, लेकिन jumping spider भी 100,000 neurons के साथ जटिल समस्याएँ हल कर लेती है, इसलिए अनुमान लगाना कठिन है
- 90 के दशक की शुरुआत में जब Carmack शुरुआती 3D graphics और real-time rendering पर काम कर रहे थे, तब workstation-आधारित offline experts भी शायद इसी तरह सोचते होंगे। Carmack की सबसे बड़ी ताकत हमेशा सीमित संसाधनों में चरम स्तर का प्रदर्शन निकालना रही है (id Software, Oculus, Armadillo Aerospace आदि)। ऐसा लगता है कि बड़े संगठन या मौजूदा तकनीक से बँध जाने पर उनका असर उल्टा कम हो जाता है (Bethesda-id, Meta छोड़ने का कारण भी शायद यही रहा हो)। Carmack की real-time केंद्रित शैली को समझते हुए लगता है कि मौजूदा AI boom में सिर्फ computing power से धक्का देने वाला तरीका उन्हें खास पसंद नहीं आएगा। अच्छा है कि वे निवेशकों के पैसे से LLM training जैसी चीज़ों में नहीं लगे हैं। आदर्श रूप में, काश वे पहले की तरह बेहतरीन साथियों के साथ cutting-edge तकनीक को आम लोगों तक पहुँचाने के तरीके से नवाचार करें, जैसे 3D graphics का प्रसार
- प्रस्तुति नोट्स की एक पंक्ति उद्धृत करें तो, अगर कोई सोचता है कि जल्द ही शरीर वाला AGI आ जाएगा, तो अपने dancing humanoid robot को joystick पकड़ाकर कोई पूरी तरह नया video game सीखने को कहे — यह एक ज़रूरी fact check हो सकता है
- मैं यह ज़ोर देकर कहना चाहता हूँ कि इंसानों और जानवरों के पास बहुत अधिक जन्मजात क्षमताएँ और prior knowledge होती हैं, इसलिए उनके लिए नई चीज़ें सीखना कहीं आसान है। यह सिर्फ computing power का अंतर नहीं है, बल्कि learning का शुरुआती बिंदु ही अलग है
- मानव मस्तिष्क की computing capacity के बारे में अनिश्चितता वाली बात पर, वास्तव में neuron signal transmission speed को मापा जा सकता है, और लगातार जुड़े neurons की संख्या की एक ऊपरी सीमा है (लगभग 100 steps)। इससे अंदाज़ा लगाया जा सकता है कि मानव cognition शायद हमारी सोच से कम जटिल हो। बेशक parallelism और feedback loops बहुत होंगे, लेकिन अगर कभी AGI algorithm मिल गया, तो मुझे लगता है कि 2025 के साधारण hardware पर real time में चलने वाला उसका कोई ‘mini’ version बन सकता है
संबंधित direct links:
- प्रेज़ेंटेशन स्लाइड्स
- टेक्स्ट दस्तावेज़
OpenAI के एक insider का दिलचस्प जवाब था, इसलिए साझा करना चाहता हूँ: X लिंक
- सच कहूँ तो यह कोई खास दिलचस्प प्रतिक्रिया नहीं है। बाहरी लोगों की राय को नज़रअंदाज़ करने वाला यह अस्पष्ट रवैया अकादमिक असुरक्षा से पैदा होने वाला एक सामान्य पैटर्न लगता है। इसमें ठोस व्याख्या या सबूत नहीं है, इसलिए चर्चा में मदद नहीं मिलती। अगर ‘OpenAI insider’ बनाम ‘John Carmack और Richard Sutton’ हो, तो मैं किसके साथ जाऊँगा यह साफ है
- Carmack ने उस पोस्ट का सीधे जवाब दिया: Carmack जवाब
- कुछ लोग पूरे Twitter thread को देखकर राय बना रहे हैं, जबकि बिना लॉगिन वाले लोग सिर्फ पहला tweet देख पाते हैं, इसलिए यह केवल dismissive लग सकता है
- यह मज़ेदार है कि वह कहता है, “मैंने कोई lesson सीखा,” लेकिन वह lesson क्या है, यह नहीं बताता
- they will learn the same lesson I did वाला tweet देखकर मज़ाक में जोड़ना चाहूँगा: “क्या मतलब Altman पर भरोसा मत करो?”
Carmack के AI पर फोकस करने की खबर सुनकर मैं सचमुच उत्साहित था। वीडियो आने का इंतज़ार कर रहा हूँ, लेकिन slides देखकर लगता है कि उन्होंने Atari games खेलने वाला एक system बना लिया है। यह एक मज़ेदार project लगता है, लेकिन यह जानने की उत्सुकता है कि क्या इससे और papers या परिणाम भी निकलेंगे
- Atari games RL (reinforcement learning) रिसर्च में एक standard benchmark के रूप में व्यापक रूप से इस्तेमाल होते हैं। संदर्भ: Arcade Learning Environment. लक्ष्य ऐसे algorithms बनाना है जो विभिन्न tasks पर generalize कर सकें
- Atari games क्लियर करने या high scores लेने वाले agents पहले से बहुत हैं, लेकिन यह क्षेत्र अभी भी लंबा रास्ता तय करना बाकी है। मैंने अपने master's thesis में कम interaction से सीखने के तरीकों पर काम किया था, क्योंकि अगर इसे असली robots पर लागू करें तो robot को व्यवहार सीखने के लिए सैकड़ों साल तक चलना-गिरना नहीं पड़ेगा। और भी ऊँचे स्तर की generalization — यानी कई video games सीखना और नए games को भी सहज रूप से सीख पाना — पर काम करने वाले उदाहरण अब भी कम हैं
- इस project का लक्ष्य सिर्फ Atari games को ‘हराना’ नहीं है, बल्कि एक ऐसी अधिक सामान्य methodology बनाना है जो अधिक जटिल games या भौतिक दुनिया पर लागू हो सके। लेकिन रिसर्च insight के हिसाब से, इस चरण पर जटिल games लाने के बजाय Atari environment को real time जैसी शर्तों के अनुसार संशोधित करके test करना अधिक प्रभावी लगता है
- इसे open source करने की योजना बहुत अच्छी है। physical controller और camera के साथ laptop GPU पर real time में खेलना ताज़गीभरा है, लेकिन क्या यह अपने आप में revolutionary है, इस पर संदेह है। अगर sample efficiency या generalization के मामले में यह मौजूदा रिसर्च से बेहतर साबित हुआ, तो सचमुच चौंकाने वाला होगा
- मेरी इच्छा बस इतनी है कि games के NPC और ज़्यादा स्मार्ट हो जाएँ
slides की शुरुआत में जैसा कहा गया है, यह सोचकर थोड़ा अफ़सोस होता है कि अगर ऐसा रिसर्च VR environment में किया जाता तो कैसा होता। अगर कोई JPEG camera filters, physics simulation, noise और robot simulation environments को VR में अच्छी तरह लागू कर सकता है, तो Carmack उसके लिए सही व्यक्ति हैं। असली robots का उपयोग training time के लिहाज़ से एक बहुत बड़ा bottleneck है
यह भी सोचने पर मजबूर करता है कि AGI को आखिर भौतिक शरीर की ज़रूरत क्यों हो, और हम क्यों मान लेते हैं कि अगर हम श्रेष्ठ बुद्धि बनाएँगे तो वह हमारी कार चलाएगी या घर साफ़ करेगी। बल्कि Dan Simmons के उपन्यास ‘Hyperion’ की तरह यह ज़्यादा यथार्थवादी लगता है कि AGI cloud में गायब हो जाए और इंसानों की लगभग अनदेखी करे
- इसका हमेशा के लिए होना ज़रूरी नहीं है; इंसान भी अगर शरीर से मुक्त हो सकते, तो शायद ऐसा करना चाहते। स्थायी रूप से physical interface में फँसा रहना नुकसानदेह भी हो सकता है
- SF में यह बार-बार इसलिए भी आता है कि “AGI मेरे शरीर का power button न दबा सके”
AGI पर चर्चा करते समय मुझे लगता है कि हम यह भी स्पष्ट नहीं कर पाए हैं कि ‘concept’ आखिर है क्या। एक क्षेत्र के concept को दूसरे क्षेत्र में इस्तेमाल करने की सोचने की प्रक्रिया, दिमाग का ideas को मिलाना और abstraction बनाना — हम अभी भी यह नहीं समझते
- जब चीज़ें बार-बार सामने आती हैं तो हम उन्हें नाम देते हैं, और concept दोहराए जाने वाले thought patterns होते हैं। abstraction, relations, और metaphor — ये सब domains के बीच patterns को ले जाने के tools हैं
एक प्रयोग के तौर पर, अगर OpenAI का AGI सच में बहुत नज़दीक है, तो पूछा जा सकता है कि फिर Ive द्वारा चलाए जा रहे hardware startup को खरीदने में समय और पैसा क्यों खर्च किया जा रहा है। अगर वे robotics में जाने वाले हैं, या अगर उनके पास सचमुच सर्वोच्च AGI है, तो अनगिनत कंपनियाँ hardware/software licensing के लिए खुद ही लाइन लगा देंगी, और वही अपने आप में असीम राजस्व बना सकता है
- सिर्फ AGI होना काफी नहीं है। ChatGPT interface में AGI डाल देने से भी वास्तविक दुनिया पर असर डालने के लिए AGI का ‘हर जगह’ मौजूद होना ज़रूरी है
- अगर कोई कंपनी वास्तव में AGI के करीब पहुँच रही है, तो संभव है कि वह सरकारी या सैन्य regulation से बचने के लिए जानबूझकर कम जानकारी उजागर करे। AGI पर पहले पहुँचने में जोखिम बहुत है
- मैं यह दिशा भी सुझाना चाहूँगा कि AGI product design तक कर सके
मुझे लगता है Carmack ने सही रिसर्च दिशा चुनी है। अब हमें सिर्फ भाषा के ज़रिए training देने से आगे बढ़ना चाहिए। AI को physicality की ज़रूरत है
- AI को भाषा से परे विविध data पर train करना वास्तव में कई सालों से चल रहा है। नवीनतम frontier models एक ही model में text, audio, video और image जैसे inputs पर multimodal training कर रहे हैं (Gemini, GPT-4o, Grok 3, Claude 3, Llama 4 आदि)। सारे inputs tokenize होकर shared embedding space में प्रोसेस होते हैं
- AI को physicality की ज़रूरत है — इस दृष्टिकोण से यह दिलचस्प है कि Carmack खुद पहले यह ज़ोर देते रहे हैं कि simulation environments AI development के लिए अधिक उपयुक्त हैं, और physical environments व्यवहारिक रूप से अक्षम हैं
- Nvidia की भी यही राय है। Jim Fan ने “physical Turing test” और embodied AI के भविष्य पर बात की है। Jim Fan व्याख्यान वीडियो. उसमें भी यह ज़ोर दिया गया है कि मज़बूत simulation environments चलाने के लिए भारी computing resources चाहिए
“मैं research community में नया हूँ, इसलिए मैंने इस पर ध्यान दिया” जैसी पंक्ति देखकर लगता है कि शायद paper submission की संभावना की ओर इशारा है
- वह यह भी स्पष्ट कर रहे हैं कि यह project किसी product company का काम नहीं, बल्कि research के लिए किया गया प्रयास है

गेम्स से आगे, वास्तविक दुनिया तक सीखने वाली AI: John Carmack की reality-based reinforcement learning चुनौती

Quick Background

Where I thought I was going

Not LLMs

Games

Video

Missteps

Settling in with Atari

Reality is not a turn based game

Physical Atari

Sparse rewards / Curiosity

Sequential multi-task learning

Transfer Learning

Plasticity vs generalization

Exploration

Recurrence vs frame stacks

Function approximation-आधारित learning

Value representation

Conv Nets

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय