Ilya Sutskever: हम scaling के युग से research के युग की ओर बढ़ रहे हैं

(dwarkesh.com)

7 पॉइंट द्वारा GN⁺ 2025-11-26 | 1 टिप्पणियां | WhatsApp पर शेयर करें

AI models की generalization limits और reinforcement learning (RL)-केंद्रित training की bias की ओर इशारा करते हुए, वे बताते हैं कि मौजूदा systems इंसानों की तरह लचीले ढंग से सोच नहीं पाते
Transfer learning (pre-training) विशाल डेटा से स्वाभाविक ज्ञान हासिल करती है, लेकिन वास्तविक वातावरण में adaptation की क्षमता सीमित है
scaling का युग (2012~2025) समाप्त हो रहा है, और अब नई learning principles और research-केंद्रित innovation की आवश्यकता है
SSI का लक्ष्य continual learning और real-world deployment से learning को जोड़कर इंसानी स्तर की learning क्षमता वाले models बनाना है
यह दृष्टिकोण पेश किया गया कि AI को ‘emotions और value function’, ‘generalization क्षमता’, और ‘ethical alignment’ को एकीकृत करना होगा, और इसी आधार पर भविष्य के AI research की दिशा सुझाई गई

मॉडल की अस्थिरता और generalization की समस्या

मौजूदा AI models evals में तो उत्कृष्ट हैं, लेकिन वास्तविक वातावरण में बार-बार त्रुटियाँ दिखाने वाली ‘jaggedness’ रखते हैं
- उदाहरण के तौर पर, code fix करने को कहने पर एक bug ठीक करते-करते दूसरा bug फिर से पैदा कर देने की घटना का उल्लेख
विश्लेषण यह है कि RL training कुछ खास evaluation metrics पर अत्यधिक फिट हो जाती है, जिससे generalization क्षमता में गिरावट आती है
इंसानी learning से तुलना करते हुए, models को ‘competitive programming student’ की तरह बताया गया है, जो कुछ समस्याओं पर overfit हो जाता है और वास्तविक application में कमजोर पड़ता है

भावनाएँ और value function

इंसानों का emotion system decision-making में केंद्रीय भूमिका निभाता है, और इसे value function के जैविक समकक्ष के रूप में समझा जा सकता है
ऐसे मानव मामलों के ज़रिए, जिनमें भावनाएँ क्षीण थीं, यह रेखांकित किया गया कि भावनाएँ कुशल निर्णय और learning के लिए अनिवार्य तत्व हैं
मौजूदा reinforcement learning अंतिम reward पर निर्भर करती है, लेकिन value function मध्यवर्ती चरणों में feedback संभव बनाती है, जिससे learning efficiency बढ़ती है
इससे संकेत मिलता है कि भविष्य के AI में emotionally regulated value function architecture शामिल होना चाहिए

scaling के युग से research के युग की ओर

2012~2020 को research-केंद्रित प्रगति का दौर, और 2020~2025 को scaling-केंद्रित प्रगति का दौर बताया गया
data, parameters, और compute की simple scaling अपनी सीमा के करीब पहुँच चुकी है, और अब नई learning recipes की खोज ज़रूरी है
RL एक नए scaling axis के रूप में उभरा है, लेकिन resource efficiency और नई learning principles अगला चरण तय करने वाले मुख्य प्रश्न हैं
“अब फिर से research का युग है” इस घोषणा के माध्यम से simple scaling से आगे बढ़कर बुनियादी innovation की आवश्यकता पर ज़ोर दिया गया

इंसानी generalization क्षमता और learning efficiency

समझाया गया कि इंसान कम डेटा से तेज़ी से सीखते हैं, और इसके पीछे evolutionary prior और efficient value function का हाथ है
language, math, और coding जैसे evolution से असंबंधित क्षेत्रों में भी इंसानी learning की ताकत यह संकेत देती है कि कुछ मौलिक learning principles मौजूद हैं
इंसान self-feedback (self-correction) के ज़रिए सीखते हैं, और यह अंतर्निहित value function की robustness की वजह से संभव है
Sutskever ने कहा कि इंसानी स्तर की learning principles को implement करने का तरीका मौजूद है, लेकिन विस्तृत विवरण सार्वजनिक नहीं है

SSI की रणनीति और superintelligence तक पहुँच

SSI $3B के फंड के साथ research-केंद्रित ढंग से चल रही है और product से अधिक fundamental research पर ध्यान दे रही है
‘superintelligence straight shot’ रणनीति बनाए रखते हुए, incremental release और deployment से learning को साथ लेकर चलने की योजना है
लक्ष्य है ‘ऐसा AI जो हर काम सीख सके’, यानी तैयार ज्ञान-संग्रह नहीं बल्कि continual learner (super learner)
यह भी कहा गया कि यदि ऐसे models व्यापक अर्थव्यवस्था में तैनात हुए, तो तेज़ आर्थिक वृद्धि संभव हो सकती है

alignment और safety

AI की मुख्य समस्या ‘power’ है, और system जितना शक्तिशाली होगा, gradual deployment और real-time feedback उतने ही महत्वपूर्ण होंगे
आगे चलकर AI कंपनियों के बीच सहयोगात्मक safety research और सरकारी हस्तक्षेप की मज़बूती को अपरिहार्य बताया गया
SSI का लक्ष्य ‘sentient life’ का ख़याल रखने वाला AI है, और उनका तर्क है कि यह सिर्फ human-centered alignment की तुलना में अधिक व्यवहार्य हो सकता है
superintelligence की शक्ति को सीमित करने या आपसी समझौतों के माध्यम से उसे नियंत्रित करने की आवश्यकता का प्रस्ताव रखा गया

मानव-AI सह-विकास और दीर्घकालिक संतुलन

दीर्घकाल में यह परिदृश्य रखा गया कि इंसानों को AI को समझने और नियंत्रित करने के लिए AI के साथ merge (Neuralink++) होना पड़ सकता है
इंसानों की social desires और emotions किस तरह evolutionary प्रक्रिया में उच्च-स्तरीय रूप से encode हुए, इसे neuroscience की एक रहस्यमय समस्या बताया गया
यह भी संकेत दिया गया कि इच्छाओं की यही उच्च-स्तरीय संरचना AI alignment research के लिए सुराग दे सकती है

SSI की पहचान और तकनीकी भिन्नता

SSI खुद को ‘research-first company’ के रूप में देखती है, और generalization principles की खोज को अपना मुख्य लक्ष्य मानती है
अन्य कंपनियों से अलग, यह नई technical approaches का पीछा कर रही है, और भविष्य में alignment strategies के convergence की उम्मीद करती है
5~20 वर्षों के भीतर इंसानी स्तर के learner के उभरने की संभावना जताई गई, जिसके बाद बाज़ार प्रतिस्पर्धा के ज़रिए specialization और differentiation बढ़ेंगे

Self-play और multi-agent

Self-play को ऐसा दिलचस्प तरीका माना गया है जिसमें data के बिना सिर्फ compute से learning संभव हो सकती है
लेकिन इसकी सीमा यह है कि यह learning शैली मुख्यतः negotiation, strategy जैसी social skills तक सीमित रहती है
हाल में यह Prover–Verifier structure या LLM-as-a-Judge जैसे रूपों में विकसित हुई है, जिससे agents के बीच competition द्वारा diversity हासिल करने की संभावना सामने आती है

research taste

महान research में एक साथ ‘सुंदरता, सरलता, और मस्तिष्क से आने वाली सही प्रेरणा’ होनी चाहिए
मानव मस्तिष्क से प्रेरणा लेना उपयोगी है, लेकिन उसकी मूलभूत संरचना की सही नकल अधिक महत्वपूर्ण है
यह भी कहा गया कि bottom-up experimental results से अधिक top-down belief ही research को लंबे समय तक जारी रखने की ताकत देता है

सारांश : Ilya Sutskever ने घोषणा की कि “scaling-केंद्रित युग समाप्त हो चुका है, और अब generalization, continual learning, और alignment पर केंद्रित research का युग शुरू हो गया है,” और SSI इस बदलाव के केंद्र में खड़ी है।

1 टिप्पणियां

GN⁺ 2025-11-26

Hacker News राय

यह बात उलझन पैदा करती है कि आजकल के मॉडल अपनी वास्तविक आर्थिक प्रभावशीलता की तुलना में कहीं ज़्यादा बुद्धिमान दिखते हैं
मैं पिछले 20 वर्षों से लोगों के workflow में AI और algorithms को integrate करता आया हूँ, और इस तरह के बदलाव में समय लगता है
यह समझने की प्रक्रिया चाहिए कि tools का इस्तेमाल कैसे करना है और उन्हें मौजूदा systems में कैसे शामिल करना है
भले ही मॉडल अभी से ज़्यादा स्मार्ट न हों, मुझे लगता है कि कुछ वर्षों में स्पष्ट परिणाम दिखाई देंगे
- समस्या AI में नहीं, बल्कि आधुनिक आर्थिक संरचना की समझ की कमी में भी हो सकती है
  अगर कर्मचारी पहले से ही efficiently काम कर रहे हैं, तो AI के काम की गति बढ़ाने पर भी productivity बहुत नहीं बढ़ती
  उल्टा, कई organizations ‘busy work’ भरने के लिए ज़रूरत से ज़्यादा लोगों को रखती हैं, इसलिए असली काम की मात्रा घटने पर भी output वही रह सकता है
- AI ने मेरे काम के कम समय लेने वाले हिस्सों को बहुत तेज़ कर दिया है, लेकिन जिन हिस्सों पर सबसे ज़्यादा समय लगता है उन पर इसका लगभग कोई असर नहीं है
  यह तकनीकी सीमा है या organizational सीमा, पता नहीं
  ज़्यादातर समय तकनीकी समस्याओं पर नहीं, बल्कि लोगों के बीच priority alignment या सहमति बनाने जैसे मानवीय मुद्दों को सुलझाने में जाता है
- ERP जैसे systems को design करते समय शुरुआत में सब simple लगता है, लेकिन असल में अनगिनत exception cases, approvals, logs, data integration वगैरह से काम 10 गुना बढ़ जाता है
  कॉलेज के समय एक professor ने कहा था, “हर system अपना 90% समय 90% complete अवस्था में बिताता है”, और यह बात सच निकली
- लेकिन आख़िरकार समस्या यह है कि बाज़ार में सिर्फ़ एक ही मॉडल बचता है
  मान लें कोई मॉडल ‘Dave’ है, तो Microsoft, OpenAI, Meta, Oracle, यहाँ तक कि अमेरिकी सरकार भी Dave को hire कर लेती है
  नतीजतन, दर्जनों एक जैसी सोच की प्रतियाँ दुनिया में भर जाती हैं, और विविधता का खत्म होना ही असली ख़तरा है
- अंत में OpenAI जैसी product companies academic उपलब्धियों का आर्थिक लाभ ले जाती हैं
  research से ज़्यादा connections और business sense महत्वपूर्ण हो जाते हैं
  आम लोग Ilya या Andrej जैसे researchers की बजाय ChatGPT या Copilot जैसे brands को ज़्यादा जानेंगे
  Wikipedia, OCR, cloud computing जैसी अनेक foundational technologies के जमा होने से आज का LLM संभव हुआ है, और यह सिर्फ़ किसी और भी बड़े बदलाव की ओर जाने वाला मध्य चरण है
अगर “Era of Scaling” का मतलब निवेश जुटाने में आसान, पूर्वानुमेय performance improvement का युग है, तो यह “AI summer” जैसा लगता है
तो फिर “Era of Research” शायद “AI winter” कहने का एक नरम तरीका हो सकता है
- आगे research labs अपने ideas बड़ी AI कंपनियों को बेचेंगी
  जैसे creators Hollywood में ideas pitch करते हैं, वैसे bug bounty की जगह research bounty आ सकती है
- लगता है “Era of Research” का इस्तेमाल “AI winter” के उलटे अर्थ में किया गया है
  शीर्षक खुद शायद जानबूझकर ऐसा विरोधाभासी बनाया गया है
- commercialization में साधारण performance improvement से ज़्यादा usage framework महत्वपूर्ण है
  मॉडल पहले से काफ़ी smart हैं, और अब ‘research का युग’ तथा ‘engineering का युग’ आएगा
  पहले के AI winter प्रगति न होने से नहीं, बल्कि commercial productization न हो पाने से आए थे
- जलाने के लिए अभी भी खरबों डॉलर बचे हुए हैं
  ऐसा hardware आ सकता है जो LLM training और inference को दस लाख गुना तेज़ कर दे, लेकिन AGI अभी भी काफ़ी दूर है
  यह सोचने पर मजबूर करता है कि AI में अपने भाव या इच्छाएँ विकसित होने के लिए कैसी शर्तें चाहिए होंगी
- कभी ऐसा भी हो सकता है कि AI खुद capital allocation को control करने लगे
  निवेशक AI के tools बनकर रह जाएँ, ऐसी स्थिति भी आ सकती है
  “सूचना के समुद्र में जन्मा जीवन” जैसी अभिव्यक्ति इंसानी memory और AI memory के बीच की रेखा मिट जाने वाले समय की कल्पना कराती है
इंसानों की sample efficiency evolution का परिणाम है
evolution ने बहुत विशाल मात्रा में learning की है, और हम उसी ‘pre-trained’ structure की वजह से तेज़ी से सीखते हैं
मानवता पीढ़ियों के दौरान knowledge को compress करके आगे बढ़ाती रही है, और artificial models अभी उस स्तर की synthetic data quality तक नहीं पहुँचे हैं
- evolution ने dataset नहीं दिया, बल्कि learning path को optimize किया
  इंसान जन्म लेते ही senses के ज़रिए data ग्रहण करते हैं और sleep के दौरान उसे compress करते हैं
  LLM को मिलने वाला data मात्रा में बड़ा दिख सकता है, लेकिन इंसान 20 साल में जितनी information अनुभव करता है, उसके मुकाबले यह बहुत कम है
  मानव मस्तिष्क input का बेहद छोटा हिस्सा ही सचेत रूप से process करते हुए भी एक जटिल compression pipeline से गुज़रता है
- अगर पीढ़ियों को DNA में information compress करने की प्रक्रिया मानें, तो लगभग 10 लाख वर्षों में 50 हज़ार compression steps हुए
  फिर भी यह आधुनिक machine learning के iterative training scale तक नहीं पहुँचता
- अंततः evolution ने विशाल data को सबसे उपयोगी रूप में compress किया है, और प्रकृति की compression क्षमता ML researchers से कहीं बेहतर है
- biological systems और LLM की तुलना करना निरर्थक है
  दोनों systems में संरचनात्मक रूप से लगभग कोई समानता नहीं है
“दुनिया के सबसे अधिक पूँजी-समृद्ध उद्योग का वैचारिक नेता design stage की ओर महान छलाँग की घोषणा करता है” जैसा tagline फिट बैठता है
- वह मज़ाक सच में बहुत मज़ेदार था
आजकल AI में असली innovation सिर्फ़ मॉडल को बड़ा करने से नहीं आ रही
benchmark scores बढ़ने पर भी, user के नज़रिए से महसूस होने वाला सुधार बहुत बड़ा नहीं है
यह अब भी सरल समस्याओं में गलती करता है, जैसे शब्द में अक्षरों की गिनती, और ज़्यादातर लोग ऐसा मॉडल नहीं चाहते जिसे PhD-स्तर की research क्षमता चाहिए
अब scaling से ज़्यादा research, और products व models का integration अधिक महत्वपूर्ण हो गया है
- समस्या यह है कि हम intelligence को परिभाषित या माप ही नहीं सकते
  इंसानों के लिए बने test scores मशीन की intelligence को reflect न करते हों, ऐसा हो सकता है
  क्योंकि मानव मस्तिष्क और मॉडल की overfitting विशेषताएँ अलग हैं
- आगे की scaling और अधिक sophisticated simulation के ज़रिए उस दिशा में जाएगी जहाँ AI खुद experiment करे और data इकट्ठा करे
  pretraining लगभग ख़त्म हो चुका है, और compute cost अभी से कहीं ज़्यादा बढ़ेगी
- मॉडल खुद बुद्धिमान नहीं है, बल्कि वह data में मौजूद intelligence को बाहर निकालता है
  मॉडल सिर्फ़ उस intelligence को extract और उपयोग करने का tool है
- LLM के लिए अक्षरों की गिनती कठिन होने का कारण यह है कि वह letters नहीं, बल्कि token units पर काम करता है
  इंसानों की तरह character stream देखने के बजाय, मॉडल वाक्य को numeric token sequence के रूप में पहचानता है
- मॉडल अब भी काल्पनिक references या अस्तित्वहीन academic fields बना देता है
मौजूदा स्थिति कुछ वैसी है जैसे 1996 में अचानक सबके पास 1Gbps internet आ गया हो
infrastructure में पैसा तो जा रहा है, लेकिन YouTube या Dropbox जैसे killer app न होने से क्षमता बर्बाद होती लगती है
यह podcast series सच में बहुत अच्छी थी
खासकर host की Sarah Paine के साथ geopolitics series YouTube पर भी देखी जा सकती है, और वह शानदार थी
“चलो फिर से drawing board पर लौटते हैं” वाली बात याद आती है
अगर खरबों डॉलर का investment वापस न भी आए, तो आख़िरकार taxpayers ही बचाव करेंगे
मानव बुद्धि शायद सिर्फ़ व्यक्तिगत अनुभव से नहीं, बल्कि पूर्वजों के अनुभवों से भी सीखी गई हो
उदाहरण के लिए, ऐसे research भी हैं कि पिता द्वारा अनुभव किया गया भय पोते की पीढ़ी तक पहुँच सकता है
(Nature शोध-पत्र लिंक)
शायद यही वजह है कि इंसान कम data पर भी अच्छी generalization कर लेते हैं
- LLM का learning structure मस्तिष्क से बिल्कुल अलग है
  इंसानों को जीवित रहने के लिए भविष्य का अनुमान लगाना और generalize करना पड़ता था, इसलिए evolution ने sample efficiency बढ़ाई
अगर scaling कभी उस स्तर तक पहुँच जाए जहाँ वह इंसानों से बेहतर research कर सके, तो scaling और research आखिरकार एक ही बात हो जाएँगे
लेकिन Ilya का यह कहना कि हम अभी वहाँ नहीं पहुँचे हैं, शायद investment attraction के लिए एक रणनीतिक बयान भी हो सकता है
- मैं निष्कर्ष से सहमत हूँ, लेकिन आधार-धारणा से नहीं
  एक अकेले genius से ज़्यादा पूरी मानवता की collective intelligence महत्वपूर्ण है
  कोई भी AI कितना ही smart क्यों न हो, यह गारंटी नहीं कि वह हज़ारों researchers से बेहतर होगा
- scaling में अंधविश्वास ख़तरनाक है
  ऐसा लगता है जैसे लोग S-curve को अनंत तक exponential रूप में बढ़ाया जा सकने का भ्रम पाल रहे हैं