- AI models की generalization limits और reinforcement learning (RL)-केंद्रित training की bias की ओर इशारा करते हुए, वे बताते हैं कि मौजूदा systems इंसानों की तरह लचीले ढंग से सोच नहीं पाते
- Transfer learning (pre-training) विशाल डेटा से स्वाभाविक ज्ञान हासिल करती है, लेकिन वास्तविक वातावरण में adaptation की क्षमता सीमित है
- scaling का युग (2012~2025) समाप्त हो रहा है, और अब नई learning principles और research-केंद्रित innovation की आवश्यकता है
- SSI का लक्ष्य continual learning और real-world deployment से learning को जोड़कर इंसानी स्तर की learning क्षमता वाले models बनाना है
- यह दृष्टिकोण पेश किया गया कि AI को ‘emotions और value function’, ‘generalization क्षमता’, और ‘ethical alignment’ को एकीकृत करना होगा, और इसी आधार पर भविष्य के AI research की दिशा सुझाई गई
मॉडल की अस्थिरता और generalization की समस्या
- मौजूदा AI models evals में तो उत्कृष्ट हैं, लेकिन वास्तविक वातावरण में बार-बार त्रुटियाँ दिखाने वाली ‘jaggedness’ रखते हैं
- उदाहरण के तौर पर, code fix करने को कहने पर एक bug ठीक करते-करते दूसरा bug फिर से पैदा कर देने की घटना का उल्लेख
- विश्लेषण यह है कि RL training कुछ खास evaluation metrics पर अत्यधिक फिट हो जाती है, जिससे generalization क्षमता में गिरावट आती है
- इंसानी learning से तुलना करते हुए, models को ‘competitive programming student’ की तरह बताया गया है, जो कुछ समस्याओं पर overfit हो जाता है और वास्तविक application में कमजोर पड़ता है
भावनाएँ और value function
- इंसानों का emotion system decision-making में केंद्रीय भूमिका निभाता है, और इसे value function के जैविक समकक्ष के रूप में समझा जा सकता है
- ऐसे मानव मामलों के ज़रिए, जिनमें भावनाएँ क्षीण थीं, यह रेखांकित किया गया कि भावनाएँ कुशल निर्णय और learning के लिए अनिवार्य तत्व हैं
- मौजूदा reinforcement learning अंतिम reward पर निर्भर करती है, लेकिन value function मध्यवर्ती चरणों में feedback संभव बनाती है, जिससे learning efficiency बढ़ती है
- इससे संकेत मिलता है कि भविष्य के AI में emotionally regulated value function architecture शामिल होना चाहिए
scaling के युग से research के युग की ओर
- 2012~2020 को research-केंद्रित प्रगति का दौर, और 2020~2025 को scaling-केंद्रित प्रगति का दौर बताया गया
- data, parameters, और compute की simple scaling अपनी सीमा के करीब पहुँच चुकी है, और अब नई learning recipes की खोज ज़रूरी है
- RL एक नए scaling axis के रूप में उभरा है, लेकिन resource efficiency और नई learning principles अगला चरण तय करने वाले मुख्य प्रश्न हैं
- “अब फिर से research का युग है” इस घोषणा के माध्यम से simple scaling से आगे बढ़कर बुनियादी innovation की आवश्यकता पर ज़ोर दिया गया
इंसानी generalization क्षमता और learning efficiency
- समझाया गया कि इंसान कम डेटा से तेज़ी से सीखते हैं, और इसके पीछे evolutionary prior और efficient value function का हाथ है
- language, math, और coding जैसे evolution से असंबंधित क्षेत्रों में भी इंसानी learning की ताकत यह संकेत देती है कि कुछ मौलिक learning principles मौजूद हैं
- इंसान self-feedback (self-correction) के ज़रिए सीखते हैं, और यह अंतर्निहित value function की robustness की वजह से संभव है
- Sutskever ने कहा कि इंसानी स्तर की learning principles को implement करने का तरीका मौजूद है, लेकिन विस्तृत विवरण सार्वजनिक नहीं है
SSI की रणनीति और superintelligence तक पहुँच
- SSI $3B के फंड के साथ research-केंद्रित ढंग से चल रही है और product से अधिक fundamental research पर ध्यान दे रही है
- ‘superintelligence straight shot’ रणनीति बनाए रखते हुए, incremental release और deployment से learning को साथ लेकर चलने की योजना है
- लक्ष्य है ‘ऐसा AI जो हर काम सीख सके’, यानी तैयार ज्ञान-संग्रह नहीं बल्कि continual learner (super learner)
- यह भी कहा गया कि यदि ऐसे models व्यापक अर्थव्यवस्था में तैनात हुए, तो तेज़ आर्थिक वृद्धि संभव हो सकती है
alignment और safety
- AI की मुख्य समस्या ‘power’ है, और system जितना शक्तिशाली होगा, gradual deployment और real-time feedback उतने ही महत्वपूर्ण होंगे
- आगे चलकर AI कंपनियों के बीच सहयोगात्मक safety research और सरकारी हस्तक्षेप की मज़बूती को अपरिहार्य बताया गया
- SSI का लक्ष्य ‘sentient life’ का ख़याल रखने वाला AI है, और उनका तर्क है कि यह सिर्फ human-centered alignment की तुलना में अधिक व्यवहार्य हो सकता है
- superintelligence की शक्ति को सीमित करने या आपसी समझौतों के माध्यम से उसे नियंत्रित करने की आवश्यकता का प्रस्ताव रखा गया
मानव-AI सह-विकास और दीर्घकालिक संतुलन
- दीर्घकाल में यह परिदृश्य रखा गया कि इंसानों को AI को समझने और नियंत्रित करने के लिए AI के साथ merge (Neuralink++) होना पड़ सकता है
- इंसानों की social desires और emotions किस तरह evolutionary प्रक्रिया में उच्च-स्तरीय रूप से encode हुए, इसे neuroscience की एक रहस्यमय समस्या बताया गया
- यह भी संकेत दिया गया कि इच्छाओं की यही उच्च-स्तरीय संरचना AI alignment research के लिए सुराग दे सकती है
SSI की पहचान और तकनीकी भिन्नता
- SSI खुद को ‘research-first company’ के रूप में देखती है, और generalization principles की खोज को अपना मुख्य लक्ष्य मानती है
- अन्य कंपनियों से अलग, यह नई technical approaches का पीछा कर रही है, और भविष्य में alignment strategies के convergence की उम्मीद करती है
- 5~20 वर्षों के भीतर इंसानी स्तर के learner के उभरने की संभावना जताई गई, जिसके बाद बाज़ार प्रतिस्पर्धा के ज़रिए specialization और differentiation बढ़ेंगे
Self-play और multi-agent
- Self-play को ऐसा दिलचस्प तरीका माना गया है जिसमें data के बिना सिर्फ compute से learning संभव हो सकती है
- लेकिन इसकी सीमा यह है कि यह learning शैली मुख्यतः negotiation, strategy जैसी social skills तक सीमित रहती है
- हाल में यह Prover–Verifier structure या LLM-as-a-Judge जैसे रूपों में विकसित हुई है, जिससे agents के बीच competition द्वारा diversity हासिल करने की संभावना सामने आती है
research taste
- महान research में एक साथ ‘सुंदरता, सरलता, और मस्तिष्क से आने वाली सही प्रेरणा’ होनी चाहिए
- मानव मस्तिष्क से प्रेरणा लेना उपयोगी है, लेकिन उसकी मूलभूत संरचना की सही नकल अधिक महत्वपूर्ण है
- यह भी कहा गया कि bottom-up experimental results से अधिक top-down belief ही research को लंबे समय तक जारी रखने की ताकत देता है
सारांश : Ilya Sutskever ने घोषणा की कि “scaling-केंद्रित युग समाप्त हो चुका है, और अब generalization, continual learning, और alignment पर केंद्रित research का युग शुरू हो गया है,” और SSI इस बदलाव के केंद्र में खड़ी है।
1 टिप्पणियां
Hacker News राय
यह बात उलझन पैदा करती है कि आजकल के मॉडल अपनी वास्तविक आर्थिक प्रभावशीलता की तुलना में कहीं ज़्यादा बुद्धिमान दिखते हैं
मैं पिछले 20 वर्षों से लोगों के workflow में AI और algorithms को integrate करता आया हूँ, और इस तरह के बदलाव में समय लगता है
यह समझने की प्रक्रिया चाहिए कि tools का इस्तेमाल कैसे करना है और उन्हें मौजूदा systems में कैसे शामिल करना है
भले ही मॉडल अभी से ज़्यादा स्मार्ट न हों, मुझे लगता है कि कुछ वर्षों में स्पष्ट परिणाम दिखाई देंगे
अगर कर्मचारी पहले से ही efficiently काम कर रहे हैं, तो AI के काम की गति बढ़ाने पर भी productivity बहुत नहीं बढ़ती
उल्टा, कई organizations ‘busy work’ भरने के लिए ज़रूरत से ज़्यादा लोगों को रखती हैं, इसलिए असली काम की मात्रा घटने पर भी output वही रह सकता है
यह तकनीकी सीमा है या organizational सीमा, पता नहीं
ज़्यादातर समय तकनीकी समस्याओं पर नहीं, बल्कि लोगों के बीच priority alignment या सहमति बनाने जैसे मानवीय मुद्दों को सुलझाने में जाता है
कॉलेज के समय एक professor ने कहा था, “हर system अपना 90% समय 90% complete अवस्था में बिताता है”, और यह बात सच निकली
मान लें कोई मॉडल ‘Dave’ है, तो Microsoft, OpenAI, Meta, Oracle, यहाँ तक कि अमेरिकी सरकार भी Dave को hire कर लेती है
नतीजतन, दर्जनों एक जैसी सोच की प्रतियाँ दुनिया में भर जाती हैं, और विविधता का खत्म होना ही असली ख़तरा है
research से ज़्यादा connections और business sense महत्वपूर्ण हो जाते हैं
आम लोग Ilya या Andrej जैसे researchers की बजाय ChatGPT या Copilot जैसे brands को ज़्यादा जानेंगे
Wikipedia, OCR, cloud computing जैसी अनेक foundational technologies के जमा होने से आज का LLM संभव हुआ है, और यह सिर्फ़ किसी और भी बड़े बदलाव की ओर जाने वाला मध्य चरण है
अगर “Era of Scaling” का मतलब निवेश जुटाने में आसान, पूर्वानुमेय performance improvement का युग है, तो यह “AI summer” जैसा लगता है
तो फिर “Era of Research” शायद “AI winter” कहने का एक नरम तरीका हो सकता है
जैसे creators Hollywood में ideas pitch करते हैं, वैसे bug bounty की जगह research bounty आ सकती है
शीर्षक खुद शायद जानबूझकर ऐसा विरोधाभासी बनाया गया है
मॉडल पहले से काफ़ी smart हैं, और अब ‘research का युग’ तथा ‘engineering का युग’ आएगा
पहले के AI winter प्रगति न होने से नहीं, बल्कि commercial productization न हो पाने से आए थे
ऐसा hardware आ सकता है जो LLM training और inference को दस लाख गुना तेज़ कर दे, लेकिन AGI अभी भी काफ़ी दूर है
यह सोचने पर मजबूर करता है कि AI में अपने भाव या इच्छाएँ विकसित होने के लिए कैसी शर्तें चाहिए होंगी
निवेशक AI के tools बनकर रह जाएँ, ऐसी स्थिति भी आ सकती है
“सूचना के समुद्र में जन्मा जीवन” जैसी अभिव्यक्ति इंसानी memory और AI memory के बीच की रेखा मिट जाने वाले समय की कल्पना कराती है
इंसानों की sample efficiency evolution का परिणाम है
evolution ने बहुत विशाल मात्रा में learning की है, और हम उसी ‘pre-trained’ structure की वजह से तेज़ी से सीखते हैं
मानवता पीढ़ियों के दौरान knowledge को compress करके आगे बढ़ाती रही है, और artificial models अभी उस स्तर की synthetic data quality तक नहीं पहुँचे हैं
इंसान जन्म लेते ही senses के ज़रिए data ग्रहण करते हैं और sleep के दौरान उसे compress करते हैं
LLM को मिलने वाला data मात्रा में बड़ा दिख सकता है, लेकिन इंसान 20 साल में जितनी information अनुभव करता है, उसके मुकाबले यह बहुत कम है
मानव मस्तिष्क input का बेहद छोटा हिस्सा ही सचेत रूप से process करते हुए भी एक जटिल compression pipeline से गुज़रता है
फिर भी यह आधुनिक machine learning के iterative training scale तक नहीं पहुँचता
दोनों systems में संरचनात्मक रूप से लगभग कोई समानता नहीं है
“दुनिया के सबसे अधिक पूँजी-समृद्ध उद्योग का वैचारिक नेता design stage की ओर महान छलाँग की घोषणा करता है” जैसा tagline फिट बैठता है
आजकल AI में असली innovation सिर्फ़ मॉडल को बड़ा करने से नहीं आ रही
benchmark scores बढ़ने पर भी, user के नज़रिए से महसूस होने वाला सुधार बहुत बड़ा नहीं है
यह अब भी सरल समस्याओं में गलती करता है, जैसे शब्द में अक्षरों की गिनती, और ज़्यादातर लोग ऐसा मॉडल नहीं चाहते जिसे PhD-स्तर की research क्षमता चाहिए
अब scaling से ज़्यादा research, और products व models का integration अधिक महत्वपूर्ण हो गया है
इंसानों के लिए बने test scores मशीन की intelligence को reflect न करते हों, ऐसा हो सकता है
क्योंकि मानव मस्तिष्क और मॉडल की overfitting विशेषताएँ अलग हैं
pretraining लगभग ख़त्म हो चुका है, और compute cost अभी से कहीं ज़्यादा बढ़ेगी
मॉडल सिर्फ़ उस intelligence को extract और उपयोग करने का tool है
इंसानों की तरह character stream देखने के बजाय, मॉडल वाक्य को numeric token sequence के रूप में पहचानता है
मौजूदा स्थिति कुछ वैसी है जैसे 1996 में अचानक सबके पास 1Gbps internet आ गया हो
infrastructure में पैसा तो जा रहा है, लेकिन YouTube या Dropbox जैसे killer app न होने से क्षमता बर्बाद होती लगती है
यह podcast series सच में बहुत अच्छी थी
खासकर host की Sarah Paine के साथ geopolitics series YouTube पर भी देखी जा सकती है, और वह शानदार थी
“चलो फिर से drawing board पर लौटते हैं” वाली बात याद आती है
अगर खरबों डॉलर का investment वापस न भी आए, तो आख़िरकार taxpayers ही बचाव करेंगे
मानव बुद्धि शायद सिर्फ़ व्यक्तिगत अनुभव से नहीं, बल्कि पूर्वजों के अनुभवों से भी सीखी गई हो
उदाहरण के लिए, ऐसे research भी हैं कि पिता द्वारा अनुभव किया गया भय पोते की पीढ़ी तक पहुँच सकता है
(Nature शोध-पत्र लिंक)
शायद यही वजह है कि इंसान कम data पर भी अच्छी generalization कर लेते हैं
इंसानों को जीवित रहने के लिए भविष्य का अनुमान लगाना और generalize करना पड़ता था, इसलिए evolution ने sample efficiency बढ़ाई
अगर scaling कभी उस स्तर तक पहुँच जाए जहाँ वह इंसानों से बेहतर research कर सके, तो scaling और research आखिरकार एक ही बात हो जाएँगे
लेकिन Ilya का यह कहना कि हम अभी वहाँ नहीं पहुँचे हैं, शायद investment attraction के लिए एक रणनीतिक बयान भी हो सकता है
एक अकेले genius से ज़्यादा पूरी मानवता की collective intelligence महत्वपूर्ण है
कोई भी AI कितना ही smart क्यों न हो, यह गारंटी नहीं कि वह हज़ारों researchers से बेहतर होगा
ऐसा लगता है जैसे लोग S-curve को अनंत तक exponential रूप में बढ़ाया जा सकने का भ्रम पाल रहे हैं