- Gemini मॉडल को एकीकृत करने वाला SIMA 2 अब केवल भाषा निर्देशों का पालन करने तक सीमित नहीं है, बल्कि यह उपयोगकर्ता के लक्ष्यों को समझने, स्वयं सोचने और इंटरैक्ट करने वाला 3D वर्चुअल वातावरण के लिए AI एजेंट बन गया है
- 600 से अधिक भाषा-आधारित क्रियाएं करने वाले पिछले संस्करण के विपरीत, इसमें reasoning, dialogue, self-improvement जैसी क्षमताएँ हैं, जिससे यह नए गेम्स में भी लक्ष्य-उन्मुख व्यवहार कर सकता है
- MineDojo, ASKA जैसे बिना प्रशिक्षित गेम्स में भी यह उच्च generalization प्रदर्शन दिखाता है और मानव खिलाड़ियों के करीब task completion rate हासिल करता है
- self-improvement loop के जरिए यह मानव डेटा के बिना भी स्वयं अनुभव संचित कर प्रदर्शन बेहतर करने वाली संरचना लागू करता है
- यह प्रगति सामान्य embodied intelligence और robotics applications की दिशा में आधार तैयार करती है
SIMA 2 अवलोकन
- SIMA 2, Google DeepMind द्वारा विकसित Gemini-आधारित AI एजेंट है, जो 3D वर्चुअल वातावरण में मनुष्यों के साथ खेलता और सीखता है
- शुरुआती संस्करण SIMA का फोकस भाषा निर्देशों को actions में बदलने पर था, लेकिन SIMA 2 में goal inference, dialogue, self-improvement जैसी क्षमताएँ जोड़ी गई हैं
- यह मॉडल AGI (सामान्य कृत्रिम बुद्धिमत्ता) की दिशा में प्रगति दिखाता है और robotics तथा embodied AI research के लिए महत्वपूर्ण है
Reasoning (तर्क क्षमता)
- SIMA 1 “बाएँ मुड़ो”, “सीढ़ी पर चढ़ो” जैसे 600 से अधिक निर्देशों को पूरा करता था, लेकिन यह गेम के अंदरूनी मेकैनिक्स तक पहुँच के बिना स्क्रीन देखकर नियंत्रण करने के तरीके पर काम करता था
- SIMA 2 में Gemini मॉडल अंतर्निहित है, इसलिए यह केवल निर्देशों का पालन नहीं करता बल्कि लक्ष्य समझकर तार्किक रूप से सोच भी सकता है
- प्रशिक्षण डेटा मानव डेमो वीडियो और Gemini द्वारा जनरेट किए गए labels के मिश्रण से बनाया गया, और एजेंट अपनी action plan तथा चरणों को समझा भी सकता है
- परीक्षण में उपयोगकर्ताओं ने SIMA 2 के साथ इंटरैक्शन को आदेश देने के बजाय सहयोग जैसा महसूस किया, और इसका प्रशिक्षण व मूल्यांकन विभिन्न गेम वातावरणों में किया गया
- Gemini के reasoning engine की बदौलत जटिल 3D वातावरण में perception, understanding, action को एकीकृत करने वाला embodied AI संभव हुआ
Generalization (सामान्यीकरण प्रदर्शन)
- Gemini एकीकरण से जटिल और सूक्ष्म निर्देशों को समझने व पूरा करने की क्षमता बेहतर हुई
- बिना प्रशिक्षित गेम्स (जैसे ASKA, MineDojo) में भी यह उच्च सफलता दर दिखाता है और मानव स्तर के करीब task performance हासिल करता है
- “mining” की अवधारणा को दूसरे गेम में “harvesting” से जोड़ने जैसी concept transfer क्षमता भी इसमें है
- यह बहुभाषी और emoji निर्देशों की समझ तथा multimodal inputs (जैसे चित्र) को भी प्रोसेस कर सकता है
- Genie 3 के साथ संयोजन पर, नए बनाए गए वर्चुअल worlds में भी यह दिशा-बोध और लक्ष्य-उन्मुख व्यवहार बनाए रखते हुए उच्च अनुकूलन क्षमता दिखाता है
Self-Improvement (स्व-सुधार)
- SIMA 2 self-directed learning loop के माध्यम से बिना मानव हस्तक्षेप के अपना प्रदर्शन बेहतर करता है
- Gemini प्रारंभिक tasks और reward estimation प्रदान करता है
- SIMA 2 इसके आधार पर अपना experience data bank बनाता है और आगे के learning में इसका उपयोग करता है
- यह असफल tasks को भी स्वयं दोहराकर सीखता और सुधारता है, तथा मानव demonstrations के बिना नए गेम्स में सीख सकता है
- Genie 3 वातावरण में भी यह self-improvement दोहराता है, और multi-generation learning के जरिए प्रदर्शन सुधार की पुष्टि हुई
- यह संरचना निरंतर self-learning embodied AI में विकसित होने की संभावना दिखाती है
Future Directions (भविष्य की दिशा)
- SIMA 2 विभिन्न गेम वातावरणों में जटिल reasoning और self-directed learning करने वाली सामान्य बुद्धिमत्ता के लिए एक परीक्षण मंच की भूमिका निभाता है
- इसकी सीमाओं में दीर्घकालिक tasks, multi-step reasoning, छोटी memory limits, visual complexity processing जैसी बातें बताई गई हैं
- फिर भी multi-world data और Gemini की reasoning क्षमता को जोड़कर इसे कई specialized systems की क्षमताओं को समाहित करने वाले general agent के रूप में सत्यापित किया गया
- इसकी अर्जित exploration, tool use, collaborative execution क्षमताएँ भविष्य के physical robot AI तक विस्तार की प्रमुख नींव हैं
Responsible Development (जिम्मेदार विकास)
- SIMA 2 मानव-केंद्रित इंटरैक्शन को लक्ष्य बनाता है और self-improvement जैसी मुख्य तकनीकों को जिम्मेदारी के साथ विकसित किया गया है
- Google DeepMind की Responsible Development & Innovation टीम के साथ सहयोग कर शुरुआत से ही सुरक्षा समीक्षा की गई
- फिलहाल यह सीमित research preview के रूप में उपलब्ध है और केवल अकादमिक जगत व कुछ गेम डेवलपर्स को शुरुआती एक्सेस दिया गया है
- इस तरीके से feedback और risk assessment इकट्ठा किए जा रहे हैं, ताकि आगे जिम्मेदार तकनीकी प्रगति सुनिश्चित की जा सके
1 टिप्पणियां
Hacker News की राय
AI का वीडियो गेम खेलना भी काफ़ी शानदार है, लेकिन असली हैरानी की बात यह है कि SIMA 2 माउस को सीधे कंट्रोल करता है और स्क्रीन को 30 फ़्रेम प्रति सेकंड से ज़्यादा की दर से पढ़ता है
आज के कंप्यूटर-ऑपरेटिंग एजेंट बहुत धीमे हैं, लेकिन यह पूरी तरह अलग स्तर का लगता है। इसकी अंदरूनी architecture कैसी है, यह जानने की उत्सुकता है
यानी ऐसा कुछ जो स्क्रीन-लेवल पर “Chrome खोलो”, “xyz.com पर जाओ”, “login पर click करो” जैसे कमांड पूरे कर सके
रोबोट के high-level control और low-level control के बीच का अंतर धीरे-धीरे कम हो रहा है
हज़ारों घंटों के task-specific training data के आधार पर रोबोट को खास संदर्भों में खास काम करने के लिए train किया जा रहा है
यानी “dishwasher खाली करो”, “मेरी हरकत follow करो”, “रस्सी खींचो” जैसे low-level commands से रोबोट को कंट्रोल करना
अगर यह तरीका SIMA 2 जैसे high-level control agents के साथ जुड़ जाए, तो वास्तविक दुनिया में काम के रोबोट बन सकते हैं
यह इनपुट low-level क्यों माना जा रहा है, और यह SIMA 2 जैसे high-level control agent के साथ कैसे interact करता है, यह जानने की जिज्ञासा है
क्या SIMA 2 “dishwasher खाली करो” जैसे आदेश को असली key inputs या interface manipulation में बदलने वाली संरचना है?
इससे Ted Chiang की लघुकथा "The Lifecycle of Software Objects" याद आती है
अगला कदम शायद इस digient AI को Figure 03 robot में डालना हो सकता है
सच में Butter Bench experiment में एक सामान्य LLM ने robot vacuum को कंट्रोल किया था,
और जब बैटरी खत्म होने लगी तो उसने “docking anxiety” जैसी भावनात्मक logs छोड़ते हुए घबराहट दिखाई। मज़ेदार था, लेकिन काफ़ी दिलचस्प नतीजा भी था
यह विवरण दिलचस्प है कि SIMA 2 Gemini-आधारित feedback के साथ धीरे-धीरे अधिक जटिल काम करने लगेगा
अपने ही अनुभव के data को अगले version की training में इस्तेमाल करना, इसे self-improving structure जैसा बनाता है
क्या SIMA, Gemini के ऊपर चलने वाली एक agent layer है?
मन में यह भी आता है कि कहीं यह तकनीक आखिरकार e-sports को खराब न कर दे
अगर AI इंसानों से तेज़ react करे और थके भी नहीं, तो MMO या FPS जैसे गेम आखिरकार AI से भर सकते हैं
बल्कि अच्छा AI repetitive काम कम कर सकता है, और खिलाड़ियों को strategic decision-making पर ध्यान देने वाला नए genre का game भी खोल सकता है
उसी तरह, human vs AI का मुकाबला बन भी जाए, तो भी मनोरंजन बना रह सकता है
अंत में AI का इस्तेमाल cheat या script की तरह सामाजिक रूप से एक ‘सहायक साधन’ माना जाएगा
FPS में यह बहुत साफ़ दिखेगा, लेकिन turn-based या MMORPG जैसे कम hand-eye coordination वाले games में फर्क करना मुश्किल है
बल्कि ESP जैसे subtle cheats e-sports के लिए इससे भी बड़ा ख़तरा हैं
मुझे और ज़्यादा smart games चाहिए
जैसे survival games में लकड़ी और पत्थर इकट्ठा करने वाले शुरुआती चरण के बाद, technology बढ़ने पर automation में बदल जाने वाली संरचना
NPCs को resource mining, food और defense की तैयारी करने देना, ताकि बड़े goals हासिल किए जा सकें
खिलाड़ी ‘बड़ा बॉस’ बनकर smart characters को आदेश देने वाली fantasy का मज़ा ले
यह GPT-4 या Gemini जैसे LLMs के साथ Minecraft के भीतर resource gathering, building, collaboration आदि करने वाला intelligent bot system है
क्या वह समझ पाएगा कि iron दुर्लभ है और उसी से motivate होगा?
अगर लक्ष्य सिर्फ़ ‘game clear करना’ हो, तो शायद वह सीधे Ender Dragon को मारने दौड़ पड़े
बस ‘घर सजाने’ की जगह ‘ultimate weapon के लिए ore mining’ वाला version है
अच्छा होता अगर Google फिर से पहले जैसी open research culture में लौटे
आजकल वे experiments को private रखते हैं और सिर्फ़ press release जारी करते हैं
काश वे open source में जारी करें, और केवल जब सच में ज़रूरत हो तभी बंद रखें
उनका research इतना प्रभावशाली है कि उसमें सीधे भाग लेने का मन और भी ज़्यादा होता है
यह एक research project है, लेकिन अगला कदम क्या होगा, यह जानने की जिज्ञासा है
क्या virtual world में सीखी चीज़ों को वास्तविक robots में transfer किया जा सकता है?
या फिर वास्तविक दुनिया के लिए अलग से training करनी पड़ेगी?
और क्या game environments और असली physics के अंतर को पार करने के लिए और ज़्यादा refined simulation worlds चाहिए होंगे?
जब high-fidelity world models आ जाएँगे, तब रोबोट को उन्हीं के भीतर train करके वास्तविक दुनिया में generalize कराया जा सकेगा
अभी बस उसकी नींव रखी जा रही है
demo video के 0:52 पर grammar error दिखती है, इसलिए शक होता है कि captions बाद में edit किए गए होंगे
क्या Google ने फिर से marketing के लिए बढ़ा-चढ़ाकर दिखाया है?
“tomato house में जाओ” जैसी command form में बदलकर इस्तेमाल किया गया होगा
फिर भी graph का Y-axis हाल के दूसरे benchmarks की तुलना में काफ़ी ज़्यादा reasonable लगता है
summary version में इसे छोड़ दिया गया, लेकिन संदर्भ में वह अभिव्यक्ति शामिल थी
अच्छा होगा अगर ऐसी तकनीक game assistant agent के रूप में लोकल पर चले
अगर यह repetitive काम कर दे, तो शायद गेम को ज़्यादा लंबे समय तक enjoy किया जा सके
भले ही यह perfect न हो, शायद वही इसकी मज़ेदार बात हो
अब शायद कविता, पेंटिंग, गेम जैसी झंझट वाली चीज़ें भी इसे सौंप सकते हैं
अगर AI आपकी जगह खेले, तो अंत में दिलचस्पी खत्म हो जाती है। क्योंकि games को मेहनत और reward के संतुलन पर डिज़ाइन किया जाता है
वह coordinates के आधार पर blocks तोड़ती थी, लेकिन स्क्रीन न देखते रहने पर कभी-कभी monster pit में गिर जाती थी। पूरी तरह ‘अंधा bot’ था