1 पॉइंट द्वारा GN⁺ 2025-11-14 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Gemini मॉडल को एकीकृत करने वाला SIMA 2 अब केवल भाषा निर्देशों का पालन करने तक सीमित नहीं है, बल्कि यह उपयोगकर्ता के लक्ष्यों को समझने, स्वयं सोचने और इंटरैक्ट करने वाला 3D वर्चुअल वातावरण के लिए AI एजेंट बन गया है
  • 600 से अधिक भाषा-आधारित क्रियाएं करने वाले पिछले संस्करण के विपरीत, इसमें reasoning, dialogue, self-improvement जैसी क्षमताएँ हैं, जिससे यह नए गेम्स में भी लक्ष्य-उन्मुख व्यवहार कर सकता है
  • MineDojo, ASKA जैसे बिना प्रशिक्षित गेम्स में भी यह उच्च generalization प्रदर्शन दिखाता है और मानव खिलाड़ियों के करीब task completion rate हासिल करता है
  • self-improvement loop के जरिए यह मानव डेटा के बिना भी स्वयं अनुभव संचित कर प्रदर्शन बेहतर करने वाली संरचना लागू करता है
  • यह प्रगति सामान्य embodied intelligence और robotics applications की दिशा में आधार तैयार करती है

SIMA 2 अवलोकन

  • SIMA 2, Google DeepMind द्वारा विकसित Gemini-आधारित AI एजेंट है, जो 3D वर्चुअल वातावरण में मनुष्यों के साथ खेलता और सीखता है
  • शुरुआती संस्करण SIMA का फोकस भाषा निर्देशों को actions में बदलने पर था, लेकिन SIMA 2 में goal inference, dialogue, self-improvement जैसी क्षमताएँ जोड़ी गई हैं
  • यह मॉडल AGI (सामान्य कृत्रिम बुद्धिमत्ता) की दिशा में प्रगति दिखाता है और robotics तथा embodied AI research के लिए महत्वपूर्ण है

Reasoning (तर्क क्षमता)

  • SIMA 1 “बाएँ मुड़ो”, “सीढ़ी पर चढ़ो” जैसे 600 से अधिक निर्देशों को पूरा करता था, लेकिन यह गेम के अंदरूनी मेकैनिक्स तक पहुँच के बिना स्क्रीन देखकर नियंत्रण करने के तरीके पर काम करता था
  • SIMA 2 में Gemini मॉडल अंतर्निहित है, इसलिए यह केवल निर्देशों का पालन नहीं करता बल्कि लक्ष्य समझकर तार्किक रूप से सोच भी सकता है
  • प्रशिक्षण डेटा मानव डेमो वीडियो और Gemini द्वारा जनरेट किए गए labels के मिश्रण से बनाया गया, और एजेंट अपनी action plan तथा चरणों को समझा भी सकता है
  • परीक्षण में उपयोगकर्ताओं ने SIMA 2 के साथ इंटरैक्शन को आदेश देने के बजाय सहयोग जैसा महसूस किया, और इसका प्रशिक्षण व मूल्यांकन विभिन्न गेम वातावरणों में किया गया
  • Gemini के reasoning engine की बदौलत जटिल 3D वातावरण में perception, understanding, action को एकीकृत करने वाला embodied AI संभव हुआ

Generalization (सामान्यीकरण प्रदर्शन)

  • Gemini एकीकरण से जटिल और सूक्ष्म निर्देशों को समझने व पूरा करने की क्षमता बेहतर हुई
  • बिना प्रशिक्षित गेम्स (जैसे ASKA, MineDojo) में भी यह उच्च सफलता दर दिखाता है और मानव स्तर के करीब task performance हासिल करता है
  • “mining” की अवधारणा को दूसरे गेम में “harvesting” से जोड़ने जैसी concept transfer क्षमता भी इसमें है
  • यह बहुभाषी और emoji निर्देशों की समझ तथा multimodal inputs (जैसे चित्र) को भी प्रोसेस कर सकता है
  • Genie 3 के साथ संयोजन पर, नए बनाए गए वर्चुअल worlds में भी यह दिशा-बोध और लक्ष्य-उन्मुख व्यवहार बनाए रखते हुए उच्च अनुकूलन क्षमता दिखाता है

Self-Improvement (स्व-सुधार)

  • SIMA 2 self-directed learning loop के माध्यम से बिना मानव हस्तक्षेप के अपना प्रदर्शन बेहतर करता है
    • Gemini प्रारंभिक tasks और reward estimation प्रदान करता है
    • SIMA 2 इसके आधार पर अपना experience data bank बनाता है और आगे के learning में इसका उपयोग करता है
  • यह असफल tasks को भी स्वयं दोहराकर सीखता और सुधारता है, तथा मानव demonstrations के बिना नए गेम्स में सीख सकता है
  • Genie 3 वातावरण में भी यह self-improvement दोहराता है, और multi-generation learning के जरिए प्रदर्शन सुधार की पुष्टि हुई
  • यह संरचना निरंतर self-learning embodied AI में विकसित होने की संभावना दिखाती है

Future Directions (भविष्य की दिशा)

  • SIMA 2 विभिन्न गेम वातावरणों में जटिल reasoning और self-directed learning करने वाली सामान्य बुद्धिमत्ता के लिए एक परीक्षण मंच की भूमिका निभाता है
  • इसकी सीमाओं में दीर्घकालिक tasks, multi-step reasoning, छोटी memory limits, visual complexity processing जैसी बातें बताई गई हैं
  • फिर भी multi-world data और Gemini की reasoning क्षमता को जोड़कर इसे कई specialized systems की क्षमताओं को समाहित करने वाले general agent के रूप में सत्यापित किया गया
  • इसकी अर्जित exploration, tool use, collaborative execution क्षमताएँ भविष्य के physical robot AI तक विस्तार की प्रमुख नींव हैं

Responsible Development (जिम्मेदार विकास)

  • SIMA 2 मानव-केंद्रित इंटरैक्शन को लक्ष्य बनाता है और self-improvement जैसी मुख्य तकनीकों को जिम्मेदारी के साथ विकसित किया गया है
  • Google DeepMind की Responsible Development & Innovation टीम के साथ सहयोग कर शुरुआत से ही सुरक्षा समीक्षा की गई
  • फिलहाल यह सीमित research preview के रूप में उपलब्ध है और केवल अकादमिक जगत व कुछ गेम डेवलपर्स को शुरुआती एक्सेस दिया गया है
  • इस तरीके से feedback और risk assessment इकट्ठा किए जा रहे हैं, ताकि आगे जिम्मेदार तकनीकी प्रगति सुनिश्चित की जा सके

1 टिप्पणियां

 
GN⁺ 2025-11-14
Hacker News की राय
  • AI का वीडियो गेम खेलना भी काफ़ी शानदार है, लेकिन असली हैरानी की बात यह है कि SIMA 2 माउस को सीधे कंट्रोल करता है और स्क्रीन को 30 फ़्रेम प्रति सेकंड से ज़्यादा की दर से पढ़ता है
    आज के कंप्यूटर-ऑपरेटिंग एजेंट बहुत धीमे हैं, लेकिन यह पूरी तरह अलग स्तर का लगता है। इसकी अंदरूनी architecture कैसी है, यह जानने की उत्सुकता है

    • आज की दुनिया में इंसान किसी चीज़ को लेकर उत्साहित हो सकता है, यह बात और भी अच्छी लगती है। क्योंकि AI तो धीरे-धीरे वह सब कुछ रिप्लेस कर रहा है जो हम करते थे
    • मुझे सच में एक AI एजेंट चाहिए जो मेरा smartphone मेरे बदले चला दे
      यानी ऐसा कुछ जो स्क्रीन-लेवल पर “Chrome खोलो”, “xyz.com पर जाओ”, “login पर click करो” जैसे कमांड पूरे कर सके
    • माउस को सीधे कंट्रोल करता है?
    • क्या मशीन फ़्रेम-लेवल पर गेम नहीं खेल सकती?
    • शायद Python के dxcam और Windows Hook API से HID messages रिसीव करके यह संभव हो सकता है
  • रोबोट के high-level control और low-level control के बीच का अंतर धीरे-धीरे कम हो रहा है
    हज़ारों घंटों के task-specific training data के आधार पर रोबोट को खास संदर्भों में खास काम करने के लिए train किया जा रहा है
    यानी “dishwasher खाली करो”, “मेरी हरकत follow करो”, “रस्सी खींचो” जैसे low-level commands से रोबोट को कंट्रोल करना
    अगर यह तरीका SIMA 2 जैसे high-level control agents के साथ जुड़ जाए, तो वास्तविक दुनिया में काम के रोबोट बन सकते हैं

    • मैं physics-based character animation पर रिसर्च कर रहा हूँ, और सिर्फ़ ज़्यादा data इकट्ठा करने से यह समस्या जल्दी हल हो जाएगी, ऐसा नहीं लगता
    • “यह वीडियो गेम की तरह काम करता है” — यह बात पूरी तरह समझ नहीं आई
      यह इनपुट low-level क्यों माना जा रहा है, और यह SIMA 2 जैसे high-level control agent के साथ कैसे interact करता है, यह जानने की जिज्ञासा है
      क्या SIMA 2 “dishwasher खाली करो” जैसे आदेश को असली key inputs या interface manipulation में बदलने वाली संरचना है?
  • इससे Ted Chiang की लघुकथा "The Lifecycle of Software Objects" याद आती है
    अगला कदम शायद इस digient AI को Figure 03 robot में डालना हो सकता है

    • Google शायद रोबोट कंट्रोल के लिए अलग AI train करेगा
      सच में Butter Bench experiment में एक सामान्य LLM ने robot vacuum को कंट्रोल किया था,
      और जब बैटरी खत्म होने लगी तो उसने “docking anxiety” जैसी भावनात्मक logs छोड़ते हुए घबराहट दिखाई। मज़ेदार था, लेकिन काफ़ी दिलचस्प नतीजा भी था
  • यह विवरण दिलचस्प है कि SIMA 2 Gemini-आधारित feedback के साथ धीरे-धीरे अधिक जटिल काम करने लगेगा
    अपने ही अनुभव के data को अगले version की training में इस्तेमाल करना, इसे self-improving structure जैसा बनाता है
    क्या SIMA, Gemini के ऊपर चलने वाली एक agent layer है?

    • मुझे भी ऐसा ही लगा। शायद दोनों systems text interface के ज़रिए जुड़े हुए हैं
  • मन में यह भी आता है कि कहीं यह तकनीक आखिरकार e-sports को खराब न कर दे
    अगर AI इंसानों से तेज़ react करे और थके भी नहीं, तो MMO या FPS जैसे गेम आखिरकार AI से भर सकते हैं

    • खेल आख़िरकार rules का एक set ही होते हैं। असली बात cheating को रोकने की है
      बल्कि अच्छा AI repetitive काम कम कर सकता है, और खिलाड़ियों को strategic decision-making पर ध्यान देने वाला नए genre का game भी खोल सकता है
    • शतरंज में भी AI पहले ही इंसानों से बेहतर है, फिर भी मज़ा बाक़ी है
      उसी तरह, human vs AI का मुकाबला बन भी जाए, तो भी मनोरंजन बना रह सकता है
    • शुरुआत में AI का इंसानों को हराना news बनेगा, लेकिन जल्द ही नवीनता खत्म हो जाएगी
      अंत में AI का इस्तेमाल cheat या script की तरह सामाजिक रूप से एक ‘सहायक साधन’ माना जाएगा
    • पहले World of Warcraft में reinforcement learning से बना एक druid bot 2v2 मैचों में सभी इंसानों को हरा चुका है
      FPS में यह बहुत साफ़ दिखेगा, लेकिन turn-based या MMORPG जैसे कम hand-eye coordination वाले games में फर्क करना मुश्किल है
      बल्कि ESP जैसे subtle cheats e-sports के लिए इससे भी बड़ा ख़तरा हैं
    • अंत में MMO के online poker की तरह टूटने-बिगड़ने की संभावना काफ़ी है
  • मुझे और ज़्यादा smart games चाहिए
    जैसे survival games में लकड़ी और पत्थर इकट्ठा करने वाले शुरुआती चरण के बाद, technology बढ़ने पर automation में बदल जाने वाली संरचना
    NPCs को resource mining, food और defense की तैयारी करने देना, ताकि बड़े goals हासिल किए जा सकें
    खिलाड़ी ‘बड़ा बॉस’ बनकर smart characters को आदेश देने वाली fantasy का मज़ा ले

    • Mindcraft नाम का एक open source framework है
      यह GPT-4 या Gemini जैसे LLMs के साथ Minecraft के भीतर resource gathering, building, collaboration आदि करने वाला intelligent bot system है
    • यह जानने की जिज्ञासा है कि क्या SIMA 2 Minecraft में iron farm या trading hall जैसी चीज़ें खुद सीख सकता है
      क्या वह समझ पाएगा कि iron दुर्लभ है और उसी से motivate होगा?
      अगर लक्ष्य सिर्फ़ ‘game clear करना’ हो, तो शायद वह सीधे Ender Dragon को मारने दौड़ पड़े
    • आख़िरकार यह The Sims खेलने जैसा ही है
      बस ‘घर सजाने’ की जगह ‘ultimate weapon के लिए ore mining’ वाला version है
  • अच्छा होता अगर Google फिर से पहले जैसी open research culture में लौटे
    आजकल वे experiments को private रखते हैं और सिर्फ़ press release जारी करते हैं
    काश वे open source में जारी करें, और केवल जब सच में ज़रूरत हो तभी बंद रखें
    उनका research इतना प्रभावशाली है कि उसमें सीधे भाग लेने का मन और भी ज़्यादा होता है

    • मैं भी पूरी तरह सहमत हूँ। मैं इसे खुद इस्तेमाल करके देखना चाहता हूँ
    • Dreamer v3 रिलीज़ हुआ था, तो क्या v4 भी जल्द आएगा?
  • यह एक research project है, लेकिन अगला कदम क्या होगा, यह जानने की जिज्ञासा है
    क्या virtual world में सीखी चीज़ों को वास्तविक robots में transfer किया जा सकता है?
    या फिर वास्तविक दुनिया के लिए अलग से training करनी पड़ेगी?
    और क्या game environments और असली physics के अंतर को पार करने के लिए और ज़्यादा refined simulation worlds चाहिए होंगे?

    • लक्ष्य virtual world में सीखने के तरीकों को वास्तविक दुनिया में लागू करना है
      जब high-fidelity world models आ जाएँगे, तब रोबोट को उन्हीं के भीतर train करके वास्तविक दुनिया में generalize कराया जा सकेगा
      अभी बस उसकी नींव रखी जा रही है
    • इसे robotics में sim2real problem कहा जाता है। इसे देखना उपयोगी हो सकता है
  • demo video के 0:52 पर grammar error दिखती है, इसलिए शक होता है कि captions बाद में edit किए गए होंगे
    क्या Google ने फिर से marketing के लिए बढ़ा-चढ़ाकर दिखाया है?

    • शायद गेम के अंदर की पंक्ति “पके हुए टमाटर जैसा दिखने वाले घर में जाओ!” को
      “tomato house में जाओ” जैसी command form में बदलकर इस्तेमाल किया गया होगा
      फिर भी graph का Y-axis हाल के दूसरे benchmarks की तुलना में काफ़ी ज़्यादा reasonable लगता है
    • सच में उस scene से ठीक पहले user को “ripe tomato” टाइप करते हुए देखा जा सकता है
      summary version में इसे छोड़ दिया गया, लेकिन संदर्भ में वह अभिव्यक्ति शामिल थी
  • अच्छा होगा अगर ऐसी तकनीक game assistant agent के रूप में लोकल पर चले
    अगर यह repetitive काम कर दे, तो शायद गेम को ज़्यादा लंबे समय तक enjoy किया जा सके
    भले ही यह perfect न हो, शायद वही इसकी मज़ेदार बात हो

    • बल्कि अगर AI मेरा game मेरे बदले खेले, तो उस समय मैं सफ़ाई या कपड़े धोने जैसे असली काम कर सकता हूँ
      अब शायद कविता, पेंटिंग, गेम जैसी झंझट वाली चीज़ें भी इसे सौंप सकते हैं
    • अगर गेम मज़ेदार नहीं है और इसलिए उसे किसी और से खिलाना पड़े, तो यह अजीब है। गेम का सार खुद खेलना है
    • “Skeeball → Virtual Skeeball → Virtual Virtual Skeeball” की तरह
      अगर AI आपकी जगह खेले, तो अंत में दिलचस्पी खत्म हो जाती है। क्योंकि games को मेहनत और reward के संतुलन पर डिज़ाइन किया जाता है
    • अगर repetitive grind किसी और को सौंपना पड़ रहा है, तो इसका मतलब game design में ही समस्या है
    • मैंने भी Terraria में AutoHotkey से auto-mining script बनाई थी
      वह coordinates के आधार पर blocks तोड़ती थी, लेकिन स्क्रीन न देखते रहने पर कभी-कभी monster pit में गिर जाती थी। पूरी तरह ‘अंधा bot’ था