- Gemini 2.0 को robotics में लाकर vision-language-action (VLA) मॉडल और spatial understanding वाला ER मॉडल पेश किया गया
- Google DeepMind जटिल समस्याओं को हल करने के लिए text, image, audio और video का उपयोग करने वाली multimodal reasoning क्षमताओं को विकसित करता रहा है
- लेकिन ये क्षमताएँ अब तक सिर्फ digital environment तक सीमित थीं
- physical world में AI को उपयोगी बनने के लिए इंसानों की तरह environment को समझने और प्रतिक्रिया देने तथा सुरक्षित तरीके से काम करने वाली "embodied reasoning" क्षमता की ज़रूरत है
- इसी के तहत दो नए मॉडल पेश किए गए
- Gemini Robotics: Gemini 2.0 पर आधारित vision-language-action (VLA) मॉडल, जो robots को सीधे नियंत्रित कर सकता है
- Gemini Robotics-ER: बेहतर spatial understanding और robot control क्षमता देने वाला मॉडल
- Apptronik के साथ साझेदारी में अगली पीढ़ी के humanoid robots विकसित किए जा रहे हैं
- कुछ भरोसेमंद test users के साथ मिलकर मॉडल की performance में सुधार किया जा रहा है
Gemini Robotics: सबसे उन्नत vision-language-action मॉडल
1. सामान्यीकरण क्षमता (Generality)
- नए हालात में भी adapt होकर कई तरह के tasks कर सकता है
- नए objects, commands और environments में बेहतरीन performance दिखाता है
- technical report के अनुसार, मौजूदा VLA मॉडलों की तुलना में generalization performance 2 गुना से अधिक बेहतर है
2. इंटरैक्टिव क्षमता (Interactivity)
- natural language commands को समझ और respond कर सकता है
- कई भाषाओं और रोज़मर्रा की भाषा के commands को संभाल सकता है
- environment में बदलाव पर real time में प्रतिक्रिया देकर अपने actions बदल सकता है
- अगर कोई object हाथ से फिसल जाए या उसकी जगह बदल जाए, तब भी तुरंत replan करके काम जारी रख सकता है
3. हाथों की कुशलता (Dexterity)
- बारीक tasks करने की क्षमता मज़बूत की गई है
- जटिल multi-step tasks कर सकता है, जैसे paper folding या zip bag में snacks भरना
4. robots के कई रूपों पर लागू होने की क्षमता (Multiple embodiments)
- robots के अलग-अलग रूपों पर आसानी से लागू किया जा सकता है
- ALOHA 2, Franka-आधारित robots और humanoid Apollo robot पर इसके काम करने की पुष्टि हुई है
Gemini Robotics-ER: मज़बूत spatial understanding क्षमता
- Gemini 2.0 की spatial awareness और 3D detection performance को काफ़ी बढ़ाया गया है
- robot objects की स्थिति पहचानकर उन्हें उचित तरीके से manipulate कर सकता है
- code generation क्षमता के साथ मिलकर robot मौके पर ही नए task methods बना सकता है
- सफलता दर Gemini 2.0 की तुलना में 2~3 गुना बेहतर हुई है
- demo उदाहरण: coffee mug के handle को पहचानकर सुरक्षित path से पहुँचकर उसे उठा लेना
AI और robots की सुरक्षा मज़बूत करने की रणनीति
- robots की physical safety समस्याओं के समाधान पर फोकस
- robots collision avoidance, contact force limits और dynamic stability बनाए रखने जैसे पारंपरिक safety measures लागू करते हैं
- Gemini Robotics-ER सुरक्षा संबंधी चिंता होने पर तय कर सकता है कि task करना है या नहीं, और उसी अनुसार प्रतिक्रिया देता है
- नया ASIMOV dataset जारी किया गया → robot behavior की safety का मूल्यांकन और सुधार इसका उद्देश्य है
- internal responsibility और safety committees तथा external experts के साथ मिलकर ethical issues पर काम किया जा रहा है
प्रमुख साझेदार और आगे की योजना
- Apptronik के साथ मिलकर humanoid robots विकसित किए जा रहे हैं
- Agile Robots, Agility Robots, Boston Dynamics, Enchanted Tools आदि में Gemini Robotics-ER का परीक्षण चल रहा है
- आगे भी AI और robotics technology के विकास को लगातार आगे बढ़ाने की योजना है
संबंधित लिंक
1 टिप्पणियां
Hacker News राय