Google DeepMind ने Gemini Robotics पेश किया

(deepmind.google)

4 पॉइंट द्वारा GN⁺ 2025-03-13 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Gemini 2.0 को robotics में लाकर vision-language-action (VLA) मॉडल और spatial understanding वाला ER मॉडल पेश किया गया
Google DeepMind जटिल समस्याओं को हल करने के लिए text, image, audio और video का उपयोग करने वाली multimodal reasoning क्षमताओं को विकसित करता रहा है
लेकिन ये क्षमताएँ अब तक सिर्फ digital environment तक सीमित थीं
physical world में AI को उपयोगी बनने के लिए इंसानों की तरह environment को समझने और प्रतिक्रिया देने तथा सुरक्षित तरीके से काम करने वाली "embodied reasoning" क्षमता की ज़रूरत है
इसी के तहत दो नए मॉडल पेश किए गए
- Gemini Robotics: Gemini 2.0 पर आधारित vision-language-action (VLA) मॉडल, जो robots को सीधे नियंत्रित कर सकता है
- Gemini Robotics-ER: बेहतर spatial understanding और robot control क्षमता देने वाला मॉडल
Apptronik के साथ साझेदारी में अगली पीढ़ी के humanoid robots विकसित किए जा रहे हैं
कुछ भरोसेमंद test users के साथ मिलकर मॉडल की performance में सुधार किया जा रहा है

Gemini Robotics: सबसे उन्नत vision-language-action मॉडल

1. सामान्यीकरण क्षमता (Generality)

नए हालात में भी adapt होकर कई तरह के tasks कर सकता है
नए objects, commands और environments में बेहतरीन performance दिखाता है
technical report के अनुसार, मौजूदा VLA मॉडलों की तुलना में generalization performance 2 गुना से अधिक बेहतर है

2. इंटरैक्टिव क्षमता (Interactivity)

natural language commands को समझ और respond कर सकता है
कई भाषाओं और रोज़मर्रा की भाषा के commands को संभाल सकता है
environment में बदलाव पर real time में प्रतिक्रिया देकर अपने actions बदल सकता है
अगर कोई object हाथ से फिसल जाए या उसकी जगह बदल जाए, तब भी तुरंत replan करके काम जारी रख सकता है

3. हाथों की कुशलता (Dexterity)

बारीक tasks करने की क्षमता मज़बूत की गई है
जटिल multi-step tasks कर सकता है, जैसे paper folding या zip bag में snacks भरना

4. robots के कई रूपों पर लागू होने की क्षमता (Multiple embodiments)

robots के अलग-अलग रूपों पर आसानी से लागू किया जा सकता है
ALOHA 2, Franka-आधारित robots और humanoid Apollo robot पर इसके काम करने की पुष्टि हुई है

Gemini Robotics-ER: मज़बूत spatial understanding क्षमता

Gemini 2.0 की spatial awareness और 3D detection performance को काफ़ी बढ़ाया गया है
robot objects की स्थिति पहचानकर उन्हें उचित तरीके से manipulate कर सकता है
code generation क्षमता के साथ मिलकर robot मौके पर ही नए task methods बना सकता है
सफलता दर Gemini 2.0 की तुलना में 2~3 गुना बेहतर हुई है
demo उदाहरण: coffee mug के handle को पहचानकर सुरक्षित path से पहुँचकर उसे उठा लेना

AI और robots की सुरक्षा मज़बूत करने की रणनीति

robots की physical safety समस्याओं के समाधान पर फोकस
robots collision avoidance, contact force limits और dynamic stability बनाए रखने जैसे पारंपरिक safety measures लागू करते हैं
Gemini Robotics-ER सुरक्षा संबंधी चिंता होने पर तय कर सकता है कि task करना है या नहीं, और उसी अनुसार प्रतिक्रिया देता है
नया ASIMOV dataset जारी किया गया → robot behavior की safety का मूल्यांकन और सुधार इसका उद्देश्य है
internal responsibility और safety committees तथा external experts के साथ मिलकर ethical issues पर काम किया जा रहा है

प्रमुख साझेदार और आगे की योजना

Apptronik के साथ मिलकर humanoid robots विकसित किए जा रहे हैं
Agile Robots, Agility Robots, Boston Dynamics, Enchanted Tools आदि में Gemini Robotics-ER का परीक्षण चल रहा है
आगे भी AI और robotics technology के विकास को लगातार आगे बढ़ाने की योजना है

1 टिप्पणियां

GN⁺ 2025-03-13

Hacker News राय

YouTube पर 20 वीडियो डेमो देखे जा सकने वाली पूरी playlist का लिंक है
सोचता हूँ क्या किसी को याद नहीं कि पहले Google Gemini के प्रभावशाली डेमो में हेरफेर किया गया था
मैंने सोचा था कि Asimov के robot laws दिलचस्प sci-fi उपकरण हैं, लेकिन वास्तविक computing से उनका बहुत कम संबंध है
- पता चला कि Asimov अपने समय से आगे थे और LLM prompts लिख रहे थे
अगर कचरे की sorting आसान और तेज हो जाए, तो recycling efficiency 100 गुना बढ़ सकती है
- कुछ जगहें यह पहले से कर रही हैं, लेकिन ऐसी कई सरल नौकरियाँ हैं जहाँ robots दुनिया को बेहतर बना सकते हैं
मुख्य वीडियो के अंत में robot द्वारा pulley पर गोल belt चढ़ाने वाला दृश्य प्रभावशाली था
- training data में इस तरह की कई क्रियाएँ रही होंगी, लेकिन यह shirt fold करने या चीज़ें sort करने से अधिक सहज लगा
- लगता है पेज पर video auto-play/pause/scroll फीचर टूटा हुआ है
मैं एक ऐसे device की कामना करता हूँ जो real-time two-way translator की तरह काम करे
- अच्छा होगा अगर वहाँ रह सकूँ बिना German या किसी दूसरी भाषा सीखने में समय बर्बाद किए
- अगर सिर्फ English से खाना ऑर्डर करना और प्रशासनिक काम निपटाना संभव हो जाए, तो यह अद्भुत होगा
हर कोई China से robot arm मंगाकर उसे garage में install कर सकेगा और LLM की तरह text से program कर सकेगा
- अब बड़े स्तर पर सोचने का समय है
पक्का नहीं कह सकता कि वीडियो वास्तविक performance दिखाता है या marketing strategy है, लेकिन यह प्रभावशाली है
- Iron Man 1 के robot arms की याद दिलाता है
जब robots इतने कुशल हो जाएँ कि खाना तैयार कर सकें, तो यह job market के लिए turning point होगा
- मौजूदा models अभी उस स्तर तक नहीं पहुँचे हैं, लेकिन आने वाले कुछ वर्षों में synthetic data generation पर बड़े निवेश उन्हें उस स्तर के करीब ले जाते हैं या नहीं, यह देखना होगा
Google की समस्या यह है कि उसका advertising business इतना अधिक revenue लाता है कि दूसरे products का कोई खास मतलब नहीं रह जाता
- वे robots से सीखी गई बातों का इस्तेमाल ad revenue बढ़ाने में करेंगे

Google DeepMind ने Gemini Robotics पेश किया

Gemini Robotics: सबसे उन्नत vision-language-action मॉडल

1. सामान्यीकरण क्षमता (Generality)

2. इंटरैक्टिव क्षमता (Interactivity)

3. हाथों की कुशलता (Dexterity)

4. robots के कई रूपों पर लागू होने की क्षमता (Multiple embodiments)

Gemini Robotics-ER: मज़बूत spatial understanding क्षमता

AI और robots की सुरक्षा मज़बूत करने की रणनीति

प्रमुख साझेदार और आगे की योजना

संबंधित लिंक

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय