Google ने Gemini Robotics मॉडल कैसे विकसित किया

(blog.google)

6 पॉइंट द्वारा GN⁺ 2025-04-04 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Google DeepMind ने Gemini Robotics विकसित किया, जो भौतिक कार्य करने में सक्षम अगली पीढ़ी के रोबोट्स के लिए एक multimodal AI मॉडल है
यह मॉडल Gemini 2.0 का robot-specialized data पर fine-tune किया गया संस्करण है, ताकि यह text, video, audio के साथ-साथ वास्तविक actions भी कर सके
रोबोट सलाद बनाना, टिक-टैक-टो खेलना, ओरिगामी करना, लंचबॉक्स पैक करना जैसे विभिन्न कार्य कर सकते हैं

वास्तविक टेस्ट केस और संभावनाओं की पुष्टि

रिसर्च के लिए इस्तेमाल होने वाले ALOHA dual-arm robot से विभिन्न कार्य करवाए गए
- उदाहरण: जूते के अंदर पेन रखना, basketball dunk shot की मांग आदि
- रोबोट ने ऐसे objects और tasks भी समझे और पहली कोशिश में सफलतापूर्वक पूरे किए, जिन्हें उसने पहले कभी नहीं देखा था
मौजूदा मॉडलों से अलग, यह जटिल भौतिक निर्देशों को natural language में समझकर execute कर सकता है

Gemini Robotics की मुख्य विशेषताएँ

इसमें उच्च लचीलापन, interaction capability, और generalization capability है
- अतिरिक्त training के बिना भी यह नए objects, environments, और instructions के अनुसार खुद को ढाल सकता है
AI और रोबोट को एकीकृत agent के रूप में लागू करने की नींव तैयार करता है
इंसानों जैसी perception, judgment, और action capabilities प्रदान करता है

घटक मॉडलों का परिचय

Gemini Robotics-ER (Embodied Reasoning):
- Gemini 2.0 Flash आधारित
- object recognition, position tracking, movement trajectory prediction, grip setting आदि के जरिए code generate और execute करता है
- trusted testers और partners के लिए उपलब्ध कराया जा रहा है
Gemini Robotics:
- vision-language-action integrated model
- scene understanding, user interaction, और multi-step tasks करने में सक्षम
- जटिल manipulation और spatial reasoning वाले कार्यों में भी state-of-the-art dexterity performance दर्ज की

विशिष्ट तकनीकी क्षमताएँ

2D और 3D object detection
pointing (निर्देशन) capability
कई views में corresponding points ढूंढना
विभिन्न visual information का उपयोग कर manipulation capability हासिल करना

training approach और फायदे

पारंपरिक industrial approach यानी single-task repetitive training के बजाय, विभिन्न tasks के माध्यम से व्यापक learning चुनी गई
इसके परिणामस्वरूप, generalization capability स्वाभाविक रूप से उभरी
इसे विभिन्न प्रकार के रोबोट्स पर लागू किया जा सकता है
- उदाहरण: ALOHA (research), Apptronik का Apollo (humanoid robot)

विभिन्न प्रकार के रोबोट्स का समर्थन

लंचबॉक्स पैक करना, whiteboard साफ करना, छोटे objects उठाना जैसे कार्य विभिन्न प्रकार के रोबोट्स द्वारा किए गए
मुख्य बात यह है कि एक ही मॉडल कई रोबोट्स के अनुरूप ढल सकता है

भविष्य की दृष्टि

ऐसे industrial sectors में उपयोगी होने की उम्मीद है, जहाँ precision वाले कार्य जरूरी हों या वातावरण इंसानों के लिए उपयुक्त न हो
घर जैसे मानव-केंद्रित environments में मददगार रोबोट के रूप में भी विकसित होने की संभावना है
वास्तविक दैनिक जीवन में रोबोट AI के साथ एक और interface बन सकते हैं

1 टिप्पणियां

GN⁺ 2025-04-04

Hacker News राय

वे यह कर सकते हैं, लेकिन फिर भी Pixel फोन का Gemini Assistant टाइमर सेट करने या shopping list में चीज़ें जोड़ने में फेल हो जाता है। (Google Assistant में यह ठीक से काम करता था)
"कैसे" के बारे में कोई भी व्याख्या नहीं है, लेकिन अगर यह फीचर आधा भी भरोसेमंद तरीके से काम करे, तो इसका असर ChatGPT से लगभग 100 गुना ज़्यादा होगा
AI और robotics में प्रगति बहुत रोमांचक है। Gemini जैसे जटिल सिस्टम की वजह से कंपनियों को ऐसे innovation को वास्तविकता में बदलने के लिए specialist teams पर निर्भर होना पड़ेगा
- AI research या robotics engineer जैसी specific roles को outsource करके, कंपनियां full-time hiring के बोझ के बिना top-tier talent ला सकती हैं
- यह देखना दिलचस्प है कि outsourcing robotics जैसे advanced industries में R&D को कैसे complement कर सकती है
- खासकर scalability और market entry speed के लिहाज़ से, यह उद्योग कैसे बदलेगा, इसे लेकर जिज्ञासा है
आखिरकार कोई तो घर के कामों में मदद करेगा
- आह, अच्छा है। बस, इसके पीछे पूरा military purpose है, लेकिन यह कोशिश अच्छी है कि हमें लगे वे हमारे कपड़े तह कर देंगे
"बास्केटबॉल उठाओ और dunk shot करो"। यही वह killer use case है जिसका हम इतने समय से इंतज़ार कर रहे थे :)
भले ही Google की robotics technology (software और hardware) state of the art हो, फिर भी संदेह है कि क्या वे वास्तव में इसे product में बदल पाएंगे
- यह वैसा ही लगता है जैसे वे transformer में अग्रणी थे, लेकिन ChatGPT के सामने उन्होंने अपना सारा advantage खो दिया
- लगता है Google में कुछ ऐसा है जो research से product तक प्रभावी रूप से transition नहीं कर पाता
- अगर आप मानते हैं कि Waymo आज product/market fit तक पहुंच चुका है, तो वह एक अच्छा counterexample हो सकता है, लेकिन फिर भी यह एहसास हटता नहीं कि Google अक्सर चीज़ें बाज़ार में ला नहीं पाता, या लाता भी है तो जमने से पहले छोड़ देता है
- सोच रहा हूँ कि क्या किसी के पास उनकी robotics efforts को लेकर कोई मजबूत राय या insight है
यह सोचकर डर लगता है कि ऐसे robots कभी defense industry में इस्तेमाल हो सकते हैं
- अगर robot "eraser को हटा दो" जैसे सामान्य commands समझ सकता है, तो "सभी दुश्मनों को खत्म कर दो" जैसे command की कल्पना करो
बस जिज्ञासा है, अगर इसे किसी को मारने का आदेश दिया जाए तो यह क्या करेगा? क्या यह robotics के laws का पालन करेगा?
April Fools!

Google ने Gemini Robotics मॉडल कैसे विकसित किया

वास्तविक टेस्ट केस और संभावनाओं की पुष्टि

Gemini Robotics की मुख्य विशेषताएँ

घटक मॉडलों का परिचय

विशिष्ट तकनीकी क्षमताएँ

training approach और फायदे

विभिन्न प्रकार के रोबोट्स का समर्थन

भविष्य की दृष्टि

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय