Google ने Gemini Robotics मॉडल कैसे विकसित किया
(blog.google)- Google DeepMind ने Gemini Robotics विकसित किया, जो भौतिक कार्य करने में सक्षम अगली पीढ़ी के रोबोट्स के लिए एक multimodal AI मॉडल है
- यह मॉडल Gemini 2.0 का robot-specialized data पर fine-tune किया गया संस्करण है, ताकि यह text, video, audio के साथ-साथ वास्तविक actions भी कर सके
- रोबोट सलाद बनाना, टिक-टैक-टो खेलना, ओरिगामी करना, लंचबॉक्स पैक करना जैसे विभिन्न कार्य कर सकते हैं
वास्तविक टेस्ट केस और संभावनाओं की पुष्टि
- रिसर्च के लिए इस्तेमाल होने वाले ALOHA dual-arm robot से विभिन्न कार्य करवाए गए
- उदाहरण: जूते के अंदर पेन रखना, basketball dunk shot की मांग आदि
- रोबोट ने ऐसे objects और tasks भी समझे और पहली कोशिश में सफलतापूर्वक पूरे किए, जिन्हें उसने पहले कभी नहीं देखा था
- मौजूदा मॉडलों से अलग, यह जटिल भौतिक निर्देशों को natural language में समझकर execute कर सकता है
Gemini Robotics की मुख्य विशेषताएँ
- इसमें उच्च लचीलापन, interaction capability, और generalization capability है
- अतिरिक्त training के बिना भी यह नए objects, environments, और instructions के अनुसार खुद को ढाल सकता है
- AI और रोबोट को एकीकृत agent के रूप में लागू करने की नींव तैयार करता है
- इंसानों जैसी perception, judgment, और action capabilities प्रदान करता है
घटक मॉडलों का परिचय
-
Gemini Robotics-ER (Embodied Reasoning):
- Gemini 2.0 Flash आधारित
- object recognition, position tracking, movement trajectory prediction, grip setting आदि के जरिए code generate और execute करता है
- trusted testers और partners के लिए उपलब्ध कराया जा रहा है
-
Gemini Robotics:
- vision-language-action integrated model
- scene understanding, user interaction, और multi-step tasks करने में सक्षम
- जटिल manipulation और spatial reasoning वाले कार्यों में भी state-of-the-art dexterity performance दर्ज की
विशिष्ट तकनीकी क्षमताएँ
- 2D और 3D object detection
- pointing (निर्देशन) capability
- कई views में corresponding points ढूंढना
- विभिन्न visual information का उपयोग कर manipulation capability हासिल करना
training approach और फायदे
- पारंपरिक industrial approach यानी single-task repetitive training के बजाय, विभिन्न tasks के माध्यम से व्यापक learning चुनी गई
- इसके परिणामस्वरूप, generalization capability स्वाभाविक रूप से उभरी
- इसे विभिन्न प्रकार के रोबोट्स पर लागू किया जा सकता है
- उदाहरण: ALOHA (research), Apptronik का Apollo (humanoid robot)
विभिन्न प्रकार के रोबोट्स का समर्थन
- लंचबॉक्स पैक करना, whiteboard साफ करना, छोटे objects उठाना जैसे कार्य विभिन्न प्रकार के रोबोट्स द्वारा किए गए
- मुख्य बात यह है कि एक ही मॉडल कई रोबोट्स के अनुरूप ढल सकता है
भविष्य की दृष्टि
- ऐसे industrial sectors में उपयोगी होने की उम्मीद है, जहाँ precision वाले कार्य जरूरी हों या वातावरण इंसानों के लिए उपयुक्त न हो
- घर जैसे मानव-केंद्रित environments में मददगार रोबोट के रूप में भी विकसित होने की संभावना है
- वास्तविक दैनिक जीवन में रोबोट AI के साथ एक और interface बन सकते हैं
1 टिप्पणियां
Hacker News राय