- यह एक बेहतर embodied reasoning मॉडल है, जिसे इस तरह डिज़ाइन किया गया है कि रोबोट भौतिक वातावरण को सटीक रूप से समझ सकें और स्वायत्त रूप से कार्य कर सकें; इसमें spatial reasoning और task planning क्षमताओं को काफ़ी मज़बूत किया गया है
- यह visual·spatial understanding, success detection, multi-view reasoning जैसी रोबोट की उच्च-स्तरीय निर्णय क्षमताएँ संभालता है, और Google Search या external function calls के ज़रिए जटिल कार्यों को सीधे प्रोसेस कर सकता है
- Pointing फीचर की मदद से object detection, comparison, path estimation जैसी विभिन्न spatial logic क्षमताएँ मिलती हैं, और पिछले वर्ज़न की तुलना में hallucination errors कम होते हैं तथा recognition accuracy बेहतर होती है
- Instrument Reading फीचर नया जोड़ा गया है, जिससे Boston Dynamics का Spot रोबोट औद्योगिक सुविधाओं में thermometer और pressure gauge जैसे उपकरणों को सटीक रूप से समझ सकता है
- Safety policy compliance में सुधार और community collaboration के ज़रिए वास्तविक वातावरण में autonomy और reliability बढ़ाना इसकी प्रमुख विशेषता है
Gemini Robotics-ER 1.6 अवलोकन
- Gemini Robotics-ER 1.6 एक बेहतर embodied reasoning मॉडल है, जिसे इस तरह बनाया गया है कि रोबोट भौतिक वातावरण को सटीक रूप से समझें और स्वायत्त रूप से कार्य कर सकें
- यह spatial reasoning, multi-view understanding, task planning और success detection जैसी रोबोट के लिए आवश्यक high-level reasoning capabilities को मज़बूत करता है
- Google Search, Vision-Language-Action(VLA) मॉडल और external user-defined functions जैसे विभिन्न tools को सीधे call करके task execute कर सकता है
- Gemini Robotics-ER 1.5 और Gemini 3.0 Flash की तुलना में spatial और physical reasoning (Pointing, counting, success detection) में उल्लेखनीय प्रदर्शन सुधार दिखाता है
- Boston Dynamics के साथ मिलकर विकसित किया गया नया instrument reading फीचर जोड़ा गया है
मुख्य फीचर और प्रदर्शन सुधार
- Gemini Robotics-ER 1.6 डेवलपर्स के लिए Gemini API और Google AI Studio के माध्यम से उपलब्ध है
- GitHub के Colab उदाहरणों के ज़रिए मॉडल सेटअप और embodied reasoning tasks के लिए prompt configuration का तरीका दिया गया है
- यह मॉडल visual और spatial understanding, task planning, success detection जैसी रोबोट की उच्च-स्तरीय निर्णय प्रक्रियाओं के लिए एक उच्च स्तरीय reasoning engine की भूमिका निभाता है
- agentic vision का उपयोग करके visual reasoning और code execution को जोड़ा जाता है, जिससे जटिल भौतिक वातावरण में भी उच्च सटीकता हासिल होती है
Pointing: spatial reasoning की बुनियाद
- Pointing embodied reasoning मॉडल का मुख्य फीचर है, जिसका उपयोग object detection, comparison, path estimation जैसी विभिन्न spatial logic क्षमताओं में होता है
- Spatial reasoning: सटीक object detection और counting
- Relational logic: किसी समूह में सबसे छोटे आइटम की पहचान, “X को Y स्थान पर ले जाओ” जैसे संबंधों की परिभाषा
- Motion reasoning: trajectory mapping और optimal grasp point की पहचान
- Constraint compliance: “उन सभी वस्तुओं की ओर इशारा करो जो नीले कप के अंदर फिट होने जितनी छोटी हों” जैसे जटिल निर्देशों को संभालना
- Gemini Robotics-ER 1.6 Pointing को intermediate step की तरह इस्तेमाल करके जटिल कार्यों को चरणबद्ध तरीके से हल करता है
- उदाहरण: image में वस्तुओं की संख्या गिनना, गणितीय गणना के लिए प्रमुख बिंदुओं की पहचान करना
- प्रयोगों में 1.6 ने हथौड़ा, कैंची, paintbrush, pliers जैसी कई वस्तुओं को सटीक रूप से पहचाना, और जो वस्तुएँ मौजूद नहीं थीं (जैसे handcart, drill) उनकी ओर इशारा नहीं किया
- 1.5 ने कुछ वस्तुओं को गलत पहचाना या मौजूद न होने वाली वस्तुओं के बारे में hallucination किया
- 3.0 Flash का प्रदर्शन क़रीबी रहा, लेकिन pliers की पहचान में इसकी accuracy कम थी
Success Detection: autonomy का मुख्य इंजन
- रोबोट की यह क्षमता कि वह कार्य पूर्ण होने का समय पहचान सके, autonomy का एक मुख्य तत्व है
- Gemini Robotics-ER 1.6 ने multi-view reasoning में सुधार किया है, जिससे यह कई camera feeds के बीच संबंधों को समझ सकता है
- जटिल वातावरण, occlusion, lighting issues और अस्पष्ट निर्देशों में भी scene interpretation को consistent बनाए रखता है
- उदाहरण: “नीले pen को काले pen holder में रखना” कार्य कब पूरा हुआ, इसे कई viewpoints वाले वीडियो से सटीक रूप से निर्धारित करना
Instrument Reading: वास्तविक वातावरण में visual reasoning
- औद्योगिक सुविधाओं में thermometer, pressure gauge, sight glass जैसे instruments को समझने की क्षमता
- Boston Dynamics का Spot रोबोट सुविधा के भीतर लगे instruments की तस्वीरें लेता है, और Gemini Robotics-ER 1.6 उनका विश्लेषण करता है
- circular pressure gauges, vertical level indicators और digital instruments जैसे विभिन्न प्रकार के उपकरणों की reading का समर्थन करता है
- reading प्रक्रिया में तरल स्तर, scale markings, unit text, multiple needles जैसे जटिल visual elements को एक साथ समझा जाता है
- sight glass के मामले में कैमरा distortion को ध्यान में रखकर liquid level का अनुमान लगाया जाता है
- agentic vision के ज़रिए zoom, Pointing, और code execution को चरणबद्ध तरीके से करते हुए sub-tick स्तर की सटीक reading हासिल की जाती है
- Boston Dynamics के उपाध्यक्ष Marco da Silva ने कहा कि यह फीचर Spot को पूरी तरह स्वायत्त रूप से वास्तविक दुनिया की समस्याओं को पहचानने और उन पर प्रतिक्रिया देने में सक्षम बनाता है
सुरक्षा में सुधार
- Gemini Robotics-ER 1.6 को सबसे सुरक्षित robotics मॉडल के रूप में आंका गया है
- Gemini safety policies के पालन की दर पिछली पीढ़ी की तुलना में अधिक है
- physical safety constraints का पालन करने की क्षमता को मज़बूत किया गया है
- उदाहरण: “तरल पदार्थों को मत संभालो”, “20kg से अधिक वजन की वस्तु मत उठाओ” जैसी सीमाओं को spatial output (Pointing) चरण में ही लागू करना
- वास्तविक injury reports पर आधारित text और video safety scenario recognition tests में
- Gemini 3.0 Flash की तुलना में text में +6% और video में +10% सुधार
- Safety Instruction Following मूल्यांकन में 1.5 की तुलना में बड़ा सुधार दिखा, और Pointing accuracy भी बेहतर हुई
robotics community के साथ सहयोग
- Google DeepMind, Gemini Robotics-ER की क्षमताओं को लगातार बेहतर करने के लिए robotics community के साथ collaboration को आगे बढ़ा रहा है
- यदि किसी विशेष application domain में सीमाएँ हों, तो 10~50 labeled images जमा करके failure cases साझा करने का अनुरोध किया गया है
- इसका लक्ष्य भविष्य के releases में reasoning capabilities की robustness बढ़ाना है
- Gemini Robotics-ER 1.6 को Google AI Studio में तुरंत आज़माया जा सकता है
अभी कोई टिप्पणी नहीं है.