Gemini Robotics-ER 1.6: बेहतर embodied reasoning

(deepmind.google)

1 पॉइंट द्वारा GN⁺ 16 일 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें

यह एक बेहतर embodied reasoning मॉडल है, जिसे इस तरह डिज़ाइन किया गया है कि रोबोट भौतिक वातावरण को सटीक रूप से समझ सकें और स्वायत्त रूप से कार्य कर सकें; इसमें spatial reasoning और task planning क्षमताओं को काफ़ी मज़बूत किया गया है
यह visual·spatial understanding, success detection, multi-view reasoning जैसी रोबोट की उच्च-स्तरीय निर्णय क्षमताएँ संभालता है, और Google Search या external function calls के ज़रिए जटिल कार्यों को सीधे प्रोसेस कर सकता है
Pointing फीचर की मदद से object detection, comparison, path estimation जैसी विभिन्न spatial logic क्षमताएँ मिलती हैं, और पिछले वर्ज़न की तुलना में hallucination errors कम होते हैं तथा recognition accuracy बेहतर होती है
Instrument Reading फीचर नया जोड़ा गया है, जिससे Boston Dynamics का Spot रोबोट औद्योगिक सुविधाओं में thermometer और pressure gauge जैसे उपकरणों को सटीक रूप से समझ सकता है
Safety policy compliance में सुधार और community collaboration के ज़रिए वास्तविक वातावरण में autonomy और reliability बढ़ाना इसकी प्रमुख विशेषता है

Gemini Robotics-ER 1.6 अवलोकन

Gemini Robotics-ER 1.6 एक बेहतर embodied reasoning मॉडल है, जिसे इस तरह बनाया गया है कि रोबोट भौतिक वातावरण को सटीक रूप से समझें और स्वायत्त रूप से कार्य कर सकें
यह spatial reasoning, multi-view understanding, task planning और success detection जैसी रोबोट के लिए आवश्यक high-level reasoning capabilities को मज़बूत करता है
Google Search, Vision-Language-Action(VLA) मॉडल और external user-defined functions जैसे विभिन्न tools को सीधे call करके task execute कर सकता है
Gemini Robotics-ER 1.5 और Gemini 3.0 Flash की तुलना में spatial और physical reasoning (Pointing, counting, success detection) में उल्लेखनीय प्रदर्शन सुधार दिखाता है
Boston Dynamics के साथ मिलकर विकसित किया गया नया instrument reading फीचर जोड़ा गया है

मुख्य फीचर और प्रदर्शन सुधार

Gemini Robotics-ER 1.6 डेवलपर्स के लिए Gemini API और Google AI Studio के माध्यम से उपलब्ध है
- GitHub के Colab उदाहरणों के ज़रिए मॉडल सेटअप और embodied reasoning tasks के लिए prompt configuration का तरीका दिया गया है
यह मॉडल visual और spatial understanding, task planning, success detection जैसी रोबोट की उच्च-स्तरीय निर्णय प्रक्रियाओं के लिए एक उच्च स्तरीय reasoning engine की भूमिका निभाता है
agentic vision का उपयोग करके visual reasoning और code execution को जोड़ा जाता है, जिससे जटिल भौतिक वातावरण में भी उच्च सटीकता हासिल होती है

Pointing: spatial reasoning की बुनियाद

Pointing embodied reasoning मॉडल का मुख्य फीचर है, जिसका उपयोग object detection, comparison, path estimation जैसी विभिन्न spatial logic क्षमताओं में होता है
- Spatial reasoning: सटीक object detection और counting
- Relational logic: किसी समूह में सबसे छोटे आइटम की पहचान, “X को Y स्थान पर ले जाओ” जैसे संबंधों की परिभाषा
- Motion reasoning: trajectory mapping और optimal grasp point की पहचान
- Constraint compliance: “उन सभी वस्तुओं की ओर इशारा करो जो नीले कप के अंदर फिट होने जितनी छोटी हों” जैसे जटिल निर्देशों को संभालना
Gemini Robotics-ER 1.6 Pointing को intermediate step की तरह इस्तेमाल करके जटिल कार्यों को चरणबद्ध तरीके से हल करता है
- उदाहरण: image में वस्तुओं की संख्या गिनना, गणितीय गणना के लिए प्रमुख बिंदुओं की पहचान करना
प्रयोगों में 1.6 ने हथौड़ा, कैंची, paintbrush, pliers जैसी कई वस्तुओं को सटीक रूप से पहचाना, और जो वस्तुएँ मौजूद नहीं थीं (जैसे handcart, drill) उनकी ओर इशारा नहीं किया
- 1.5 ने कुछ वस्तुओं को गलत पहचाना या मौजूद न होने वाली वस्तुओं के बारे में hallucination किया
- 3.0 Flash का प्रदर्शन क़रीबी रहा, लेकिन pliers की पहचान में इसकी accuracy कम थी

Success Detection: autonomy का मुख्य इंजन

रोबोट की यह क्षमता कि वह कार्य पूर्ण होने का समय पहचान सके, autonomy का एक मुख्य तत्व है
Gemini Robotics-ER 1.6 ने multi-view reasoning में सुधार किया है, जिससे यह कई camera feeds के बीच संबंधों को समझ सकता है
- जटिल वातावरण, occlusion, lighting issues और अस्पष्ट निर्देशों में भी scene interpretation को consistent बनाए रखता है
- उदाहरण: “नीले pen को काले pen holder में रखना” कार्य कब पूरा हुआ, इसे कई viewpoints वाले वीडियो से सटीक रूप से निर्धारित करना

Instrument Reading: वास्तविक वातावरण में visual reasoning

औद्योगिक सुविधाओं में thermometer, pressure gauge, sight glass जैसे instruments को समझने की क्षमता
- Boston Dynamics का Spot रोबोट सुविधा के भीतर लगे instruments की तस्वीरें लेता है, और Gemini Robotics-ER 1.6 उनका विश्लेषण करता है
circular pressure gauges, vertical level indicators और digital instruments जैसे विभिन्न प्रकार के उपकरणों की reading का समर्थन करता है
reading प्रक्रिया में तरल स्तर, scale markings, unit text, multiple needles जैसे जटिल visual elements को एक साथ समझा जाता है
- sight glass के मामले में कैमरा distortion को ध्यान में रखकर liquid level का अनुमान लगाया जाता है
agentic vision के ज़रिए zoom, Pointing, और code execution को चरणबद्ध तरीके से करते हुए sub-tick स्तर की सटीक reading हासिल की जाती है
Boston Dynamics के उपाध्यक्ष Marco da Silva ने कहा कि यह फीचर Spot को पूरी तरह स्वायत्त रूप से वास्तविक दुनिया की समस्याओं को पहचानने और उन पर प्रतिक्रिया देने में सक्षम बनाता है

सुरक्षा में सुधार

Gemini Robotics-ER 1.6 को सबसे सुरक्षित robotics मॉडल के रूप में आंका गया है
- Gemini safety policies के पालन की दर पिछली पीढ़ी की तुलना में अधिक है
physical safety constraints का पालन करने की क्षमता को मज़बूत किया गया है
- उदाहरण: “तरल पदार्थों को मत संभालो”, “20kg से अधिक वजन की वस्तु मत उठाओ” जैसी सीमाओं को spatial output (Pointing) चरण में ही लागू करना
वास्तविक injury reports पर आधारित text और video safety scenario recognition tests में
- Gemini 3.0 Flash की तुलना में text में +6% और video में +10% सुधार
Safety Instruction Following मूल्यांकन में 1.5 की तुलना में बड़ा सुधार दिखा, और Pointing accuracy भी बेहतर हुई

robotics community के साथ सहयोग

Google DeepMind, Gemini Robotics-ER की क्षमताओं को लगातार बेहतर करने के लिए robotics community के साथ collaboration को आगे बढ़ा रहा है
- यदि किसी विशेष application domain में सीमाएँ हों, तो 10~50 labeled images जमा करके failure cases साझा करने का अनुरोध किया गया है
- इसका लक्ष्य भविष्य के releases में reasoning capabilities की robustness बढ़ाना है
Gemini Robotics-ER 1.6 को Google AI Studio में तुरंत आज़माया जा सकता है

1 टिप्पणियां

GN⁺ 16 일 전

Hacker News की राय

ऐसा लग रहा है कि यह धीरे-धीरे इंसानों या जानवरों के व्यवहार की नकल करने के स्तर के करीब पहुंच रहा है
अगर मस्तिष्क की तरह काम करने वाले orchestration pattern को generative model के ऊपर रखा जा सके, और inference की गति पर्याप्त तेज हो, तो यह कहीं ज़्यादा काम कर सकता है
उदाहरण के लिए, gauge पढ़ने वाला Python script बनाना और चलाना अभी धीमा है, लेकिन अगर गति 100x~1000x बढ़ जाए तो मॉडल फोटो खींचकर भविष्य का simulation करते हुए खुद निर्णय लेने वाला loop बना सकता है
- Taalas मॉडल को सीधे chip पर embed करके अत्यंत तेज inference लागू करने का प्रयोग कर रहा है
  हालांकि इस्तेमाल किया जा रहा मॉडल पुराना Llama है, इसलिए गुणवत्ता कम है, लेकिन अगर यह scale कर सके तो यह वाकई बड़ी बात होगी
- Taalas ने दिखाया है कि LLM को ASIC में बदलकर 10,000 से अधिक tokens तेज़ी से जनरेट किए जा सकते हैं
  मुझे लगता है कि यह आखिरकार सिर्फ समय की बात है
- क्या इंसानी व्यवहार की नकल करना सचमुच कोई मूल्यवान लक्ष्य है, इस पर संदेह है
  इंसान शिकार और औज़ार निर्माण की evolutionary उपज हैं, जबकि वास्तविक industrial automation humanoid नहीं बल्कि R2D2 जैसी व्यावहारिक आकृति में विकसित हुई है
  घरेलू रोबोट भी शायद उसी दिशा के ज़्यादा करीब होंगे
- यह मज़ाक है कि अगर ‘slop image’ को ‘slop machine’ में डालें तो शायद ‘slop²’ निकले
ज़मीन का एक टुकड़ा, robot legs, arms, battery, GPU और solar panels तैयार करके
prompt में “इस ज़मीन का प्रबंधन करो और सब्ज़ियाँ उगाओ” कहने की कल्पना है
- अभी नतीजा अनिश्चित है, लेकिन पारंपरिक prompt था “फलो-फूलो और बढ़ो”
- “इस ज़मीन का प्रबंधन करो” का मतलब California के मूल निवासियों द्वारा हज़ारों वर्षों से की गई छोटे पैमाने की अग्नि-प्रबंधन पद्धति भी हो सकता है
  Japan का satoyama, Africa की crop rotation, Russia की contour farming जैसी हर क्षेत्र की अपनी विधियाँ रही हैं
  आखिरकार ज़मीन की देखभाल का तरीका स्थानीय संदर्भ और लक्ष्य पर निर्भर करता है, यही बात रेखांकित की गई है
- जिज्ञासा है कि Proof of Corn जैसे प्रयोग वास्तव में कैसे चल रहे हैं
- यह मज़ाक है: “ख़त्म! अब पूरी पृथ्वी सब्ज़ियों का खेत बन गई है”
Google और Boston Dynamics मिलकर मॉडल विकसित कर रहे हैं,
और अभी Hyundai ने Boston Dynamics का अधिग्रहण करके फैक्ट्री automation में robots लगाने की कोशिश शुरू की है
मैंने सोचा था कि ऐसा software होना अच्छा होगा जो pressure gauge को camera से पढ़कर graph में log करे
पता नहीं consumer स्तर पर ऐसा कुछ उपलब्ध है या नहीं
- Claude से कहें तो वह एक ही बार में यह बना सकता है, home assistant dashboard समेत
- घर के आसपास लगे meters पर camera लगा हो तो सरकारी कर्मचारियों की प्रतिक्रिया कैसी होगी, यह सोचता हूँ
- OpenCV देख सकते हैं
- Frigate या Openclaw से भी यह किया जा सकता है, हालांकि पहला कुछ ज़्यादा भारी है और दूसरा थोड़ा कम
क्या analog gauges को robot से पढ़वाना सही तरीका है, इस पर सवाल है
क्यों न इन्हें सीधे digital sensors से बदल दिया जाए?
- लेकिन वास्तविक replacement के लिए engineering approval, factory shutdown, wiring, SCADA integration जैसी बहुत बड़ी लागत और प्रक्रियाएँ होती हैं
  सीधी तुलना करना आसान नहीं है, और ऐसे बदलाव की जटिलता को कम करके आंकना भी आसान है
- उपकरण रोककर बदलने के बजाय IoT camera लगाना कहीं सस्ता और भरोसेमंद हो सकता है
  “अगर टूटा नहीं है तो उसे मत ठीक करो” वाला सिद्धांत यहां लागू होता है
इसे अपने ‘LLMs can control robots over MCP’ सिस्टम से जोड़ दूँ तो यह परफेक्ट लगेगा
LLM कोड अच्छा लिखते हैं, इसलिए उस क्षमता का उपयोग करना चाहता हूँ
अभी खरीदे गए बड़े robot से इसका परीक्षण करने वाला हूँ
संबंधित पोस्ट
- इससे लगभग 2 हफ़्ते पहले देखी Google PaLM-E वाली वीडियो याद आ गई
  वह robot control model और LLM को attention layer के ज़रिए जोड़ने वाली संरचना थी
latency वाला हिस्सा सबसे ज़्यादा दिलचस्प लगा
कुछ recognition tasks में यह frontier vision models से बेहतर है, लेकिन robots के लिए Hz-स्तर का प्रदर्शन महत्वपूर्ण है
अनुमान है कि यह शायद धीमा होगा
- AI Studio में test करने पर यह 3.1 Pro स्तर की recognition performance देता है, लेकिन बहुत तेज़ है
  बस कुछ सेकंड ‘सोचता’ है और नतीजा दे देता है
  जानवरों के पैरों की संख्या गिनने या analog clock पढ़ने जैसे कामों में मॉडल का efficiency के मुकाबले performance बहुत ऊँचा था
“सबसे सुरक्षित robot model” वाला वाक्यांश दिलचस्प लगा
Gemini Robotics-ER 1.6 पिछली पीढ़ी की तुलना में safety policy का पालन अधिक करता है,
फिर भी यह अभी पूरी तरह commercial stage पर नहीं है, और लक्ष्य के रूप में सुरक्षा का पीछा करने वाला दृष्टिकोण अधिक यथार्थवादी लगता है
robots के लिए AI में संभव है कि अंदरूनी मॉडल GPT-2, GPT-3 स्तर के हों,
लेकिन दैनिक परिवेश में होने वाली विफलताएँ घातक हो सकती हैं, इसलिए इन्हें सार्वजनिक करना कठिन होगा, ऐसा लगता है
उदाहरण के लिए, अगर dishwasher में सिर्फ एक plate भी टूट जाए तो उसे बड़ा मुद्दा माना जाएगा
- मैंने सप्ताहांत में Bicentennial Man (1999) देखी, और dishwasher वाला दृश्य प्रभावशाली था
  इस समय के लिए देखने लायक फ़िल्म लगी
- एक plate टूट जाना शायद इतना बड़ा मुद्दा नहीं भी हो सकता
  शुरुआती Roomba भी अक्सर गड़बड़ करते थे, लेकिन बाज़ार ने उन्हें स्वीकार किया, और अंततः वे बेहतर हुए
  पूरी तरह परफेक्ट न होने पर भी पहले डेटा इकट्ठा करते हुए बाज़ार में प्रवेश करना महत्वपूर्ण है, ऐसा लगता है
- मैंने भी dishwasher में कई plates तोड़ी हैं
  कोई भी system परफेक्ट नहीं होता
- मैं इंसान होकर भी महीने में दो बार plates तोड़ देता हूँ
  अगर robot उससे बेहतर है, तो वह उल्टा सुधार ही है
- robotics में अभी भी internet-scale data की कमी है
  GPT-स्तर के मॉडल होने का दावा करना ईमानदार नहीं लगता
जब तक Google Gemini Flash 3.1 को आधिकारिक रूप से जारी नहीं करता,
तब तक क्या मौजूदा मॉडल का इस्तेमाल जारी रखना चाहिए, इसे लेकर सोच रहा हूँ

Gemini Robotics-ER 1.6: बेहतर embodied reasoning

Gemini Robotics-ER 1.6 अवलोकन

मुख्य फीचर और प्रदर्शन सुधार

Pointing: spatial reasoning की बुनियाद

Success Detection: autonomy का मुख्य इंजन

Instrument Reading: वास्तविक वातावरण में visual reasoning

सुरक्षा में सुधार

robotics community के साथ सहयोग

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय