5 पॉइंट द्वारा GN⁺ 2025-06-26 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • रोबोट पर सीधे तैनात करके इस्तेमाल करने के लिए अनुकूलित उच्च-बहुउद्देश्यीय VLA (Vision-Language-Action) मॉडल
  • तेज़ task adaptation और सामान्य-purpose dexterity प्रदान करता है, तथा इंटरनेट कनेक्शन के बिना लोकल में चलकर low latency और durability सुनिश्चित करता है
  • बहुत कम compute resources की आवश्यकता होती है और इसमें bi-arm robot आधारित precision manipulation तथा तेज़ task switching की क्षमता है
  • डेवलपर Gemini Robotics SDK के साथ अपने environment के अनुसार जल्दी परीक्षण कर सकते हैं, और 50~100 छोटे demos से भी तेज़ task adaptation संभव है
  • अन्य on-device मॉडल्स की तुलना में बेहतर generalization और adaptation performance दिखाता है, तथा जटिल निर्देशों या नए tasks को भी कुशलतापूर्वक पूरा करता है
  • safety और responsible development principles लागू करके, वास्तविक environment और सामाजिक प्रभाव से जुड़े risks को न्यूनतम करने और feedback एकत्र करने की प्रणाली अपनाई गई है

We’re introducing an efficient, on-device robotics model with general-purpose dexterity and fast task adaptation

  • Gemini Robotics On-Device एक उच्च-दक्षता वाला VLA (Vision-Language-Action) मॉडल है, जिसे local robotics devices पर सीधे चलाने के लिए डिज़ाइन किया गया है
  • मार्च में पेश किए गए Gemini Robotics की multimodal reasoning capabilities और real-world understanding को वास्तविक भौतिक environment में लागू करता है
  • on-device मॉडल की प्रमुख ताकतें

    • नेटवर्क के बिना भी स्वतंत्र रूप से काम करता है, इसलिए low latency की आवश्यकता वाले या अस्थिर कनेक्टिविटी वाले environments में विशेष रूप से उपयोगी है
    • local environment के लिए optimized होने से तेज़ real-time task execution संभव है
    • विविध visual, semantic, और behavioral generalization क्षमताएँ रखता है
    • bi-arm robot आधारित सूक्ष्म manipulation tasks (जैसे zipper खोलना, कपड़े मोड़ना) कर सकता है
    • natural language निर्देशों को समझकर जटिल step-by-step tasks पूरा कर सकता है

SDK की मदद से आसान deployment और customization

  • Gemini Robotics SDK के माध्यम से डेवलपर अपने environment में मॉडल का परीक्षण कर सकते हैं, MuJoCo physics simulator का उपयोग करके टेस्ट कर सकते हैं और विभिन्न tasks पर लागू कर सकते हैं
  • 50~100 छोटे demos के साथ भी नए domains में तेज़ adaptation संभव है

Model capabilities and performance

  • Gemini Robotics On-Device को bi-arm robots के लिए बहुत कम compute resources के साथ उपयुक्त रूप से डिज़ाइन किया गया है
  • तेज़ experimentation, dexterity-based manipulation, local execution, और low-latency inference के लिए optimized है
  • natural language commands को पहचानता है, और zipper खोलना या कपड़े मोड़ना जैसे उच्च-कठिनाई वाले manipulation tasks भी सीधे कर सकता है
  • मौजूदा on-device मॉडल्स की तुलना में versatility और generalization performance बेहतर है, और जटिल multi-step निर्देशों को भी प्रभावी ढंग से संभालता है
  • यदि अधिक performance या कम प्रतिबंध वाला environment चाहिए, तो Gemini Robotics मॉडल (server-based) भी उपलब्ध है

Adaptable to new tasks, generalizable across embodiments

  • Gemini Robotics On-Device पहला ऐसा VLA मॉडल है जिसे fine-tune किया जा सकता है
  • 50~100 स्तर के demos से नए tasks के लिए तेज़ी से adapt करता है, और विभिन्न कठिनाई वाले dexterity tasks (zipper बंद करना, कार्ड निकालना, dressing pour करना आदि) में प्रतिस्पर्धी मॉडल्स से बेहतर adaptation performance दिखाता है
  • भले ही इसे किसी विशेष रोबोट (ALOHA) के लिए प्रशिक्षित किया गया हो, फिर भी अतिरिक्त training के साथ इसे Franka FR3 और Apollo humanoid जैसे विभिन्न प्रकार के robots तक विस्तारित किया जा सकता है
  • विविध निर्देशों, नए objects और जटिल industrial tasks (जैसे belt assembly) को भी संभाल सकता है

Responsible development and safety

  • मॉडल को AI Principles और integrated safety framework के आधार पर विकसित किया गया है
  • [Live API] आदि के माध्यम से semantic और content safety सुनिश्चित की जाती है, और low-level safety controllers के साथ जोड़कर वास्तविक संचालन के दौरान सुरक्षा को मज़बूत किया जाता है
  • Semantic Safety Benchmark और Red-Teaming जैसी विभिन्न evaluation systems के माध्यम से risks की जाँच की जाती है
  • समर्पित टीम (Responsible Development & Innovation, RSC) सामाजिक प्रभाव का आकलन और feedback संग्रह लगातार करती है
  • भरोसेमंद testers के समूह को pre-release access देकर शुरुआती usability और safety evaluation एकत्र किए जाते हैं

Accelerating innovation in robotics

  • Gemini Robotics On-Device robotics community को versatile और adaptive AI मॉडल प्रदान करके latency और connectivity समस्याओं से निपटने में मदद करता है
  • SDK के माध्यम से तेज़ deployment और task adaptation सुविधाओं के कारण innovation acceleration की उम्मीद है
  • Trusted Tester Program के जरिए मॉडल और SDK तक पहुँच उपलब्ध है
  • यह AI के physical world applications का विस्तार करता है और robotics क्षेत्र के भविष्य का नेतृत्व करने वाली दृष्टि प्रस्तुत करता है

1 टिप्पणियां

 
GN⁺ 2025-06-26
Hacker News राय
  • ह्यूमनॉइड रोबोटिक्स को लेकर आशावादी दृष्टिकोण है, लेकिन reliability को लेकर सवाल हैं। इंसानों के हाथ-पैर और हथेलियाँ दुनिया को लगातार छूते हुए स्वाभाविक घिसावट झेलती हैं, फिर भी खुद को संभाल लेने वाली एक अद्भुत प्रणाली हैं

    • औद्योगिक रोबोट reliability के मामले में बेहद उत्कृष्ट होते हैं। कई बार उनका MTBF (औसत खराबी-अंतराल) 100,000 घंटे से भी अधिक होता है। महत्वपूर्ण बात यह है कि औद्योगिक रोबोट को अधिकतम समय तक बिना खराब हुए चलने के लिए डिज़ाइन किया जाता है ताकि लाभप्रदता बढ़े। जर्मनी और जापान की कंपनियों ने reliability को प्राथमिकता देते हुए electric actuators विकसित किए और औद्योगिक रोबोट बाज़ार पर कब्ज़ा कर लिया। पहले अमेरिका की Cincinnati Millicron के hydraulic robots शक्तिशाली थे, लेकिन reliability कम होने के कारण प्रतिस्पर्धा में पीछे रह गए। लेकिन यह भी एक संशयपूर्ण दृष्टिकोण है कि मानव जैसी हथेलियों में छोटे-छोटे parts को बहुत अधिक बल सहना पड़ता है, इसलिए औद्योगिक रोबोट जैसी reliability हासिल करना कठिन हो सकता है संबंधित लिंक

    • निकट भविष्य की संभावनाएँ सोचकर यह बहुत रोमांचक भी लगता है और थोड़ा डरावना भी। पहले लगा था कि यह किसी विशेष उद्देश्य पर केंद्रित होगा, जैसे केवल सफाई करने वाला रोबोट, लेकिन वास्तव में जब यह तैयार होगा तो शायद बहुत general-purpose तरीके से इस्तेमाल किया जाएगा। इसमें बहुत सारे sensors और motors की ज़रूरत होगी, लेकिन self-driving cars की तुलना में इसका legal risk कम और ज़रूरी resources भी कम हो सकते हैं, यह दिलचस्प है

    • यह भी संभव है कि दूसरे रोबोट consumable parts को अपने-आप बदल दें

    • लगता है कि material science में आगे की research से इस समस्या का समाधान हो सकता है। अगर responsive लेकिन low-torque servo के साथ जोड़ा जाए, तो यह भी सुलझ सकने वाली समस्या लगती है

    • यह दिलचस्प है कि समय के साथ रोबोट एक-दूसरे से अलग तरह से “बदलते” जाएंगे। उदाहरण के लिए, mining robots जैसे कठोर वातावरण में parts धूल से बुरी तरह प्रभावित हो सकते हैं, यहाँ-वहाँ घिस सकते हैं, और पत्थर गिरने से मुड़ भी सकते हैं। अगर कोई दूसरा रोबोट अस्थायी मरम्मत कर भी दे, तब भी समय के साथ हर रोबोट थोड़ा-थोड़ा अलग हो जाएगा। जैसे commercial aircraft maintenance टक्कर या क्षति के अनुसार हर बार अलग ढंग से की जाती है, वैसे ही शायद रोबोट के लिए recycling एक आसान समाधान हो सकता है

  • यह जानने की जिज्ञासा है कि "trusted tester program" में शामिल होना आसान है या नहीं, और क्या SDK को आसानी से इस्तेमाल करने के लिए modules भी दिए जाते हैं

    • बताया गया कि संबंधित लेख के नीचे साइन-अप बटन है
  • यह SDK किस hardware पर चलता है, और क्या यह नवीनतम Raspberry Pi पर भी काम करता है, यह जानना चाहा गया

    • ब्लॉग पोस्ट के अनुसार कम से कम 8GB RAM वाला NVIDIA Jetson Orin चाहिए, और यह Jetson AGX Orin (64GB) तथा Orin NX (16GB) modules के लिए optimized है

    • यह भी उल्लेख है कि प्रोजेक्ट के एक contributor ने x पर पोस्ट किया कि यह 4090 graphics card पर चलता है संबंधित x लिंक

    • मूल रूप से इस सिस्टम को एक multimodal LLM (बड़े भाषा मॉडल) की तरह समझा जा सकता है। SmolVLA (0.5B parameters) जैसे छोटे models खास tasks के लिए तेज़ और efficient होते हैं, जबकि OpenVLA (Llama2 7B finetune) जैसे बड़े models अधिक general tasks के लिए होते हैं। Raspberry Pi पर भी कुछ विशेष-उद्देश्य वाले models चल सकते हैं, और अधिक सामान्य models के लिए high-performance consumer hardware पर्याप्त हो सकता है

  • MuJoCo लिंक वास्तव में github.com/google-deepmind/aloha_sim पर जाता है

  • मॉडल architecture को लेकर जिज्ञासा है, और अनुमान है कि यह LLM से काफी अलग होगा; अगर VLA architecture को विस्तार से समझाने वाला कोई लिंक हो तो साझा करने का अनुरोध है

    • वास्तव में यह LLM के बहुत करीब की संरचना लगती है। यह एक "Visual Language Action" VLA मॉडल है और Gemini 2.0 पर आधारित है। Gemini 2.0 भाषा, audio और video को native रूप से support करता है, इसलिए यह अनुमान लगाया जा सकता है कि इसमें "action" data भी शामिल किया जा सकता है। संभवतः output fine-tuning चरण में action data जोड़ा गया है। ऐसे native multimodal LLM आगे चलकर “brain” की भूमिका निभाएँगे
  • यह लगभग निश्चित है कि इन तकनीकों का उपयोग युद्ध मशीनों में भी होगा। on-device autonomy केंद्रीकृत सत्ता या जवाबदेही से बचने के लिए आदर्श है। drone operators के विपरीत, किसी इंसान पर war crimes का मुकदमा चलाना भी कठिन होगा। military contracts इतने बड़े हैं कि उनका विरोध करना मुश्किल है, और कठिन श्रम को हटाने की प्रवृत्ति अंततः इंसानों को ही पूरी तरह हटाने की ओर जाती दिखती है। "AI-Powered Automation for Every Decision" के साथ वह भविष्य साफ़ दिख रहा है जहाँ इंसानों के लिए लाभदायक जीवन समाप्त हो सकता है palantir.com

    • Boston Dynamics, जिसे Google ने MIT से जुड़ी पृष्ठभूमि के साथ अधिग्रहित किया था, ने रोबोटों के सैन्यीकरण से दूर रहने का वादा किया था, लेकिन DARPA, अमेरिकी रक्षा विभाग आदि जैसी सैन्य निवेश पृष्ठभूमि के कारण उस पर भरोसा करना बेहद कठिन है

    • लगभग हर उपयोगी तकनीक के military applications होते हैं। यह इतना बड़ा विवादास्पद मुद्दा क्यों है, समझ नहीं आता

    • लगता है कि इस रोबोट के लिए battlefield में drones से प्रतिस्पर्धा करना बहुत कठिन होगा। संभवतः इसकी लागत 1000 autonomous drones के बराबर होगी और इसे 100 गुना अधिक समय व resources चाहिए होंगे। drones ने वास्तविक युद्धक्षेत्र, जैसे यूक्रेन, में छोटा लेकिन शक्तिशाली साधन होने का प्रमाण दे दिया है, और चाहे इसकी mobility कितनी भी agile हो जाए, explosive drone से बचकर भागना कठिन होगा। चाहे Terminator के हाथ में shotgun ही क्यों न हो, एक के मुकाबले 5 drones तैनात करना आसान होगा, और ऐसे drones शायद कोई दूसरा autonomous robot भी बना सके

  • Google का यह पैटर्न प्रभावशाली है कि वह कोई innovative product चुपचाप जारी करता है और फिर वह जल्दी भुला दिया जाता है। बिना बड़े marketing push के सिर्फ़ एक blog post डालना, tech community में कुछ समय घूमना, फिर गायब हो जाना, और कुछ साल बाद “उसका क्या हुआ?” जैसा सवाल उठना—यह बार-बार होता है। फिर भी यह product काफ़ी शानदार दिखता है, इसलिए अच्छा होगा अगर कोई इससे एक बढ़िया startup बनाए

    • Google की ऐसी परियोजनाओं का मुख्य उद्देश्य regulators को संतुलित रखना है। इन्हें monetize करने का इरादा नहीं, बल्कि जानबूझकर पैसा जलाकर आगे बढ़ जाना है, और ऐसी आज़ादी उसी के पास होती है जो monopolistic company हो
  • कॉफी का एक कप लेकर API से जवाब आने का इंतज़ार करने वाला हूँ

  • लगता है कि रोबोट jailbreak होकर बैंक डकैती जैसी चीज़ें न कर सकें, इसके लिए GPU को private SOTA secure GPU cloud में ले जाना ही एकमात्र तरीका है

  • यह जिज्ञासा है कि क्या robots के लिए Three Laws of Robotics जैसी guardrails होंगी ताकि वे prompts चलाते हुए बेकाबू न हो जाएँ

    • Robotics की तीनों laws मूलतः काल्पनिक कथानक के संघर्ष के लिए बनाई गई थीं, इसलिए वास्तविक systems के लिए वैसा ढाँचा उपयुक्त नहीं होगा। वास्तव में Gemini Robotics की safety design बहु-स्तरीय है। मॉडल यह अनुमान लगाता है कि क्या सुरक्षित है, VLA execution options देता है, और अंत में low-level controller, जिसमें speed या force limits जैसी मुख्य safety features अंतर्निहित हैं, काम करता है

    • इस तरह के research का सामान्य शब्द Constitutional AI है, और कई robotics VLA में इसका प्रयोग/उद्धरण हो रहा है संबंधित शोधपत्र

    • वर्तमान में लागू guardrails तीन laws की बजाय IEC 61508 (अंतरराष्ट्रीय functional safety standard) के अधिक करीब लगती हैं

    • एक राय यह भी है कि “बिजली बंद कर देने वाला कोड” ही पर्याप्त है

    • यह भी मत है कि Robotics की तीन laws वास्तविक दुनिया में व्यावहारिक रूप से अर्थहीन नियम हैं