Shoggoth Mini – GPT-4o और RL से संचालित सॉफ्ट टेंटेकल रोबोट

(matthieulc.com)

8 पॉइंट द्वारा GN⁺ 2025-07-16 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Shoggoth Mini एक सॉफ्ट टेंटेकल रोबोट है जो GPT-4o और reinforcement learning का उपयोग करके स्वाभाविक और अभिव्यक्तिपूर्ण मूवमेंट लागू करता है
मौजूदा घरेलू रोबोटों से अलग, इसे इंसानों के साथ इंटरैक्शन के दौरान अपनी आंतरिक अवस्था या इरादे व्यक्त करने के लिए डिज़ाइन किया गया है
हार्डवेयर डिज़ाइन से लेकर सॉफ्टवेयर, कैमरा perception और control system तक पूरे प्रोसेस को विस्तार से समझाया गया है
2D trackpad input को 3D टेंटेकल control से सहज रूप से मैप करके उपयोगिता बढ़ाई गई है, और आधुनिक computer vision व RL तकनीकों के संयोजन से मूवमेंट की precision और expressiveness हासिल की गई है
अंत में रोबोट की जीवंतता, अनुमान न लगा पाने योग्य स्वभाव और मानव-मित्रता के बीच संतुलन पर विचार और आगे के विस्तार के आइडिया प्रस्तुत किए गए हैं

परिचय और पृष्ठभूमि

पिछले एक वर्ष में robotics क्षेत्र ने large language model (LLM) युग के साथ जुड़कर तेज़ी से प्रगति की है
उदाहरण के तौर पर π0.5, Tesla Optimus जैसे सिस्टम भाषा में दिए गए निर्देश समझकर वास्तविक क्रियाएँ करते हैं, लेकिन अधिकांश अभी भी functional robot के स्तर तक सीमित हैं
यह रेखांकित किया गया है कि मानव-रोबोट इंटरैक्शन की स्वाभाविकता और आंतरिक अवस्था (इरादा, ध्यान, आत्मविश्वास आदि) को संप्रेषित करने में 'expressiveness' प्रमुख तत्व है
Pixar जैसी लैंप-स्टाइल (Apple ELEGNT) और केवल साधारण मूवमेंट से अजीब तरह का ‘जीवित’ एहसास देने वाले SpiRobs से प्रेरित होकर, इरादतन अभिव्यक्ति डिज़ाइन और संयोगवश उत्पन्न जीवन्तता के अंतर में रुचि ली गई
इसे परखने के लिए Shoggoth Mini बनाना शुरू किया गया, और संयोग व प्रयोगों के माध्यम से हुई डिज़ाइन प्रक्रिया और उससे मिली सीख साझा की गई

हार्डवेयर

टेस्टबेड का पहला वर्ज़न 3 मोटर, टेंटेकल को स्थिर रखने वाली प्लेट और डोम-आकार के कवर जैसी सरल संरचना से शुरू हुआ
3D printing के दौरान filament कम पड़ जाने से डोम के एक हिस्से का रंग बदल गया, जिससे आँखों और मुँह वाला चेहरा बन गया; फिर ChatGPT की मदद से विज़ुअल कॉन्सेप्ट तलाशकर अंतिम रूप तय किया गया
डोम पर stereo camera लगाया गया ताकि टेंटेकल ट्रैक किया जा सके; रोबोट की आँखों में आने वाली ‘prediction error’ ने नज़र खींचने वाला प्रभाव पैदा किया
open spool डिज़ाइन में केबल आसानी से निकलते और उलझते थे, इसलिए एक सरल spool cover जोड़कर समस्या हल की गई और दोहराए जाने वाले प्रयोग तेज़ हुए
calibration script और अतिरिक्त wire length की मदद से maintenance और motor tension adjustment जल्दी किया जा सका
टेंटेकल के झुकाव को कम करने के लिए उसकी spine को उचित रूप से अधिक मोटा किया गया
CAD assembly diagram और 3D printing के लिए STL फ़ाइलें दोनों GitHub repository में सार्वजनिक की गई हैं

मैनुअल नियंत्रण

शुरुआती चरण में trackpad आधारित 2D संचालन से टेंटेकल को सहज रूप से हिलाने के लिए 3 tendons की लंबाई के नियंत्रण को 2D control में सरल बनाया गया
- हर tendon का 2D plane पर एक मुख्य दिशा होती है, और cursor direction vector को हर axis पर project करके आवश्यक tension के अनुसार लंबाई में बदलाव निकाला जाता है
- धनात्मक मान tendon के छोटा होने और ऋणात्मक मान उसके लंबा होने को दर्शाते हैं
इस 2D→3D conversion पद्धति को automated control (जैसे reinforcement learning) में भी आधार projection layer के रूप में दोबारा इस्तेमाल किया गया
संचालन की सीमा सीमित होने के बावजूद, सहज नियंत्रण संभव हुआ और responsiveness व user experience में काफी सुधार आया

सिस्टम डिज़ाइन

दो-स्तरीय hierarchical control structure:
- low-level पर open-loop policy (जैसे <yes>, <shake>) और closed-loop RL policy (जैसे उंगली ट्रैकिंग) काम करती हैं; टेंटेकल tip/हाथ की स्थिति ट्रैकिंग stereo vision आधारित pipeline संभालती है
- high-level पर GPT-4o real-time voice/text (vision अभी सार्वजनिक नहीं) को प्रोसेस करता है, और video event (जैसे हाथ हिलाना) को text cue के रूप में GPT-4o तक भेजकर API call का निर्णय कराया जाता है
बड़े मॉडल आधारित direct end-to-end vision-language-action (VLA) integration के बजाय, dedicated vision और lightweight individual controllers की layered architecture अपनाई गई
RL observation range का समायोजन, स्वाभाविक homing behavior, और API call के बीच idle (breathing mode) लागू करके रोबोट का ‘जीवित’ एहसास मजबूत किया गया
VLA की व्यावहारिक सीमाओं (जैसे temporal alignment समस्या) के कारण prompt engineering एक महत्वपूर्ण तत्व बनकर उभरा

perception

हाथ ट्रैकिंग के लिए MediaPipe, और टेंटेकल tip ट्रैकिंग के लिए custom dataset व YOLO model का संयोजन
- k-means clustering, Roboflow की auto-labeling/active learning, और Segment Anything का उपयोग करके dataset augmentation और सटीक labeling की गई
- Ultralytics YOLO से training की गई, और DeepLabCut notebook की मदद से camera intrinsic/extrinsic parameters का अनुमान और 3D triangulation लागू किया गया
real-time 3D hand-tentacle position tracking के जरिए मज़बूत closed-loop control हासिल किया गया

low-level control API

soft robot में rigid body की तरह inverse kinematics अच्छी तरह काम नहीं करती, इसलिए 2D control projection पद्धति को लगातार लागू किया गया
spine को मोटा बनाकर अलग-अलग sessions के बीच मूवमेंट की reproducibility भी सुनिश्चित की गई
object grasping जैसे प्रयोगों के माध्यम से soft robot की mechanical robustness सामने आई, जो पकड़ी जाने वाली वस्तु के आकार/वज़न की विविधता को सहन कर सकती है
high-frequency fine manipulation कठिन है, लेकिन बुनियादी संचालन केवल mechanical design के बल पर अपेक्षा से अधिक स्थिर है

reinforcement learning (RL)

उपयोगकर्ता की उंगली ट्रैकिंग जैसी सरल policy से RL लागू किया गया, और MuJoCo simulator में domain randomization (PPO, MLP, frame stacking, mass/friction/damping randomization) के जरिए sim-to-real transferability बढ़ाई गई
शुरुआत में tendon length को ही action space के रूप में इस्तेमाल किया गया, लेकिन reward hacking और वास्तविक सिस्टम में ट्रांसफर विफल रहा
2D projection पद्धति से action को सीमित कर अवास्तविक मूवमेंट (भ्रम, कंपन आदि) दबाए गए, और curriculum learning के जरिए क्रमिक high-dimensional expansion की संभावना दिखाई गई
action में अचानक बदलाव से होने वाले jitter को कम करने के लिए reward में penalty जोड़ी गई और EMA से action smoothing की गई

निष्कर्ष और भविष्य की दिशा

शुरुआत में महसूस हुई अनपेक्षितता और व्याख्या की गुंजाइश ने ‘जीवित होने’ का एहसास दिया, लेकिन जैसे-जैसे विश्लेषण और internalization बढ़ा, feedback की ताज़गी धीरे-धीरे कम होती गई
इस बात पर ज़ोर दिया गया कि expressiveness (इरादे का संप्रेषण) और aliveness (अनुमान न लगा पाने योग्यपन) का संतुलन मानव-रोबोट इंटरैक्शन में निर्णायक है
आगे के विस्तार के आइडिया:
- गैर-मानवीय आवाज़ देना
- 2D सीमाएँ हटाना
- RLHF आदि से अभिव्यक्तिपूर्ण मूवमेंट की विविधता बढ़ाना
- और टेंटेकल जोड़ना तथा self-locomotion लागू करना
- direct-drive motor अपनाकर noise कम करना
source code और फ़ाइलें GitHub repository में उपलब्ध हैं, और सहयोग व चर्चा का स्वागत है

1 टिप्पणियां

GN⁺ 2025-07-16

Hacker News टिप्पणियाँ

लगा कि यह टेक्नोलॉजी और मानव मनोविज्ञान का दिलचस्प मेल है। रोबोट शुरुआत में बहुत जीवंत लगा, लेकिन इस्तेमाल बढ़ने पर जब इसकी हरकतों का अनुमान लगाना आसान हो गया तो यह धीरे-धीरे कम जीवित-सा महसूस होने लगा। ‘अभिव्यक्तिकता’ भीतर की स्थिति को संप्रेषित करने से जुड़ी है, लेकिन ‘जीवंतता’ अनिश्चितता और कुछ हद तक अपारदर्शिता से आती है, क्योंकि असल जीवित प्रणालियाँ जटिल होती हैं और कई तरह के चर को ट्रैक करती हैं। Shoggoth Mini उस स्तर पर नहीं है। सोचने वाली बात यह है कि क्या हम सच में ऐसा रोबोट चाहते हैं जो सचमुच जीवित लगे, या फिर कोई ऐसी सीमा है जिसके आगे वह इतना अप्रत्याशित हो जाए कि इंसानों के पास रखना असहज लगे।
- इससे Furby याद आया, क्योंकि आकार-प्रकार मिलता-जुलता है, दो आँखें हैं और कान हिलते हैं। शुरू में यह चमत्कृत करता है, लेकिन थोड़ा छूते-परखते ही पता चलता है कि यह बहुत सीमित उद्दीपनों और आंतरिक स्थिति के संयोजन के आधार पर बंधी-बंधाई हरकतें करता है। लोग मज़ाक में कहते हैं, “क्या इंसान भी ऐसे ही नहीं हैं?”, लेकिन असल में दोहराए जाने वाले पैटर्न बहुत जल्दी समझ आ जाते हैं।
- यह वैसा ही है जैसे किसी गेम सिस्टम के नियम समझ आ जाने के बाद उसमें मज़ा न रहे। सिर्फ नियमों के लागू होने से चीज़ जटिल दिख सकती है, लेकिन नतीजा तयशुदा-सा लगता है। वह जादुई मज़ा गायब हो जाता है।
- इंसान आग, बहते पानी, 18वीं सदी के automata, शुरुआती चैटबॉट्स, ChatGPT — यहाँ तक कि कई तरह की मशीनों — को भी मानवीय गुण और स्वायत्तता देते आए हैं। कभी-कभी मशीनें ऐसी भी लगती हैं मानो उनका कोई ‘मूड’ हो।
- किसी ने voice assistant और कृत्रिम भाषा से जुड़ा अनुभव साझा किया। वह अपने voice assistant को British accent पर सेट करता है, क्योंकि वह पर्याप्त रूप से अलग-सा महसूस होता है और इसलिए ज़्यादा भरोसेमंद लगता है। ब्रिटिश लोगों के लिए शायद ऐसा न हो, लेकिन उसकी अपनी यही भावना है। पहले गेम डेवलपमेंट में उसने NPC संवादों को डायनामिक तरीके से जनरेट करने की कोशिश की थी, लेकिन अंग्रेज़ी में उसे विश्वसनीय बनाना बहुत मुश्किल था। अंत में NPCs को एक काल्पनिक भाषा में बोलने दिया गया, और जब उसमें ऐसा puzzle element जोड़ा गया कि यूज़र वह भाषा सीखें, तो वे किरदार कहीं अधिक वास्तविक लगे। दरअसल अनुवाद पर ऊर्जा लगाने से खिलाड़ी थोड़ी देर के लिए यह भूल जाते थे कि वह एक कृत्रिम भाषा है, और इस तरह ‘uncanny valley’ से बचाव हो जाता था। हालांकि अब यह जिज्ञासा है कि गेम में दक्षता और भाषा-प्रवीणता बढ़ने पर क्या खिलाड़ी अंततः इसे एक कृत्रिम रूप से गढ़ी प्रणाली के रूप में पहचानने लगेंगे।
“अरे, यह हिचकिचाया” ऐसा नहीं, बल्कि हर सवाल पर लगभग एक जैसी हिचकिचाहट महसूस होती है। GPT के जवाब बनाने में होने वाली देरी काफ़ी खटकती है, और यह किसी न्यूज़ ब्रॉडकास्ट की कनेक्शन लैग से भी ज़्यादा असहज लगती है। शायद आँखों में LED जैसी कोई चीज़ लगाकर यह दिखाया जाए कि यह काम कर रहा है, तो थोड़ा बेहतर लगे। GPT को query भेजने पर देरी तो होगी ही, खासकर जब request cloud पर भेजनी पड़े। यह भी चिंता जताई गई कि GPT-4o का पूरा audio stream लगातार सुनते रहना समस्याजनक हो सकता है।
- ऐसे सरल काम के लिए Qwen 0.6B जैसा छोटा LLM काफ़ी होना चाहिए। एक तरीका यह हो सकता है कि बड़े मॉडल की zero-shot क्षमता से अपना dataset बनाया जाए और फिर एक अलग, कहीं तेज़ मॉडल को train किया जाए।
- GPT-4o के लगातार सुनते रहने वाले हिस्से के बारे में कहा गया कि wake word लाइब्रेरी (जैसे openWakeWord, porcupine) का इस्तेमाल करके यह समस्या हल की जा सकती है। यूज़र किसी खास शब्द से इसे जगाएँ और उसके बाद prompt भेजें, तो security और privacy से जुड़ी दिक्कतें भी कम हो सकती हैं। सामान्य स्थिति में ‘सो रहा है’ जैसी animation दिखाई जा सकती है, और बुलाने पर यह जागकर प्रतिक्रिया दे सकता है। इससे जुड़े open source लिंक भी साझा किए गए: openWakeWord porcupine
- GPT के जवाब में देरी असुविधाजनक लगती है, इस राय से सहमति नहीं है। जब इसकी टेंटेकल रुककर सीधी हो जाती है, तो ऐसा लगता है जैसे यह ध्यान से सुन रहा हो और सोच रहा हो, इसलिए उल्टा यह काफ़ी प्यारा लगता है।
- लगा कि इसे Johnny 5 की तरह भौंहों की ज़रूरत है Johnny 5 उदाहरण वीडियो
- prototype चरण के बाद कोई छोटा optimized मॉडल सीधे local device पर भी चलाया जा सकता है। इससे यह कहीं तेज़, सुरक्षित और अंतिम उत्पाद के लिए ज़्यादा उपयुक्त होगा (हालाँकि prototype में लचीलापन कम होगा)।
इस विचार को प्रेरित करने वाला SpiRobs का शानदार वीडियो साझा किया गया SpiRobs YouTube वीडियो
डिज़ाइन बहुत प्यारा है। पिछले साल tentacle रोबोट्स का अध्ययन करते समय पता चला कि इनके लिए औपचारिक शब्द “continuum robots” है, और खासकर medical robotics में इस पर काफ़ी शोध हो रहा है। अगर और जानना हो तो एक अच्छी introductory lecture देखी जा सकती है संबंधित व्याख्यान वीडियो
यह सचमुच शानदार प्रोजेक्ट है। आजकल AI की क्षमताएँ इतनी बढ़ गई हैं और robotics भी आगे बढ़ रही है, तो फिर हम हमेशा इंसान जैसे रूप ही क्यों बनाते हैं, यह खटकता है। अच्छा लगेगा अगर घरों में spider-squid hybrid रोबोट जैसे अनोखे रूप दिखाई दें।
- AI safety पर बहुत बहस होती है, लेकिन मैं तो चाहता हूँ कि spider-squid hybrid रोबोट घर में घूमता रहे।
- robotics को मानव-केंद्रित दुनिया के साथ सबसे ज़्यादा अनुकूल बनाने की प्रवृत्ति है। लेकिन पैरों के आकार बदलकर अलग-अलग विकल्प आज़माना भी काफ़ी दिलचस्प हो सकता है।
बिल्कुल नहीं, मैंने ऐसी फ़िल्में देखी हैं। मैं बिल्कुल नहीं चाहता कि कोई facehugger-सा जीव मेरे डेस्क पर बैठा हो।
- Hentai प्रशंसक शायद इसका स्वागत ही करेंगे।
- अगर इसके टेंटेकल और लंबे हों, और इसमें सहकर्मियों के साथ शरारत करने वाला कोई प्रोग्राम हो, तो यह उल्टा काफ़ी मज़ेदार हो सकता है।
Lovecraft का रेफ़रेंस अच्छा लगा। जिज्ञासा है कि क्या छोटा मॉडल भी काफ़ी नहीं होगा।
- Shoggoth meme के बारे में काम के लिंक साझा किए गए Shoggoth With Smiley Face Meme NYT का Shoggoth meme लेख
- मेरी भी लगभग यही राय है, बल्कि यह और सरल भी हो सकता है। डेवलपर की यह बात उद्धृत की गई कि “मैंने end-to-end VLA model training पर विचार किया था, लेकिन cable-driven soft robot में एक ही tip position के लिए cable lengths के कई संयोजन हो सकते हैं, जिससे अप्रत्याशितता बढ़ती है और demonstration-based learning अच्छी तरह scale नहीं करती।” इसलिए अंत में एक staged design चुना गया, जिसमें specialized vision का input एक lightweight controller को दिया गया। फिर भी, अगर इसे किसी छोटे मॉडल के साथ दोबारा आज़माया जाए तो बहुत शानदार होगा, और मज़ाक में कहा गया कि अगर local model लगाया जाए तो उसे pentagram के भीतर रखना ज़्यादा सुरक्षित लगेगा।
जापान से आए मीडिया काफ़ी देख लिए हैं, इसलिए अंदाज़ा है कि यह किस दिशा में जा सकता है।
- अच्छी बात है कि सुरक्षा के लिए flared base मौजूद है।
मूल विचार ही बहुत शानदार है। गैर-भाषिक और गैर-मानवाकार अस्तित्वों को अभिव्यक्तिकता देने की कोशिश आकर्षित करती है।
- लगा कि Pixar का lamp robot एक अच्छा प्रेरणा-स्रोत हो सकता है। रोबोट का झुकना या शरीर हिलाना, सिर हिलाकर हाँ/ना जताना, जिज्ञासा या झुंझलाहट जैसी भावनाएँ दिखाना, और LEDs के ज़रिए चेहरे के भाव बदलना — ऐसे कई विचार साझा किए गए।
यह बेहद सुंदर काम लगा। खास तौर पर यह बात प्रभावशाली है कि इस रोबोट को इस तरह डिज़ाइन किया गया है कि यह प्रकृति के किसी भी जीव जैसा न लगे। मैं ऐसा भविष्य नहीं चाहता जहाँ robotics और वास्तविकता की सीमा धुंधली हो जाए। अभी तक humanoid robots भी साफ़ तौर पर कृत्रिम लगते हैं, इसलिए अच्छा होगा अगर यह रुझान बना रहे।

Shoggoth Mini – GPT-4o और RL से संचालित सॉफ्ट टेंटेकल रोबोट

परिचय और पृष्ठभूमि

हार्डवेयर

मैनुअल नियंत्रण

सिस्टम डिज़ाइन

perception

low-level control API

reinforcement learning (RL)

निष्कर्ष और भविष्य की दिशा

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News टिप्पणियाँ