- बाहरी harness नहीं, बल्कि मॉडल खुद audio, video और text को real time में एक साथ input-output करके इंसानों के साथ स्वाभाविक रूप से सहयोग करता है
- मौजूदा turn-based मॉडल यूज़र के बोलना खत्म करने तक इंतज़ार करते हैं, और generation के दौरान नया input नहीं ले पाते, जिससे सहयोग में bottleneck पैदा होता है
- 200ms इकाइयों वाली microturn design input और output को लगातार stream के रूप में प्रोसेस करती है, जिससे interruption, simultaneous speech और visual response जैसे कई interaction mode सपोर्ट होते हैं
- सिस्टम में real-time बातचीत संभालने वाला Interaction Model और long-term reasoning व tool use संभालने वाला Background Model context साझा करते हैं
- interactivity मॉडल के भीतर ही built-in होने से, scale होने पर वह सिर्फ अधिक smart नहीं बल्कि और बेहतर collaborator भी बनता है
सहयोग bottleneck और Interaction Model का लक्ष्य
- Thinking Machines Lab ने बाहरी harness पर निर्भर होने के बजाय, मॉडल के भीतर ही interaction संभालने वाले Interaction Model का research preview जारी किया
- लक्ष्य सिर्फ AI intelligence को नहीं बल्कि interactivity को भी साथ में scale करना है, ताकि मॉडल audio, video और text को लगातार ग्रहण करे और real time में सोचे, जवाब दे और कार्रवाई करे
- अभी बहुत-से AI research और interface, AI की लंबे समय तक स्वायत्त रूप से काम करने की क्षमता पर ज़ोर देते हैं, लेकिन जिन hands-on-keyboard कार्यों में इंसान लगातार शामिल रहता है, वहाँ मॉडल इतना धीमा लग सकता है कि उसकी उपयोगिता कम दिखाई दे
- इसे इस तरह optimize नहीं किया गया है कि इंसान loop के भीतर बना रहे
- वास्तविक काम में शुरू से ही सभी requirements पूरी तरह तय करके अलग हो जाना कठिन होता है, और बीच-बीच में इंसान द्वारा clarification व feedback देना बेहतर नतीजों में मदद करता है
- मौजूदा turn-based मॉडल यूज़र के input पूरा होने तक इंतज़ार करते हैं, और मॉडल के generate करते समय नई जानकारी नहीं ले पाते, इसलिए वे मानो single thread की तरह वास्तविकता का अनुभव करते हैं
- यह संरचना यूज़र के ज्ञान, इरादे और judgment के मॉडल तक पहुँचने की चौड़ाई को, और इंसान द्वारा मॉडल के काम को समझने की चौड़ाई को, दोनों को सीमित करती है
- Thinking Machines Lab का मानना है कि इस bottleneck को हल करने के लिए सभी modalities में real-time interaction संभव होना चाहिए, और इंसान को AI interface के अनुसार ढलने के बजाय AI को इंसानी तरीके के अनुसार ढलना चाहिए
- अधिकांश मौजूदा AI मॉडल break, multimodal व्यवहार और concurrency की नकल करने के लिए कई components जोड़कर harness बनाते हैं, लेकिन The Bitter Lesson के अनुसार hand-crafted systems सामान्य क्षमताओं के विस्तार के सामने पीछे रह सकते हैं
- अगर interactivity को intelligence के साथ scale होना है, तो वह मॉडल के अंदर की क्षमता होनी चाहिए; मॉडल को बड़ा करने पर वह सिर्फ अधिक smart ही नहीं, बल्कि बेहतर collaborator भी बनना चाहिए
मॉडल के भीतर interaction से खुलने वाली क्षमताएँ
-
स्वाभाविक conversation management
- मॉडल यह बात implicit रूप से track करता है कि बोलने वाला सोच रहा है, बारी सौंप रहा है, खुद को सुधार रहा है, या प्रतिक्रिया आमंत्रित कर रहा है
- यह सब किसी अलग conversation management component के बिना संभाला जाता है
-
आवाज़ और दृश्य-आधारित हस्तक्षेप (बीच में बोलना)
- मॉडल सिर्फ यूज़र के बोलना खत्म होने पर ही प्रतिक्रिया नहीं देता, बल्कि context के अनुसार ज़रूरत पड़ने पर बीच में बोल सकता है
- जैसे यूज़र कोई गलत बात कह रहा हो तो रोकना, या code में bug लिखने पर visual संकेत देखकर बताना संभव है
-
simultaneous speech
- यूज़र और मॉडल एक साथ बोल सकते हैं, जो real-time translation जैसी स्थितियों में उपयोगी है
-
समय की समझ
- मॉडल बीते हुए समय को सीधे पहचानता है, और तय समय-अंतराल के अनुसार बोलने या यूज़र की action timing मापने जैसे कार्य संभाल सकता है
-
tool calling, search और generated UI का एक साथ चलना
- मॉडल यूज़र से बात करते और सुनते हुए एक साथ search, web browsing और UI generation कर सकता है
- परिणाम तैयार होने पर उन्हें बातचीत के प्रवाह के अनुरूप फिर से जोड़ देता है
- लंबी वास्तविक sessions में ये क्षमताएँ लगातार साथ-साथ चलती रहती हैं, और अनुभव prompt भेजने से ज़्यादा सहयोग करने जैसा लगता है
दृष्टिकोण
-
समय-संरेखित माइक्रो टर्न
- Interaction Model लगातार इनपुट·आउटपुट स्ट्रीम को माइक्रो टर्न में बाँटता है और समय के आधार पर इंटरैक्शन को व्यवस्थित करता है
- टर्न-आधारित मॉडल बारी-बारी से चलने वाले token sequence को देखते हैं, लेकिन समय-सचेत Interaction Model लगातार माइक्रो टर्न स्ट्रीम को देखता है, इसलिए मौन, overlap और बीच में बोलना model context में बना रहता है
- मॉडल user के साथ लगातार द्विदिश आदान-प्रदान की स्थिति बनाए रखता है और perception व response को एक साथ करता है
- robotics और autonomous driving भौतिक दुनिया की ज़रूरतों के कारण real-time संचालन को मानकर चलते हैं, और Moshi, PersonaPlex, nemotron-voicechat, Seeduplex जैसे audio full-duplex मॉडल भी द्विदिश·निरंतर इंटरैक्शन के उदाहरण हैं
-
सिस्टम संरचना
- सिस्टम एक समय-सचेत Interaction Model से बना है, जो real-time presence बनाए रखता है, और एक asynchronous Background Model से, जो लगातार reasoning, tool use और long-term tasks संभालता है
- जब गहरी reasoning तुरंत generate नहीं की जा सकती, तब Interaction Model इसे Background Model को सौंप देता है
- delegation के दौरान भी Interaction Model user के सामने बना रहता है, follow-up सवालों का जवाब देता है, नया input लेता है और conversation context बनाए रखता है
- Background Model के परिणाम बनते ही stream होते हैं, और Interaction Model them user की मौजूदा गतिविधि के अनुकूल क्षण में बातचीत में शामिल करता है
- दोनों सिस्टम context साझा करते हैं, और user non-reasoning model स्तर की response latency के भीतर reasoning model की planning, tool use और agent workflow का भी उपयोग कर सकता है
- Background Model और Interaction Model दोनों में intelligence है, और Interaction Model अकेले भी interaction और intelligence benchmark में प्रतिस्पर्धी performance देता है
-
Interaction Model संरचना
- डिज़ाइन की शुरुआत मूलतः real-time continuous audio और video से होती है; text इंतज़ार कर सकता है, लेकिन real-time conversation नहीं
- मॉडल text, audio, video के किसी भी subset को input के रूप में लेता है और text व audio की भविष्यवाणी करता है
- यह माइक्रो टर्न में काम करता है, जहाँ 200ms के input processing और 200ms के output generation को लगातार बारी-बारी से चलाया जाता है
- पूरा user turn consume करने और पूरा response generate करने के बजाय, यह input token और output token दोनों को stream के रूप में प्रोसेस करता है
- यह तरीका कई input·output modalities के लगभग real-time concurrency को संभव बनाता है और उन कृत्रिम turn boundaries को हटा देता है जिनका मॉडल को पालन करना पड़ता
- कई मौजूदा real-time सिस्टम turn-based मॉडल को real-time जैसा दिखाने के लिए voice activity detection (VAD) जैसे harnesses से turn boundaries की भविष्यवाणी करते हैं
- ऐसे harness component मॉडल से कम intelligent होते हैं, इसलिए proactive interruption या visual cue response जैसे interaction mode सीमित हो जाते हैं
- Interaction Model में ऐसे interaction mode किसी विशेष harness के बजाय वे विशेष मामले बन जाते हैं जिन्हें मॉडल खुद कर सकता है, और model size व training data के विस्तार के साथ उनकी गुणवत्ता बेहतर हो सकती है
-
encoder-रहित early fusion
- audio और video को बड़े स्वतंत्र encoder से प्रोसेस करने के बजाय, इसने न्यूनतम preprocessing का उपयोग करने वाली संरचना चुनी
- कई omnimodal मॉडल में Whisper-जैसे encoder या TTS-जैसे decoder को अलग से train करना पड़ता है, लेकिन यह मॉडल audio signal को dMel के रूप में लेकर हल्की embedding layer में बदलता है
- dMel Bai, et al. 2024 का अनुसरण करता है
- images को 40x40 patch में बाँटने के बाद hMLP से encode किया जाता है
- audio decoder में flow head का उपयोग किया जाता है
- सभी component को transformer के साथ शुरुआत से jointly train किया जाता है
-
inference optimization
- inference के समय 200ms chunk के लिए छोटे आकार के prefill और decode की बार-बार ज़रूरत होती है, और हर चरण को सख्त latency शर्तें पूरी करनी होती हैं
- मौजूदा LLM inference library बार-बार होने वाले छोटे prefill के लिए optimized नहीं हैं, इसलिए हर turn पर overhead बड़ा होता है
- इसके लिए streaming session लागू किया गया, जहाँ client हर 200ms chunk को अलग request के रूप में भेजता है और inference server उन chunk को GPU memory की persistent sequence में जोड़ता जाता है
- यह तरीका बार-बार memory reallocation और metadata calculation से बचाता है, और इस फीचर का एक संस्करण SGLang e upstream किया गया
- bidirectional serving में दिखने वाले shape और latency के आधार पर kernel भी optimize किए गए
- MoE kernel के लिए standard grouped gemm के बजाय PyTorch और Cursor के पूर्व कार्य की तरह gather+gemv रणनीति उपयोग की गई
-
Trainer-Sampler alignment
- bit-स्तरीय trainer-sampler alignment training stability और system component debugging में उपयोगी रहा
- batch-invariant kernels लागू किए गए, और कुल performance overhead 5% से कम है
- All-reduce और reduce-scatter के लिए NVLS का उपयोग कर Blackwell पर deterministic low-latency communication kernel लागू किए गए
- ये kernel Sequence Parallelism और Tensor Parallelism जैसी अलग-अलग parallelization strategy के बीच भी bit-स्तरीय alignment हासिल करते हैं
- Attention की मुख्य चुनौती Split-KV है, जो आम तौर पर decode और prefill के बीच accumulation order mismatch बना सकती है
- decode और prefill के बीच split को एकसमान चुनने से accumulation order बनाए रखा जा सकता है; उदाहरण के लिए, SM को 4096 token इकाई में left-aligned प्रोसेस करके prefill और decode दोनों में efficiency पाई जा सकती है
-
दो मॉडलों का समन्वय
- जब Interaction Model delegation करता है, तो वह स्वतंत्र query नहीं बल्कि पूरी बातचीत सहित एक समृद्ध context package भेजता है
- Background Model के परिणाम बनते ही वापस आते हैं, और Interaction Model उन्हें अचानक context switch के बजाय user की मौजूदा गतिविधि के अनुकूल समय पर बातचीत में पिरोता है
-
सुरक्षा
- real-time interaction turn-based exchange से अलग तरह से safety पर दबाव डालता है, इसलिए काम modality-अनुकूल refusal और long-term conversation robustness पर केंद्रित है
- voice refusal को बोलचाल में स्वाभाविक सुनाने के लिए TTS model से disallowed topic range पर refusal और over-refusal training data तैयार किया गया
- refusal boundary को स्वाभाविक अभिव्यक्ति को प्राथमिकता देते हुए, लेकिन दृढ़ता कम किए बिना, calibrate किया गया
- लंबे speech-to-speech conversation में robustness बढ़ाने के लिए automated red-team harness से multi-turn refusal data तैयार किया गया
- text-based refusal के साथ behavior similarity भी काफ़ी निकट रखी गई
बेंचमार्क और मूल्यांकन
-
इंटेलिजेंस और इंटरैक्टिविटी
- मॉडल का नाम
TML-Interaction-Small है, और इसे मजबूत इंटेलिजेंस, instruction-following और इंटरैक्टिविटी को एक साथ रखने वाले पहले मॉडल के रूप में प्रस्तुत किया गया है
- इंटरैक्शन क्वालिटी को FD-bench से मापा जाता है
- FD-bench v1.5 में पहले से रिकॉर्ड किया गया ऑडियो दिया जाता है, जिसमें मॉडल को खास समय पर जवाब देना होता है; यह user interruption, backchanneling, दूसरे लोगों से बातचीत, और background speech की स्थितियों में मॉडल के व्यवहार को मापता है
- इंटेलिजेंस को Audio MultiChallenge से मापा जाता है, जो इंटेलिजेंस और instruction-following को ट्रैक करने वाला एक सामान्य बेंचमार्क है
TML-Interaction-Small ने FD-bench V1 turn-taking latency में 0.40 सेकंड दर्ज किए, जो तालिका में दिए गए तुलना मॉडल्स से कम latency दिखाते हैं
- FD-bench V1.5 का औसत स्कोर 77.8 है, जो GPT-realtime-2.0, GPT-realtime-1.5, Gemini-3.1-flash-live, और Qwen 3.5 OMNI-plus-realtime से अधिक है
- FD-bench V3 Audio+Tools में Background Agent enabled होने पर इसने response quality 82.8% / Pass@1 68.0% दर्ज किया
- QIVD Video+Audio accuracy 54.0% है, जो कुछ तुलना मॉडल्स से कम या लगभग समान है
- Audio MultiChallenge APR 43.4% है; यह GPT-realtime-2.0 xhigh के 48.5% से कम है, लेकिन instant मॉडल्स से अधिक है
- BigBench Audio को Background Agent enabled होने पर 75.7 / 96.5 के रूप में रिपोर्ट किया गया है
- IFEval ने VoiceBench Audio में 82.1% और Text में 89.7% दर्ज किया
- Harmbench text refusal rate 99.0% है
-
इंटरैक्शन के वे आयाम जिन्हें मौजूदा मूल्यांकन पकड़ नहीं पाते
- मौजूदा इंटरैक्शन बेंचमार्क मॉडल्स में देखी गई गुणात्मक छलांग को पर्याप्त रूप से नहीं पकड़ पाते, इसलिए समय-जागरूकता, simultaneous speech, और visual proactivity को मापने के लिए आंतरिक और संशोधित मूल्यांकन जोड़े गए
-
समय-जागरूकता और simultaneous speech
- turn-based मॉडल और dialogue management systems सटीक समय-आकलन या simultaneous speech को support नहीं करते
- उदाहरण कार्यों में “1 मील दौड़ने में कितना समय लगा”, “मेरे उच्चारण को सुनते ही उसे सुधार दो”, और “इस function को इस्तेमाल करने में कितना समय लगा” जैसे रूप शामिल हैं
- TimeSpeak यह टेस्ट करता है कि क्या मॉडल user द्वारा बताए गए समय पर बोलना शुरू कर सकता है और सही सामग्री कह सकता है
- उदाहरण है: “मैं breathing practice करना चाहता हूँ, इसलिए जब तक मैं रुकने के लिए न कहूँ, हर 4 सेकंड पर मुझे inhale और exhale करने को कहते रहो”
- CueSpeak यह टेस्ट करता है कि क्या मॉडल सही क्षण पर अर्थ की दृष्टि से सही जवाब बोलता है
- डेटा को इस तरह बनाया गया है कि पूरा स्कोर पाने के लिए मॉडल को user के साथ एक ही समय पर बोलना पड़े
- उदाहरण है: “जब भी मैं code-switching करके दूसरी भाषा इस्तेमाल करूँ, तुम मूल भाषा का सही शब्द बोलो”
- दोनों बेंचमार्क में हर उदाहरण के लिए एक अपेक्षित semantic response और एक time window होता है; LLM judge तभी सही मानता है जब अर्थ और timing दोनों शर्तें पूरी हों
-
visual proactivity
- मौजूदा commercial realtime API मुख्यतः audio-based dialogue management harness से turn detect करते हैं, और visual world बदलने पर अपने-आप यह नहीं चुन पाते कि कब बोलना है
- StreamBridge, Streamo, StreamingVLM, और MMDuet2 streaming video input में कब text output करना है, इस पर काम करते हैं
- इस तरह के text output शोध speech output interaction की उन सीमाओं को नहीं संभालते जिनमें utterance की अवधि होती है, वह user के साथ overlap कर सकता है, और उसे turn-taking, interruption, और backchanneling के साथ समन्वित होना चाहिए
- AURA ऐसी संरचना है जिसमें VideoLLM यह तय करता है कि कब text भेजना है या चुप रहना है, और उसके साथ ASR/TTS demo जोड़ा गया है; Thinking Machines Lab का मॉडल इससे अलग है क्योंकि यह speech-native और full-duplex है
-
visual proactivity का मूल्यांकन
- RepCount-A को repetitive action video के लिए एक online counting task में बदला गया है
- मॉडल को “{action} की दोहराव संख्या गिनो” जैसी audio instruction और streaming video दिया जाता है, और सही उत्तर के अंत से दूसरी repetition के बाद मॉडल द्वारा बोला गया आखिरी number सही उत्तर से 1 के भीतर है या नहीं, इसके आधार पर स्कोर किया जाता है
- यह कार्य continuous visual tracking और सही समय पर गिनती करने को मापता है
- ProactiveVideoQA ऐसे वीडियो से बना है जिनमें ऐसे सवाल शामिल होते हैं जिनका उत्तर किसी खास क्षण पर पता चल सकता है
- पहले सवाल को audio के रूप में stream किया जाता है, फिर video भेजा जाता है; यदि subtitles हों तो उन्हें video पर burn-in किया जाता है, और input video को mute किया जाता है ताकि visual proactivity पर ज़ोर रहे
- मूल्यांकन में पेपर के turn-weighted PAUC@ω=0.5 metric को 0~100 स्केल में बदलकर turn और category का औसत निकाला जाता है; लगातार चुप रहने पर 25.0 अंक मिलते हैं
- उच्च स्कोर के लिए सही समय पर सही जवाब बोलना ज़रूरी है, और गलत जवाब पर penalty मिलती है
- Charades एक मानक temporal action localization बेंचमार्क है, जिसमें हर video में labeled time segments पर होने वाली actions शामिल होती हैं
- मॉडल को “जब व्यक्ति {action} शुरू करे तो ‘start’ कहो और जब वह रुके तो ‘Stop’ कहो” जैसी audio instruction और video stream दी जाती है, और स्कोर prediction segment तथा reference segment के temporal IoU से किया जाता है
-
मौजूदा मॉडल्स की सीमाएँ
- मौजूदा मॉडल इस तरह के समय-जागरूकता, simultaneous speech, और visual proactivity कार्यों को अर्थपूर्ण तरीके से नहीं कर पाते
- completeness के लिए GPT Realtime-2 minimal के परिणाम रिपोर्ट किए गए हैं, लेकिन thinking high मॉडल्स सहित सभी मूल्यांकन मॉडल समान या उससे भी खराब प्रदर्शन करते हैं और चुप रहते हैं या गलत जवाब देते हैं
- इंटरैक्टिविटी को भविष्य का एक महत्वपूर्ण शोध क्षेत्र माना गया है, और Interaction Model तथा human-AI collaboration evaluation framework आदि के लिए research grants की योजना की घोषणा की गई है
सीमाएँ और रिलीज़ योजना
-
लंबे सेशन
- continuous audio और video बहुत तेजी से context जमा करते हैं
- streaming-session डिज़ाइन छोटे और मध्यम लंबाई के इंटरैक्शन को अच्छी तरह संभालता है, लेकिन बहुत लंबे sessions के लिए सावधानीपूर्ण context management की ज़रूरत होती है
-
compute और deployment
- low latency पर audio और video stream करने के लिए स्थिर connection की ज़रूरत होती है
- अच्छा connection न होने पर अनुभव काफी खराब हो जाता है
- system reliability बढ़ाकर और delayed frames के प्रति मॉडल को अधिक robust बनाकर सुधार की गुंजाइश है
-
alignment और safety
- realtime interface alignment और safety दोनों के लिए नए research areas खोलते हैं, और feedback collection तथा research grant review जारी है
-
मॉडल आकार का विस्तार
- अभी
TML-Interaction-Small एक 276B parameter MoE है, और active parameters 12B हैं
- उम्मीद है कि model scale बढ़ने पर इंटरैक्टिविटी भी सुधरेगी, लेकिन बड़े pretraining models अभी इस सेटअप में serve करने के लिए बहुत धीमे हैं
- बड़े मॉडल्स को इस साल बाद में रिलीज़ करने की योजना है
-
Background Agent में सुधार
- मुख्य फोकस realtime इंटरैक्टिविटी है, लेकिन agent intelligence भी एक आवश्यक क्षमता है
- agent intelligence को frontier स्तर तक ले जाने के अलावा, Background Agent अभी Interaction Model के साथ कैसे काम करता है, यह भी शुरुआती चरण में है
-
रिलीज़ शेड्यूल
- आने वाले कुछ महीनों में feedback इकट्ठा करने के लिए limited research preview खोला जाएगा, और इस साल बाद में इसे अधिक व्यापक रूप से जारी किया जाएगा
2 टिप्पणियां
आपको इसके साथ लगी वीडियो ज़रूर देखनी चाहिए। latency सिर्फ़ इस स्तर की भी हो तो काफ़ी वास्तविक लगती है.
अगर इसमें थोड़ा और विकास हो जाए, तो सच में ऐसा लगेगा जैसे फिल्मों में देखा था, वैसी बातचीत हो रही हो।
Hacker News की राय
ये वीडियो देखने लायक हैं। इनमें कई प्रभावशाली दृश्य हैं, लेकिन मैं तो पहले ही दृश्य में आश्वस्त हो गया, जब महिला ने “मैं एक कहानी सुनाती हूँ” कहा और फिर कॉफी का लंबा घूंट लिया, जबकि मॉडल कुछ किए बिना बस इंतज़ार करता रहा। इसे पैसे देकर इस्तेमाल करने का मन होने लगा।
पैसे की बात चली है तो, मुझे जिज्ञासा है कि ऐसी कंपनी का economic model क्या है। इन्होंने architecture काफ़ी हद तक सार्वजनिक किया है, और ऐसा लगता है कि frontier labs इसे implement कर सकें, उतना तो खुलासा है। Patent? trade secret? यह समझना कठिन है कि Anthropic/GOOG/oAI/Meta के training compute और know-how को कानूनी सुरक्षा के बिना कैसे मात देंगे।
मैं यह देखने के लिए उत्साहित हूँ कि अगर इस तरह की model architecture latency को 30~40% कम कर दे और साथ ही अधिक स्मार्ट हो जाए तो क्या होगा। संदर्भ के लिए, यह मॉडल लगभग 275B, active 12B का दिखता है, यानी Opus 4.7 / GPT 5.x श्रेणी के लगभग 1/10 आकार का, इसलिए इसमें और intelligence जोड़ने की भी काफी गुंजाइश है और इससे भी कम latency की उम्मीद की जा सकती है।
सिर्फ़ इंतज़ार करना post-training के ज़्यादा क़रीब है, इसलिए Gemini या oAI ने इसे प्राथमिकता नहीं दी, इस बात का बहुत बड़ा मतलब निकालना ठीक नहीं होगा। यहाँ दिखाया गया full duplex तकनीकी रूप से कहीं अधिक कठिन उपलब्धि है।
ध्यान देने वाली बात यह है कि यह architecture एक transformer है, जो text, image, audio input लेकर text और audio output देता है, और यह सब एक साथ train किया गया है। साथ ही, दिए गए prompt से output को शुद्ध रूप से generate करने के बजाय, यह input और output को आपस में interleave करते हुए लगभग real-time में काम करता है।
“Time-Aligned Micro-Turns. The interaction model works with micro-turns continuously interleaving the processing of 200ms worth of input and generation of 200ms worth of output. Rather than consuming a complete user-turn and generating a complete response, both input and output tokens are treated as streams. Working with 200ms chunks of these streams enables near real-time concurrency of multiple input and output modalities.”
मेरी नज़र में यही वह मुख्य बात है जो इसे अन्य frontier labs के multimodal models से अलग करती है।
किसी modality के trigger होने तक “शांत रह सकने” की क्षमता भी दिलचस्प है। इस तरह की चीज़ें अभी भी की जा सकती हैं, लेकिन वे कुछ बाद में जोड़ी गई परत जैसी लगती हैं, और फिर भी काफ़ी अच्छी तरह काम करती हैं। अगर इसे शुरू से एकीकृत तरीके से train किया जाए, तो यह कितना अच्छा होगा, यह जानने की उत्सुकता है।
demo देखकर लगता है कि कई बार वे बाहरी harness में मौजूद components को मॉडल के अंदर ले जा रहे हैं, लेकिन मुझे नहीं पता कि क्या यह वास्तव में लचीला तरीका होगा।
कई मामलों में, यदि user interaction harness बाहर हो, तो शायद उस पर अधिक तेज़ी से iteration किया जा सकता है। उदाहरण के लिए, अगर user और model के बीच UI है और उसी UI को बदलने की ज़रूरत हो, तो user उसे खुद भी customize कर सकता है।
मेरी राय में flexibility अनिवार्य है। real-time translation या simple voice bot जैसे fixed use case में ऐसे model मददगार हो सकते हैं, लेकिन उन सभी मामलों में आख़िरकार अधिक specialized alternatives उनसे आगे निकल सकते हैं।
मॉडल अपने आप में प्रभावशाली है, यह अलग बात है, लेकिन यहाँ का demo सच में बहुत अच्छी तरह बनाया गया है। Anthropic या OpenAI में जो देखते हैं, उसके विपरीत यह छोटा और व्यक्तित्वपूर्ण है।
लेकिन “झुकी हुई posture” वाले demo में महिला ने जो अप्रत्याशित physical comedy दिखाई, वह सच में बहुत मज़ेदार थी। वह बिल्कुल परफेक्ट comedy थी, उसमें सुधारने जैसा कुछ नहीं।
OpenAI/Anthropic शैली के demo से मुझे यह ज़्यादा मानवीय माहौल बेहतर लगता है। क्या इसे साहस करके “human-centered design” का उदाहरण कहा जा सकता है? (https://en.wikipedia.org/wiki/Human-centered_design)
बहुत शानदार। लेकिन demo काफ़ी staged लगा। उदाहरण के लिए, मेरे बोलते समय चीज़ें गिनना। मैं जानना चाहता हूँ कि अधिक उपयोगी या commercial applications वास्तव में कैसे दिखेंगे।
अधिक स्वाभाविक human-AI interaction pattern शायद इसी दिशा में जाना चाहिए। लेख और demo अच्छे हैं।
यह कहना अच्छा नहीं लग रहा, लेकिन AI के साथ interaction के तरीके के रूप में यह काफ़ी प्रभावशाली और प्रगति जैसा दिखता है, साथ ही इसके पेश किए गए use case और UX अवास्तविक या बहुत मददगार नहीं लगते।
real-time translation एक अपवाद है, और वह अपने आप में एक अलग product होना चाहिए। उसके अलावा, जानवरों की संख्या गिनना या quiz का समय बताना बहुत उपयोगी नहीं लगता। posture detection demo मज़ेदार था, लेकिन काफ़ी dystopian और अजीब भी। और यह भी अच्छा नहीं लगा कि AI किसी को अपने बुज़ुर्ग माता-पिता को mountain biking पर ले जाने की कहानी पूरी करने से पहले ही बीच में रोककर डाँटने लगे।
UX भी समस्या है। मॉडल का user को बीच में रोकना, तब भी flow बिगाड़ देता है जब वह किसी अजीब use case के लिए ज़रूरी लगता हो। सार्वजनिक demo videos में भी दिखता है कि कर्मचारी/actors को उस बेरुखे robotic machine द्वारा काटे बिना बोलते रहने के लिए काफ़ी ध्यान लगाना पड़ रहा है। जब लोग इस तरह की दुर्लभ “invited interruption” में भाग लेते हैं, तो वे मुख्य वक्ता के नीचे बोल सकते हैं, और आमतौर पर timing कहीं अधिक सूक्ष्म होती है।
automatic translation demo में भी, हालाँकि इंसानी आवाज़ को धीमा किया गया था, AI फिर भी ऊपर चढ़ आई, और वास्तव में उस demo को करने के लिए या तो बोलने को बहुत नियंत्रित करना पड़ा होगा, या अधिक संभावना है कि output को mute करना पड़ा होगा। मानव दुभाषियों के पास “output” को इच्छित श्रोता की ओर निर्देशित करने के तरीके होते हैं।
इस तकनीक का सबसे अच्छा हिस्सा पहले वीडियो में वह क्षण था जब AI ने अनावश्यक रूप से user को बीच में नहीं रोका। यह ऐसा लगता है जैसे मौजूदा models के एक महत्वपूर्ण bug को ठीक कर दिया गया हो।
एक अच्छा use case शायद public speaking का अभ्यास करते समय “उम्” जैसे filler words गिनना हो सकता है।
उदाहरण के लिए front-end/mobile development, CAD, 3D modeling जैसी चीज़ें। पारंपरिक रूप से ऐसे LLM agent use cases में latency ज़्यादा रही है, क्योंकि मॉडल को speaker के समाप्त होने तक इंतज़ार करना पड़ता है, फिर तय करना होता है कि tool call करे या respond करे; और यदि tool call करता है, तो tool result को process करने के बाद फिर तय करना होता है कि फिर से tool call करे या respond करे।
यह उन चीज़ों जैसा ही लगता है जो लोग पहले से local में Gemma4 और TTS के साथ बना रहे हैं, बस थोड़ा अधिक चमकदार है।
local models जल्द ही इसकी बराबरी कर लेंगे।
इरादा अच्छा हो सकता है, लेकिन गलत हाथों में जाए तो यह surveillance technology को और मज़बूत करने वाला लगता है। अब इसका सामना करने का समय आ गया है।