9 पॉइंट द्वारा jake630 2026-04-02 | 4 टिप्पणियां | WhatsApp पर शेयर करें

नमस्ते, Seoul National University की AIDAS लैब (https://aidas.snu.ac.kr/) द्वारा जारी किए गए omnimodal foundation model Dynin-Omni (https://dynin.ai/omni/) का परिचय कराना चाहता हूँ। यह एक एकीकृत संरचना है जो टेक्स्ट, इमेज, ऑडियो और वीडियो को एक ही मॉडल में समझती भी है और जनरेट भी करती है.

आजकल मल्टीमॉडल एकीकृत मॉडलों को देखें तो अक्सर LLM के साथ कोई इमेज जनरेटर या TTS मॉडल जोड़ा जाता है, लेकिन वास्तव में इस्तेमाल करने पर पाइपलाइन जटिल हो जाती है, इसलिए यह धीमा भी हो सकता है और कभी-कभी orchestration भी गड़बड़ा जाता है.

और भले ही कोई मॉडल बाहरी जनरेटर के बिना native तरीके से understanding और generation दोनों को सपोर्ट करता हो, फिर भी उनमें से ज़्यादातर Autoregressive(AR) आधारित होते हैं, इसलिए टोकन को क्रम से जनरेट करना पड़ता है। लेकिन इमेज या वीडियो वास्तव में क्रमिक डेटा नहीं होते, इसलिए यह तरीका कुछ अस्वाभाविक लगा।

इसीलिए हमने शुरुआत से ही अलग तरीका अपनाया।

टोकन को एक-एक करके जनरेट करने के बजाय, हमने masked diffusion तरीका अपनाया जिसमें पहले masking की जाती है और फिर एक साथ restore किया जाता है। ऐसा करने पर पूरा काम “किन टोकनों को छिपाना है और फिर बहाल करना है” में एकरूप हो जाता है।

उदाहरण के लिए:

  • इमेज देखकर उसका विवरण देना → केवल टेक्स्ट भरना
  • टेक्स्ट से इमेज जनरेट करना → इमेज टोकन भरना
  • ऑडियो जनरेशन → ऑडियो टोकन भरना

यही इसका तरीका है।

इस तरह अलग से इमेज जनरेशन मॉडल या TTS मॉडल जोड़े बिना, एक ही मॉडल में understanding और generation दोनों को साथ में प्रोसेस करना संभव हो गया। प्रदर्शन भी single-model मानक पर काफ़ी अच्छा है.

टेक्स्ट inference का स्तर हालिया LLMs के मुकाबले प्रतिस्पर्धी है, और इमेज व वीडियो understanding का स्तर InternVL, Qwen2.5-VL जैसे vision मॉडलों से टक्कर लेने लायक है। इमेज जनरेशन FLUX जैसे विशेषीकृत मॉडलों के क़रीब पहुँची है, और ऑडियो भी Qwen-TTS परिवार जैसे विशेषीकृत मॉडलों के समीप स्तर तक आया है.

स्पीड के मामले में भी दक्षता हासिल की गई है। टेक्स्ट जनरेशन स्पीड Qwen2.5-Omni और MiniCPM-o4.5 की तुलना में लगभग 4~5 गुना तेज़ है, और vLLM में optimized language model Qwen3-8B की तुलना में भी लगभग 2.5 गुना तेज़ प्रदर्शन दिखाती है। इमेज जनरेशन में भी मौजूदा विशेषीकृत जनरेशन मॉडलों की तुलना में लगभग 2 गुना कम steps में समान गुणवत्ता हासिल की जा रही है।

हाल में आए Qwen3.5-Omni जैसे AR-आधारित cognition-केंद्रित omnimodal मॉडल मुख्य रूप से understanding पर ध्यान देते हैं, जबकि Dynin-Omni understanding और generation को एक ही संरचना में एकीकृत करता है। टोकनों को क्रम से जनरेट करने के बजाय पूरे आउटपुट को एक बार में restore करने के कारण, यह इमेज या वीडियो जैसे non-sequential डेटा को अधिक तेज़ और स्वाभाविक तरीके से संभाल सकता है।

ऐसी संरचना agent या robotics जैसे डोमेन में और भी महत्वपूर्ण हो जाती है, जहाँ विभिन्न inputs को एक साथ समझना और वास्तविक actions या results उत्पन्न करना ज़रूरी होता है। कई मॉडलों को जोड़ने वाले तरीके के विपरीत, एक ही मॉडल द्वारा सीधे प्रोसेस करने से system complexity कम होती है और लागत व गति दोनों में लाभ मिलता है।

साथ ही, क्योंकि understanding और generation को एक ही framework में एकीकृत किया गया है, इसलिए आगे चलकर नए modalities या tasks जुड़ने पर भी अलग मॉडल जोड़ने की ज़रूरत नहीं होगी और उसी संरचना के भीतर स्वाभाविक रूप से विभिन्न डोमेनों तक विस्तार किया जा सकेगा।

इस संरचना को वास्तविक service environments में भी उपयोगी बनाने के लिए, vLLM तथा dInfer, SGLang आधारित serving infrastructure के साथ integration पर काम चल रहा है। चूँकि मल्टीमॉडल input और generation को एक ही मॉडल में प्रोसेस किया जाता है, इसलिए efficient inference infrastructure को भी हम एक महत्वपूर्ण तत्व मानते हैं।

आगे बढ़ते हुए, इसी मॉडल के आधार पर robotics और agent environments सहित physical AI मॉडल तक विस्तार करने वाली Dynin-Robotics पर भी साथ-साथ शोध किया जा रहा है। लक्ष्य एक ऐसी end-to-end संरचना है जो विभिन्न sensor inputs को समेकित रूप से समझे और उन्हें वास्तविक actions तक ले जाए।

आगे भी चीन की Tsinghua University की GLM series और Shanghai AI Laboratory की InternLM की तरह निरंतर शोध और विकास के माध्यम से इसे आगे बढ़ाने की योजना है। यदि आप इसे देखें और आपके पास सुधार के लिए कोई विचार हों, तो निःसंकोच बताइए 👍

4 टिप्पणियां

 
runableapp 2026-04-03

धन्यवाद। बेशक, Korean अच्छी तरह काम करेगा, है न?

लगता है कि huggingface.co की समस्या है, error आ रहा है। मुझे इसे local पर चलाकर देखना होगा।

 
jake630 2026-04-05

फ़िलहाल मौजूदा वर्ज़न में Korean फ़ीचर सपोर्ट नहीं है। हम जल्द ही Korean सहित ट्रेन किया गया वर्ज़न release करने की योजना बना रहे हैं। धन्यवाद!

 
neolith 2026-04-02

स्केल-अप की योजना लगभग कितनी है?

 
jake630 2026-04-05

ठोस scale-up योजना पर फिलहाल टीम के भीतर विचार किया जा रहा है। हम मॉडल को लगातार आगे विकसित करने की योजना बना रहे हैं। धन्यवाद।