Qwen3-Omni: टेक्स्ट, इमेज और वीडियो के लिए नेटिव omni AI मॉडल

(github.com/QwenLM)

12 पॉइंट द्वारा GN⁺ 2025-09-23 | 2 टिप्पणियां | WhatsApp पर शेयर करें

टेक्स्ट, इमेज, ऑडियो और वीडियो को एक ही मॉडल में प्रोसेस करने वाला और रियल-टाइम वॉइस जनरेशन में सक्षम स्टेट-ऑफ-the-art मल्टीमोडल LLM
119 टेक्स्ट भाषाएँ, 19 वॉइस इनपुट भाषाएँ और 10 वॉइस आउटपुट भाषाएँ सपोर्ट करता है, इसलिए यह ग्लोबल सर्विस इम्प्लीमेंटेशन के लिए अनुकूलित है
मॉडल संरचना MoE-आधारित Thinker–Talker डिज़ाइन पर बनी है, जो परफॉर्मेंस और एफिशिएंसी दोनों को बेहतर बनाती है, साथ ही स्ट्रीमिंग-आधारित संवाद और यूज़र-कस्टमाइज़्ड बिहेवियर कंट्रोल प्रदान करती है
ओपन सोर्स के रूप में जारी Qwen3-Omni-30B-A3B-Captioner विस्तृत और कम hallucination दर वाली ऑडियो कैप्शनिंग प्रदान करता है
Hugging Face Transformers, vLLM, Docker, API आदि के साथ विविध और लचीले प्रोडक्शन-एप्लिकेशन पाथ तथा डेवलपमेंट सुविधा फीचर्स उपलब्ध हैं

Qwen3-Omni का अवलोकन और महत्व

Qwen3-Omni, Alibaba Cloud की Qwen टीम द्वारा विकसित एक end-to-end बहुभाषी omnimodal LLM (open-source large language model) है
इस प्रोजेक्ट की खासियत यह है कि यह मौजूदा ओपन सोर्स मल्टीमोडल AI में दुर्लभ रूप से टेक्स्ट, इमेज, ऑडियो और वीडियो तक को एकीकृत रूप से समझ सकता है और रियल-टाइम प्रतिक्रिया जनरेट कर सकता है
प्रतिस्पर्धी ओपन सोर्स मॉडलों की तुलना में इसमें व्यापक भाषा सपोर्ट, रियल-टाइम स्ट्रीमिंग और उच्च-सटीकता ऑडियो कैप्शनिंग जैसी मजबूतियाँ हैं
प्राकृतिक भाषा प्रश्नोत्तर, ऑडियो-विज़ुअल स्थिति विश्लेषण, समय-आधारित मल्टीमोडल इंटरफ़ेस जैसी नई सेवाओं को तेज़ी से वास्तविक रूप दिया जा सकता है

प्रमुख विशेषताएँ

मल्टीमोडल प्रोसेसिंग: टेक्स्ट, इमेज, ऑडियो और वीडियो इनपुट को एक साथ प्रोसेस करता है और रियल-टाइम टेक्स्ट/वॉइस रिस्पॉन्स देता है
स्टेट-ऑफ-the-art परफॉर्मेंस: ऑडियो/वीडियो से जुड़े 36 बेंचमार्क में से 22 पर SOTA, ओपन सोर्स आधार पर 32 SOTA, और ASR व वॉइस संवाद प्रदर्शन Gemini 2.5 Pro के समान है
व्यापक भाषा सपोर्ट: 119 टेक्स्ट, 19 वॉइस इनपुट और 10 वॉइस आउटपुट भाषाओं का समर्थन
रियल-टाइम स्ट्रीमिंग: प्राकृतिक turn-taking और तेज़ त्वरित प्रतिक्रिया
यूज़र-कस्टम कंट्रोल: system prompt के माध्यम से सूक्ष्म बिहेवियर कंट्रोल और अनुकूलन क्षमता
MoE-आधारित आर्किटेक्चर: Thinker–Talker डिज़ाइन, AuT प्रीट्रेनिंग और multi-codebook संरचना के जरिए अल्ट्रा-लो-लेटेंसी और उच्च दक्षता
ऑडियो कैप्शन मॉडल का ओपन सोर्स रिलीज़: Qwen3-Omni-30B-A3B-Captioner के जरिए विस्तृत ऑडियो विवरण और hallucination रोकथाम

सपोर्टेड डोमेन के अनुसार उपयोग परिदृश्य उदाहरण

ऑडियो: speech recognition, speech translation, संगीत/ध्वनि विश्लेषण, ऑडियो कैप्शनिंग आदि
विज़ुअल: जटिल इमेज OCR, ऑब्जेक्ट रिकग्निशन, इमेज-आधारित QA, गणित समस्या समाधान, वीडियो विवरण/रूट गाइडेंस, सीन ट्रांज़िशन विश्लेषण आदि
ऑडियो+विज़ुअल: मल्टीमोडल QA, संवाद, एजेंट वॉइस कॉलिंग आदि
डाउनस्ट्रीम फाइन-ट्यूनिंग: Qwen3-Omni-30B-A3B-Instruct का उपयोग करके कैप्शन मॉडल फाइन-ट्यूनिंग

मॉडल-वार विवरण

Qwen3-Omni-30B-A3B-Instruct: ऑडियो, वीडियो और टेक्स्ट इनपुट + टेक्स्ट/वॉइस आउटपुट (thinker+talker)
Qwen3-Omni-30B-A3B-Thinking: ऑडियो, वीडियो और टेक्स्ट इनपुट + टेक्स्ट आउटपुट (केवल thinker, chain-of-thought reasoning)
Qwen3-Omni-30B-A3B-Captioner: ऑडियो इनपुट → टेक्स्ट आउटपुट, विस्तृत विवरण और न्यूनतम hallucination (कैप्शन-विशिष्ट)

प्रमुख उपयोग वातावरण और लाभ

Hugging Face Transformers एकीकरण: आसान कोड एम्बेडिंग, विभिन्न इनपुट चैनलों (B64, URL आदि) की लचीली प्रोसेसिंग, FlashAttention 2 सपोर्ट
vLLM: बड़े पैमाने की प्रोडक्शन सर्विस में लो-लेटेंसी और concurrency की मजबूती, तेज़ batch inference, multi-GPU वातावरण में आसान स्केलिंग, server-API एकीकरण की ताकत
Docker इमेज उपलब्ध: environment conflict न्यूनतम, आसान प्रयोग/डिप्लॉयमेंट
DashScope API: Alibaba का आधिकारिक API, रियल-टाइम और ऑफलाइन दोनों का समर्थन
वेब/ऑन-प्रिमाइसेस डेमो: अलग से सेटअप किए बिना भी वेब-आधारित अनुभव संभव

वास्तविक उपयोग उदाहरण और टिप्स

कोर एल्गोरिद्म और फीचर्स

Thinker–Talker संरचना के जरिए अलग किए गए उन्नत reasoning और speech synthesis संभव
विभिन्न इनपुट संयोजनों (केवल टेक्स्ट/टेक्स्ट+इमेज/ऑडियो/वीडियो आदि) के लिए एकसमान API और explicit prompt प्रोसेसिंग सपोर्ट
यदि वॉइस आउटपुट नहीं चाहिए तो memory-saving विकल्प उपलब्ध है (10GB से अधिक मेमोरी बचत)
विभिन्न speech synthesis विकल्प (Ethan, Chelsie, Aiden आदि) उपलब्ध हैं, जिन्हें speaker पैरामीटर से चुना जा सकता है

उन्नत batch/संवाद उदाहरण

कई मल्टीमोडल संदेशों को एक साथ मर्ज करके प्रोसेस किया जा सकता है, जिससे बड़े डेटा, बेंचमार्क और संवादात्मक सेवाओं में दक्षता मिलती है
प्रत्येक संदेश (टेक्स्ट, इमेज, ऑडियो, वीडियो संयोजन) के लिए कस्टम उत्तर जनरेट किए जा सकते हैं

vLLM-आधारित प्रोडक्शन डिप्लॉयमेंट

पैरामीटर सेटिंग्स (tensor_parallel_size, max_num_seqs, limit_mm_per_prompt आदि) के जरिए concurrent inference और memory tuning संभव
vLLM serve में API-आधारित संवाद समर्थित है, और आगे चलकर Instruct मॉडल का ऑडियो आउटपुट भी सपोर्ट किया जाएगा

API और वातावरण

DashScope API के माध्यम से क्लाउड रियल-टाइम, ऑफलाइन और कैप्शन-विशिष्ट API दस्तावेज़ (चीन/ग्लोबल) उपलब्ध हैं
वास्तविक सेवा, शोध आदि के उद्देश्य के अनुसार vLLM, Official API और Transformers वातावरणों के बीच लचीलापन

सिस्टम विनिर्देश/सिफारिशें

BF16 प्रिसिजन के आधार पर 15~120 सेकंड वीडियो के लिए न्यूनतम मेमोरी आवश्यकता (68~145GB) बताई गई है
GPU वातावरण और FlashAttention 2 सपोर्ट आवश्यक है
prompt उपयोग टिप: मल्टीमोडल इनपुट के साथ स्पष्ट टेक्स्ट निर्देशों का उपयोग करें

एजेंट और डाउनस्ट्रीम उपयोग

ऑडियो-आधारित function calling, रियल-टाइम मल्टीमोडल संवाद/विश्लेषण/असिस्टेंट सेवाएँ, विस्तृत ऑडियो कैप्शनिंग आदि के लिए विविध एजेंट बनाए जा सकते हैं
system prompt के जरिए भूमिका नियंत्रण, संवाद शैली और फ्रेम सेटिंग के उदाहरण दिए गए हैं

समापन

Qwen3-Omni ओपन सोर्स LLM में दुनिया के सबसे बड़े स्तर के सामान्य-उद्देश्य टेक्स्ट+वॉइस+इमेज+वीडियो एकीकरणों में से एक प्रदान करता है, और रियल-टाइम, बड़े पैमाने की वेब सेवाओं, शोध तथा संस्थागत ऑन-प्रिमाइसेस तैनाती के लिए आदर्श है। vLLM, API, Docker वातावरण आदि के साथ इसका घनिष्ठ एकीकरण, उच्च संगतता और विस्तृत उपयोग उदाहरण डेवलपमेंट दक्षता तथा प्रतिस्पर्धात्मक बढ़त हासिल करने में बड़े लाभ देते हैं।

2 टिप्पणियां

yeorinhieut 2025-09-24

हंगुल - यह हंगुल को सपोर्ट करता है!

GN⁺ 2025-09-23

Hacker News राय

अंग्रेज़ी में बातचीत करते समय यह बहुत धीमा लगा, लेकिन स्पैनिश में बात करने पर काफ़ी तेज़ महसूस हुआ। यह बात वास्तव में प्रभावशाली है कि रियल-टाइम अनुवाद जैसी जबरदस्त क्षमताएँ जल्द इस्तेमाल में आ सकती हैं। ऐसा लगता है कि अगर अमेरिकी लैब्स open weights की प्रतिस्पर्धा में सक्रिय रूप से नहीं उतरीं, तो अंततः चीन AI बाज़ार पर कब्ज़ा कर सकता है। प्राइवेसी और data ownership को लेकर संवेदनशील अमेरिकी शायद आखिरकार अपने घरों में खुले चीनी मॉडल चलाने वाले 1,000~2,000 डॉलर के डिवाइस रखने लगें—यह सचमुच चौंकाने वाला बदलाव लगता है।
- अमेरिका में रहते हुए मैं ऐसे लेख देख रहा हूँ जिनमें चीन Linux को ज़ोरदार तरीके से बढ़ावा दे रहा है, RISC-V जैसी open CPU architecture और self-hosted open models को भी आगे बढ़ा रहा है। अब तो हमें ही कहीं ज़्यादा ‘विलेन’ जैसा महसूस होने लगा है।
- मैं वास्तव में घर पर दो 3090 और Qwen3 चला रहा हूँ। इसे Home Assistant के साथ इंटीग्रेट करके esp32 voice satellite डिवाइस भी इस्तेमाल कर रहा हूँ। यह हैरान करने वाली हद तक अच्छा काम कर रहा है।
- आम अमेरिकी शायद प्राइवेसी सुनिश्चित करने वाली टेक्नोलॉजी पर अतिरिक्त 1,000~2,000 डॉलर खर्च करने को तैयार नहीं है। ज़्यादातर लोग तो पहले ही 20~200 डॉलर बचाने के लिए IoT कैमरों (जैसे Ring) के ज़रिए घर का सारा audio/video बिना वारंट के सरकार तक पहुँचने दे रहे हैं।
इसे https://chat.qwen.ai/ पर सीधे आज़माया जा सकता है। voice mode इस्तेमाल करने के लिए Google या GitHub से लॉगिन करना पड़ता है। कई तरह की आवाज़ें उपलब्ध हैं, जैसे Dylan (बीजिंग की गलियों में पला 10s का किशोर), Peter (तियानजिन का स्किट विशेषज्ञ), Cherry (उज्ज्वल और सकारात्मक युवा महिला), Ethan (ऊर्जावान और गर्मजोशी वाला लड़का), Eric (विशेष अंदाज़ वाला सिचुआन, चेंगदू का पुरुष), Jada (शंघाई से आई करिश्माई दीदी) आदि।
- खासकर भाषा बदलकर आवाज़ों को टेस्ट करना बहुत मज़ेदार है। रूसी में Ryan ऐसा लगता है जैसे किसी पश्चिमी व्यक्ति ने एक महीने पहले ही रूसी सीखना शुरू किया हो, Dylan थोड़ा ज़्यादा नैचुरल लगता है, और बाकी आवाज़ों में रूसी के साथ मज़बूत एशियाई accent मिला हुआ है, इसलिए हर एक की अलग personality मज़ेदार लगती है।
- मुझे तो सिर्फ Omni Flash दिख रहा है, क्या वही सही है?
मॉडल weights 70GB हैं और Hugging Face पर file size भी दिखाया गया है (Qwen/Qwen3-Omni-30B-A3B-Instruct)। लोकल में चलाने के लिए यह काफ़ी सुलभ आकार लगता है। सोच रहा हूँ क्या macOS port जल्द आएगा; अभी तो NVIDIA GPU ज़रूरी लगता है।
- BF16 के हिसाब से, अगर quantization (Q4) कर दी जाए तो शायद यह 24GB GPU में भी आराम से आ जाएगा। मुझे लगता है यह उसी 30B-A3B परिवार के दूसरे मॉडलों जैसा ही होगा। मुझे डर था कि कहीं यह 200B+ size का न हो, इसलिए यह राहत की बात है।
- मेरे पास समय की कमी थी इसलिए मैं आज़मा नहीं सका, लेकिन कल रिलीज़ हुए Apple के Mojo stuff के साथ इसे चलाने की कोशिश दिलचस्प हो सकती है। अभी यह कितना polished होगा, पता नहीं, लेकिन मज़ेदार चुनौती ज़रूर लगेगी।
- क्या macOS पर चलने वाला कोई inference engine है?
- जानना चाहता हूँ कि क्या यह 5090 पर चल सकता है, या कई GPU जोड़ना संभव है, या NVIDIA ने उसे ब्लॉक कर रखा है?
डेमो वीडियो यहाँ है। खासकर वह दृश्य जिसमें video+audio input को दूसरी भाषा में अनुवाद करके voice output तक दिया गया—वह अब तक देखी चीज़ों में सबसे प्रभावशाली लगा।
YouTube डेमो वीडियो
इस क्षेत्र में असली leverage point performance/size है। मेरा मानना है कि open weights की प्रतिस्पर्धा होने पर efficiency में innovation मजबूरन तेज़ होगा। इससे closed-weight models के मुकाबले ऐसे फ़ायदे भी आ सकते हैं जिनकी उन्होंने कल्पना न की हो। अगर cluster-आधारित collective inference mechanism काफ़ी विकसित हो जाए, तो यह जानना रोचक होगा कि H100 server एक पर 8 अलग-अलग 30B models, accuracy के लिहाज़ से 1 single 240B model से आगे कब निकलेंगे।
जिज्ञासा में मैंने कुछ छोटे audio clips डाले, और यह piano, drum जैसे instruments भी अलग पहचान लेता है। लगता है speech के अलावा audio recognition पर केंद्रित multimodal LLM research अभी ज़्यादा नज़र नहीं आती। काश SOTA की स्थिति पर कोई गहरा विश्लेषण मिलता।
मैं जानना चाहता हूँ कि "native video support" का वास्तव में क्या मतलब है। क्या यह सिर्फ लगातार आने वाली full-frame images को interpret करने जैसा है—जिसमें तेज़ events छूट सकते हैं—या इसका मतलब कुछ और ज़्यादा जटिल तकनीक है?
मुझे लगता है कि voice input + voice output वास्तव में बहुत बड़ा बदलाव है। सिद्धांत रूप में अब आवाज़ में बातचीत की जा सकती है और तुरंत मेरी भाषा या सामने वाले की भाषा में अनुवाद भी हो सकता है। अभी बीच में wake word, speech-to-text, text-to-speech जैसी कई तकनीकों की ज़रूरत पड़ती है, लेकिन कम से कम ऐसा लगता है कि इस मॉडल में 32b-स्तर के आसपास voice input और output दोनों सपोर्ट करने वाले लगभग 3 versions हैं। architecture के आधार पर आगे चलकर इसे घर पर या “AI toaster” जैसे डिवाइस में सीधे चलाया जा सकता है।
- अगर ऐसे मॉडल को घर की automation system से tool calls के ज़रिए जोड़ा जाए, तो मुझे लगता है बहुत बड़े अवसर खुलते हैं। ChatGPT में यह फ़ीचर आने के बाद से मैं इंतज़ार कर रहा था कि दूसरी services भी इसे सपोर्ट करें—खासकर cooking जैसी स्थितियों में जहाँ हाथ खाली न हों ("अगला step पढ़कर सुनाओ, हाथ में मांस लगा है", "roux बनाते समय कितना flour चाहिए?", "lemon नहीं है, उसकी जगह क्या इस्तेमाल करूँ?")—यह सचमुच क्रांतिकारी उपयोग दे सकता है।
- सबसे बढ़कर, यह language learning में बहुत मददगार लग रहा है। ऐसा भी लगता है कि इसे लोकल में चलाया जा सकता है। खास तौर पर अगर unsloth के developers इस पर काम करें, तो उम्मीद और बढ़ जाती है।
Qwen की thinker/speaker architecture वास्तव में बहुत दिलचस्प है। यह कुछ वैसा ही लगता है जैसा मैं इंसानी multimodal cognition के बारे में कल्पना करता हूँ—जैसे सेब की तस्वीर, "apple" की spelling, और उसकी आवाज़—ये सब बीच में text से गुज़रे बिना एक ही concept पर map हो जाते हैं।
- क्या सभी LLM ऐसे ही काम नहीं करते?
multimodal models सीखने के लिए कोई अच्छी सामग्री है क्या? समझ नहीं आ रहा कि शुरुआत कहाँ से करूँ।