- Qwen3-Omni-Flash-2025-12-01 टेक्स्ट, इमेज, ऑडियो और वीडियो को एक साथ प्रोसेस करके रियल-टाइम स्ट्रीमिंग के जरिए टेक्स्ट और वॉइस आउटपुट जनरेट करने वाला next-generation multimodal मॉडल है
- ऑडियो-वीज़ुअल कमांड की समझ और बातचीत की स्थिरता में बड़ा सुधार करके नेचुरल और कंसिस्टेंट वॉइस-वीडियो इंटरेक्शन को सक्षम बनाता है
- सिस्टम प्रॉम्प्ट पूर्ण नियंत्रण फीचर से personality शैली, टोन, आउटपुट लंबाई जैसे माइक्रो-लेवल पैरामीटर को भी फाइन-ट्यून किया जा सकता है
- 119 भाषाओं में टेक्स्ट, 19 भाषाओं में वॉइस रिकग्निशन, 10 भाषाओं में वॉइस सिंथेसिस को सपोर्ट कर बहुभाषी स्थिरता की समस्या को हल किया गया
- लॉजिक रीज़निंग, कोड जनरेशन, visual और वॉइस understanding जैसे सभी क्षेत्रों में performance बेहतर होकर नेचुरल और प्रिसाइज AI interaction experience प्रदान करता है
Qwen3-Omni-Flash-2025-12-01 अवलोकन
- Qwen3-Omni टेक्स्ट, इमेज, ऑडियो, वीडियो आदि विविध इनपुट संभालने वाला और रियल-टाइम में टेक्स्ट तथा प्राकृतिक वॉइस आउटपुट देने वाला native multimodal large मॉडल है
- यह संस्करण Qwen3-Omni-Flash-2025-12-01 मौजूदा Qwen3-Omni पर आधारित एक पूर्ण अपग्रेड संस्करण है
- मॉडल की performance और efficiency को व्यापक रूप से बेहतर बनाकर अधिक तेज़ और अधिक सटीक multimodal processing क्षमता प्रदान की गई है
मुख्य फीचर सुधार
-
ऑडियो-वीज़ुअल इंटरेक्शन को मजबूत बनाना
- वॉइस और वीडियो कमांड को समझने तथा execute करने की क्षमता में बड़ा सुधार कर, रोज़मर्रा की बोली जाने वाली बातचीत स्थितियों में होने वाली बुद्धिमत्ता गिरावट समस्या का समाधान किया गया
- मल्टी-टर्न ऑडियो-वीज़ुअल चैट में स्टेबिलिटी और कन्सिस्टेंसी बढ़ने से नेचुरल इंटरेक्शन संभव होता है
-
सिस्टम प्रॉम्प्ट कंट्रोल मजबूत करना
- सिस्टम प्रॉम्प्ट को पूरी तरह कस्टमाइज़ करने से मॉडल बिहेवियर पर precise control संभव होता है
- व्यक्तित्व शैली (जैसे sweet, cool, animation style), टोन, आउटपुट लंबाई आदि सूक्ष्म तत्वों को बारीकी से सेट किया जा सकता है
-
बहुभाषी सपोर्ट विश्वसनीयता सुधारना
- टेक्स्ट-बेस्ड interaction के लिए 119 भाषाएँ, वॉइस रिकग्निशन के लिए 19 भाषाएँ, वॉइस सिंथेसिस के लिए 10 भाषाएँ सपोर्ट
- पहले के संस्करण की भाषा-स्थिरता समस्याएँ हल कर accurate और consistent multilingual performance सुनिश्चित की गई है
-
नेचुरल वॉइस सिंथेसिस
- स्पीकिंग स्पीड, pauses और intonation को टेक्स्ट संदर्भ के अनुसार automatically adjust करके मानव जैसी voice quality बनाई गई है
- धीमी या मशीन जैसी आवाज़ हटाकर एक्सप्रेसिव और नेचुरल वॉइस आउटपुट प्रदान किया गया है
प्रदर्शन सुधार संकेतक
-
टेक्स्ट समझ और निर्माण क्षमता में सुधार
- लॉजिक रीज़निंग ZebraLogic +5.6, कोड जनरेशन LiveCodeBench-v6 +9.3, MultiPL-E +2.7, लेखन गुणवत्ता WritingBench +2.2 बेहतर हुई
- जटिल multi-step निर्देशों के निष्पादन की भरोसेमंदता बढ़ी
-
वॉइस समझ सटीकता में सुधार
- Fleurs-zh में word error rate कम हुई, VoiceBench +3.2 में सुधार हुआ
- वास्तविक conversational environment में वॉइस समझ और मजबूत हुई
-
वॉइस सिंथेसिस क्वालिटी में सुधार
- चीनी और अन्य बहुभाषी सेटिंग्स में नेचुरल prosody और rhythm हासिल किए गए
- मानव आवाज़ जैसी utterance quality सुनिश्चित की गई
-
इमेज समझ को मजबूत करना
- visual reasoning tasks में MMMU +4.7, MMMU-Pro +4.8, MathVision_full +2.2 सुधार दर्ज किया गया
- डाइग्राम, गणितीय आकृतियों आदि जैसे जटिल visual कंटेंट को समझने की क्षमता बेहतर हुई
-
वीडियो समझ सुधार
- MLVU +1.6 सुधार से वीडियो सेमांटिक समझ बेहतर हुई
- ऑडियो-वीज़ुअल synchronization सुधारकर रियल-टाइम वीडियो-चैट grounding को मजबूत किया गया
भविष्य की योजनाएँ
- यूज़र फीडबैक और Qwen3-Omni-आधारित inovative use cases एकत्र किए जाएंगे
- आगे चलकर multi-speaker ASR, video OCR, audio-video self-learning, agent-based workflow और function calling सपोर्ट जैसी features जोड़ने की योजना है
उद्धरण जानकारी
- शोध उपयोग में नीचे दी गई citation का उपयोग करने की सलाह दी जाती है
@misc{qwen3_omni_20251201, author={{Qwen Team, Alibaba}}, title={{Qwen3-Omni-Flash-2025-12-01:Hear You. See You. Follow Smarter!}}, year={2025}, url={https://qwen.ai/blog?id=qwen3-omni-20251201}}
1 टिप्पणियां
Hacker News की राय
यह मॉडल 30B parameter MoE संरचना पर आधारित है, जिसमें active parameters लगभग 3B स्तर के हैं
यह पहले के 7B omni मॉडल का उत्तराधिकारी है, और Qwen2.5-Omni-7B जैसी performance की उम्मीद की जा सकती है
public omni मॉडल बहुत ज़्यादा नहीं हैं, इसलिए यह काफ़ी मायने रखने वाला release लगता है
व्यक्तिगत रूप से, मैं इस मॉडल को input/output interface (keyboard·monitor) के विकल्प के रूप में इस्तेमाल करना चाहूँगा, और backend में किसी दूसरी तकनीक से computation करवाने वाली संरचना में उपयोग करना चाहूँगा
इसका reasoning version भी है, जिसमें voice chat के दौरान ‘सोच रहा हूँ’ tokens को बोलकर सुनाने की सुविधा है, जो काफ़ी दिलचस्प लगती है
650M audio encoder, 540M vision encoder, 30B-A3B LLM, 3B-A0.3B audio LLM, और 80M Transformer/200M ConvNet audio tokens को waveform में बदलते हैं
यह Qwen3-Omni का non-public weight update version है, और इससे पहले Qwen/Qwen3-Omni-30B-A3B-Instruct public किया गया था
अभी open source inference frameworks में इसे पूरा support नहीं मिला है, इसलिए यह केवल transformers में बहुत धीमे चलता है
मैं जानना चाहता था कि Qwen3-Omni क्या GPT-4o की तरह real-time conversation support करता है
docs देखकर लगा था कि नहीं करता, लेकिन असल में करता है
यह भी जानना चाहता हूँ कि किसी ने इसे non-NVIDIA environment में local पर चलाकर देखा है या नहीं
मैं आमतौर पर homonym tests (record vs record) या voice tone बदलने के अनुरोध से यह जाँचता हूँ
Silly Tavern जैसी चीज़ें भी लगभग unusable स्तर की हैं
लेकिन ऐसे local voice models ही आगे चलकर natural language based workflows का मूल बनेंगे
मैं जानना चाहता था कि Macbook पर GGUF या MLX के साथ Omni मॉडल चलाया जा सकता है या नहीं
LMStudio या Llama.cpp से यह संभव है, लेकिन वे microphone या webcam streaming support नहीं करते
Qwen आमतौर पर Cuda आधारित Python examples देता है, इसलिए मैं open source alternatives ढूँढ रहा हूँ
मैं Gemini Flash Live 2.5 का काफ़ी अच्छा उपयोग कर रहा हूँ
उम्मीद है कि 3.0 version जल्द आएगा
benchmarks में यह Gemini Live से बेहतर बताया गया है, लेकिन इसे खुद test करना होगा
व्यक्तिगत रूप से, English-केंद्रित environment में Qwen Omni models हमेशा कुछ कमी वाले लगे हैं
32B काफ़ी छोटा है, इसलिए लगता है कि 64GB RAM वाली मशीन पर भी चल सकता है
अगर यह Ollama पर आया तो मैं खुद इसे test करूँगा
लेकिन paper benchmarks में Qwen3-Omni-Flash-2025-12-01 को Qwen3-235B-A22B से बेहतर बताया गया है
30B मॉडल के साथ यह कैसे संभव है, यह उलझन में डालता है
FLASH version Hugging Face पर नहीं है, इसलिए बहुत संभव है कि यह API-only model हो
शुरुआत में लगा था कि यह केवल API-only है, लेकिन Hugging Face collection में मॉडल मौजूद हैं
लेकिन वास्तव में वे पुराने version हैं, और HF demo भी API call करता है, यानी local computation नहीं होती
यह बात प्रभावशाली है कि Qwen3-Omni 2.5 Flash को हर benchmark में पीछे छोड़ देता है
अब शायद समय आ गया है कि LLM workloads को local GPU पर शिफ्ट किया जाए
public benchmarks पर भरोसा करना मुश्किल है, और उन्हें देखकर मॉडल चुनने पर निराशा हो सकती है
मैं सोच रहा था कि voice model की बोलने की शैली बेजान जैसी क्यों लगती है
खासकर फल की कीमत वाले हिस्से में यह पूरी तरह natural था, लेकिन फिर भी तुरंत समझ आ गया कि यह AI है
शायद इसका कारण intonation या एक समान speaking rate है
ज़रूरत से ज़्यादा emotional expression कृत्रिम लगता है
हालांकि German pronunciation की गलती निराशाजनक थी
शायद speech synthesis का अलग चरण है, इसलिए ऐसा परिणाम आता है
इसे गाने या intonation test से जाँचा जा सकता है
ChatGPT का voice model सबसे natural लगता है
real-time voice output में ‘सोच रहा हूँ’ tokens और user-facing speech को अलग करना मुश्किल होने की समस्या है
reasoning/structured tokens को एक तरफ, और user-facing text को दूसरी तरफ भेजें
फिर केवल दूसरे वाले को speech synthesis में दें, तो ‘सोच रहा हूँ’ सुनाई देने की समस्या हल हो सकती है
लगता है Qwen open weights की उपलब्धता को जानबूझकर अस्पष्ट तरीके से पेश करता है
असल में ज़्यादातर चीज़ें non-public हैं, और कई बार public जैसा दिखता है लेकिन वास्तव में API-only होता है
इसकी वजह से users मॉडल ढूँढने में बेकार मेहनत करते रहते हैं