1 पॉइंट द्वारा GN⁺ 2025-12-12 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Qwen3-Omni-Flash-2025-12-01 टेक्स्ट, इमेज, ऑडियो और वीडियो को एक साथ प्रोसेस करके रियल-टाइम स्ट्रीमिंग के जरिए टेक्स्ट और वॉइस आउटपुट जनरेट करने वाला next-generation multimodal मॉडल है
  • ऑडियो-वीज़ुअल कमांड की समझ और बातचीत की स्थिरता में बड़ा सुधार करके नेचुरल और कंसिस्टेंट वॉइस-वीडियो इंटरेक्शन को सक्षम बनाता है
  • सिस्टम प्रॉम्प्ट पूर्ण नियंत्रण फीचर से personality शैली, टोन, आउटपुट लंबाई जैसे माइक्रो-लेवल पैरामीटर को भी फाइन-ट्यून किया जा सकता है
  • 119 भाषाओं में टेक्स्ट, 19 भाषाओं में वॉइस रिकग्निशन, 10 भाषाओं में वॉइस सिंथेसिस को सपोर्ट कर बहुभाषी स्थिरता की समस्या को हल किया गया
  • लॉजिक रीज़निंग, कोड जनरेशन, visual और वॉइस understanding जैसे सभी क्षेत्रों में performance बेहतर होकर नेचुरल और प्रिसाइज AI interaction experience प्रदान करता है

Qwen3-Omni-Flash-2025-12-01 अवलोकन

  • Qwen3-Omni टेक्स्ट, इमेज, ऑडियो, वीडियो आदि विविध इनपुट संभालने वाला और रियल-टाइम में टेक्स्ट तथा प्राकृतिक वॉइस आउटपुट देने वाला native multimodal large मॉडल है
  • यह संस्करण Qwen3-Omni-Flash-2025-12-01 मौजूदा Qwen3-Omni पर आधारित एक पूर्ण अपग्रेड संस्करण है
  • मॉडल की performance और efficiency को व्यापक रूप से बेहतर बनाकर अधिक तेज़ और अधिक सटीक multimodal processing क्षमता प्रदान की गई है

मुख्य फीचर सुधार

  • ऑडियो-वीज़ुअल इंटरेक्शन को मजबूत बनाना

    • वॉइस और वीडियो कमांड को समझने तथा execute करने की क्षमता में बड़ा सुधार कर, रोज़मर्रा की बोली जाने वाली बातचीत स्थितियों में होने वाली बुद्धिमत्ता गिरावट समस्या का समाधान किया गया
    • मल्टी-टर्न ऑडियो-वीज़ुअल चैट में स्टेबिलिटी और कन्सिस्टेंसी बढ़ने से नेचुरल इंटरेक्शन संभव होता है
  • सिस्टम प्रॉम्प्ट कंट्रोल मजबूत करना

    • सिस्टम प्रॉम्प्ट को पूरी तरह कस्टमाइज़ करने से मॉडल बिहेवियर पर precise control संभव होता है
    • व्यक्तित्व शैली (जैसे sweet, cool, animation style), टोन, आउटपुट लंबाई आदि सूक्ष्म तत्वों को बारीकी से सेट किया जा सकता है
  • बहुभाषी सपोर्ट विश्वसनीयता सुधारना

    • टेक्स्ट-बेस्ड interaction के लिए 119 भाषाएँ, वॉइस रिकग्निशन के लिए 19 भाषाएँ, वॉइस सिंथेसिस के लिए 10 भाषाएँ सपोर्ट
    • पहले के संस्करण की भाषा-स्थिरता समस्याएँ हल कर accurate और consistent multilingual performance सुनिश्चित की गई है
  • नेचुरल वॉइस सिंथेसिस

    • स्पीकिंग स्पीड, pauses और intonation को टेक्स्ट संदर्भ के अनुसार automatically adjust करके मानव जैसी voice quality बनाई गई है
    • धीमी या मशीन जैसी आवाज़ हटाकर एक्सप्रेसिव और नेचुरल वॉइस आउटपुट प्रदान किया गया है

प्रदर्शन सुधार संकेतक

  • टेक्स्ट समझ और निर्माण क्षमता में सुधार

    • लॉजिक रीज़निंग ZebraLogic +5.6, कोड जनरेशन LiveCodeBench-v6 +9.3, MultiPL-E +2.7, लेखन गुणवत्ता WritingBench +2.2 बेहतर हुई
    • जटिल multi-step निर्देशों के निष्पादन की भरोसेमंदता बढ़ी
  • वॉइस समझ सटीकता में सुधार

    • Fleurs-zh में word error rate कम हुई, VoiceBench +3.2 में सुधार हुआ
    • वास्तविक conversational environment में वॉइस समझ और मजबूत हुई
  • वॉइस सिंथेसिस क्वालिटी में सुधार

    • चीनी और अन्य बहुभाषी सेटिंग्स में नेचुरल prosody और rhythm हासिल किए गए
    • मानव आवाज़ जैसी utterance quality सुनिश्चित की गई
  • इमेज समझ को मजबूत करना

    • visual reasoning tasks में MMMU +4.7, MMMU-Pro +4.8, MathVision_full +2.2 सुधार दर्ज किया गया
    • डाइग्राम, गणितीय आकृतियों आदि जैसे जटिल visual कंटेंट को समझने की क्षमता बेहतर हुई
  • वीडियो समझ सुधार

    • MLVU +1.6 सुधार से वीडियो सेमांटिक समझ बेहतर हुई
    • ऑडियो-वीज़ुअल synchronization सुधारकर रियल-टाइम वीडियो-चैट grounding को मजबूत किया गया

भविष्य की योजनाएँ

  • यूज़र फीडबैक और Qwen3-Omni-आधारित inovative use cases एकत्र किए जाएंगे
  • आगे चलकर multi-speaker ASR, video OCR, audio-video self-learning, agent-based workflow और function calling सपोर्ट जैसी features जोड़ने की योजना है

उद्धरण जानकारी

  • शोध उपयोग में नीचे दी गई citation का उपयोग करने की सलाह दी जाती है

1 टिप्पणियां

 
GN⁺ 2025-12-12
Hacker News की राय
  • यह मॉडल 30B parameter MoE संरचना पर आधारित है, जिसमें active parameters लगभग 3B स्तर के हैं
    यह पहले के 7B omni मॉडल का उत्तराधिकारी है, और Qwen2.5-Omni-7B जैसी performance की उम्मीद की जा सकती है
    public omni मॉडल बहुत ज़्यादा नहीं हैं, इसलिए यह काफ़ी मायने रखने वाला release लगता है
    व्यक्तिगत रूप से, मैं इस मॉडल को input/output interface (keyboard·monitor) के विकल्प के रूप में इस्तेमाल करना चाहूँगा, और backend में किसी दूसरी तकनीक से computation करवाने वाली संरचना में उपयोग करना चाहूँगा
    इसका reasoning version भी है, जिसमें voice chat के दौरान ‘सोच रहा हूँ’ tokens को बोलकर सुनाने की सुविधा है, जो काफ़ी दिलचस्प लगती है

    • यह मॉडल कई components की परतों से बना है
      650M audio encoder, 540M vision encoder, 30B-A3B LLM, 3B-A0.3B audio LLM, और 80M Transformer/200M ConvNet audio tokens को waveform में बदलते हैं
      यह Qwen3-Omni का non-public weight update version है, और इससे पहले Qwen/Qwen3-Omni-30B-A3B-Instruct public किया गया था
      अभी open source inference frameworks में इसे पूरा support नहीं मिला है, इसलिए यह केवल transformers में बहुत धीमे चलता है
    • Alibaba Cloud docs के अनुसार यह मॉडल open source नहीं है
    • नए version के weights कहीं भी नहीं मिले. Modelscope और Hugging Face दोनों देखा, लेकिन नहीं थे, और लगता है कि context window 200K+ tokens तक बढ़ाया गया है
    • reasoning version का thought tokens को बोलना दिलचस्प है. पहले Claude भी कुछ ऐसा ही करता था
    • अगर thought tokens में reverb जैसा effect डाल दिया जाए, तो शायद मॉडल की ‘सोचने की आवाज़’ सुनना मज़ेदार हो सकता है
  • मैं जानना चाहता था कि Qwen3-Omni क्या GPT-4o की तरह real-time conversation support करता है
    docs देखकर लगा था कि नहीं करता, लेकिन असल में करता है
    यह भी जानना चाहता हूँ कि किसी ने इसे non-NVIDIA environment में local पर चलाकर देखा है या नहीं

    • official chat site पर अभी audio→audio model नहीं है
      मैं आमतौर पर homonym tests (record vs record) या voice tone बदलने के अनुरोध से यह जाँचता हूँ
    • vLLM या SGLang जैसे inference frameworks अभी पूरा support नहीं देते, इसलिए non-NVIDIA environment में यह संभव नहीं है
    • फिर भी native speech-to-speech क्षमता मौजूद लगती है
    • मुझे अभी भी नहीं लगता कि कोई polished local voice chat app उपलब्ध है
      Silly Tavern जैसी चीज़ें भी लगभग unusable स्तर की हैं
      लेकिन ऐसे local voice models ही आगे चलकर natural language based workflows का मूल बनेंगे
  • मैं जानना चाहता था कि Macbook पर GGUF या MLX के साथ Omni मॉडल चलाया जा सकता है या नहीं
    LMStudio या Llama.cpp से यह संभव है, लेकिन वे microphone या webcam streaming support नहीं करते
    Qwen आमतौर पर Cuda आधारित Python examples देता है, इसलिए मैं open source alternatives ढूँढ रहा हूँ

    • vLLM usage guide और local web UI demo देखें तो लगता है कि इसे जोड़ा जा सकता है
    • whisper.cpp का उपयोग करने पर यह संभव है
  • मैं Gemini Flash Live 2.5 का काफ़ी अच्छा उपयोग कर रहा हूँ
    उम्मीद है कि 3.0 version जल्द आएगा
    benchmarks में यह Gemini Live से बेहतर बताया गया है, लेकिन इसे खुद test करना होगा
    व्यक्तिगत रूप से, English-केंद्रित environment में Qwen Omni models हमेशा कुछ कमी वाले लगे हैं

  • 32B काफ़ी छोटा है, इसलिए लगता है कि 64GB RAM वाली मशीन पर भी चल सकता है
    अगर यह Ollama पर आया तो मैं खुद इसे test करूँगा

    • Hugging Face का Qwen3-Omni-30B-A3B मॉडल सितंबर में update हुआ लगता है
      लेकिन paper benchmarks में Qwen3-Omni-Flash-2025-12-01 को Qwen3-235B-A22B से बेहतर बताया गया है
      30B मॉडल के साथ यह कैसे संभव है, यह उलझन में डालता है
      FLASH version Hugging Face पर नहीं है, इसलिए बहुत संभव है कि यह API-only model हो
    • मैं 48GB RAM Mac पर universal memory की वजह से इसे अच्छे से चला रहा हूँ
  • शुरुआत में लगा था कि यह केवल API-only है, लेकिन Hugging Face collection में मॉडल मौजूद हैं
    लेकिन वास्तव में वे पुराने version हैं, और HF demo भी API call करता है, यानी local computation नहीं होती

  • यह बात प्रभावशाली है कि Qwen3-Omni 2.5 Flash को हर benchmark में पीछे छोड़ देता है
    अब शायद समय आ गया है कि LLM workloads को local GPU पर शिफ्ट किया जाए

    • लेकिन benchmark हमेशा अपने dataset पर करना चाहिए
      public benchmarks पर भरोसा करना मुश्किल है, और उन्हें देखकर मॉडल चुनने पर निराशा हो सकती है
    • अगर काम केवल text-only है, तो Omni की जगह Qwen3-30B-A3B इस्तेमाल करना ज़्यादा efficient होगा
    • image benchmarks Qwen 2.0 से तुलना करते दिखते हैं, इसलिए वे कुछ संदिग्ध लगते हैं
  • मैं सोच रहा था कि voice model की बोलने की शैली बेजान जैसी क्यों लगती है
    खासकर फल की कीमत वाले हिस्से में यह पूरी तरह natural था, लेकिन फिर भी तुरंत समझ आ गया कि यह AI है
    शायद इसका कारण intonation या एक समान speaking rate है

    • मुझे तो उल्टा कम भावनात्मक होना बेहतर लगता है
      ज़रूरत से ज़्यादा emotional expression कृत्रिम लगता है
      हालांकि German pronunciation की गलती निराशाजनक थी
    • हो सकता है यह पूरी तरह end-to-end multimodal न हो
      शायद speech synthesis का अलग चरण है, इसलिए ऐसा परिणाम आता है
      इसे गाने या intonation test से जाँचा जा सकता है
    • शायद vision, audio, multilingual, intonation control जैसी बहुत सारी क्षमताएँ 30B parameters में भरने की वजह से ऐसा है
      ChatGPT का voice model सबसे natural लगता है
    • AI की बोलने की शैली को तुरंत पहचान पाना शायद अच्छी बात भी हो सकती है
    • मुझे तो AI वाला अलग accent होना और भी अच्छा लगता है
  • real-time voice output में ‘सोच रहा हूँ’ tokens और user-facing speech को अलग करना मुश्किल होने की समस्या है

    • इसका आसान तरीका है कि TTS से पहले output stream को अलग कर दिया जाए
      reasoning/structured tokens को एक तरफ, और user-facing text को दूसरी तरफ भेजें
      फिर केवल दूसरे वाले को speech synthesis में दें, तो ‘सोच रहा हूँ’ सुनाई देने की समस्या हल हो सकती है
  • लगता है Qwen open weights की उपलब्धता को जानबूझकर अस्पष्ट तरीके से पेश करता है
    असल में ज़्यादातर चीज़ें non-public हैं, और कई बार public जैसा दिखता है लेकिन वास्तव में API-only होता है
    इसकी वजह से users मॉडल ढूँढने में बेकार मेहनत करते रहते हैं