- टेक्स्ट, इमेज, ऑडियो और वीडियो सभी को समझने और जनरेट करने वाला Alibaba Qwen टीम का नवीनतम मॉडल, Thinker-Talker आर्किटेक्चर पर Hybrid-Attention MoE लागू कर सभी modalities को संभालने की क्षमता को बड़े पैमाने पर मजबूत किया गया
- Plus, Flash, Light तीन आकारों के Instruct वर्ज़न उपलब्ध हैं, और 256k long context इनपुट, 10 घंटे से अधिक ऑडियो, तथा 720P के आधार पर 400 सेकंड से अधिक वीडियो प्रोसेसिंग को सपोर्ट करते हैं
- Qwen3.5-Omni-Plus ने 215 ऑडियो-वीडियो understanding benchmarks में SOTA हासिल किया, और सामान्य ऑडियो understanding, reasoning, translation और conversation के सभी क्षेत्रों में Gemini-3.1 Pro से बेहतर प्रदर्शन किया
- पिछली पीढ़ी की तुलना में multilingual support का बड़े पैमाने पर विस्तार किया गया है; 74 भाषाओं और 39 चीनी बोलियों के लिए speech recognition, 36 भाषाओं के लिए speech synthesis को सपोर्ट करता है, और voice clone, web search, real-time conversation, emotion/speed/volume control जैसी interactive सुविधाएँ नई जोड़ी गई हैं
- ARIA(Adaptive Rate Interleave Alignment) तकनीक टेक्स्ट और speech token encoding efficiency के अंतर से पैदा होने वाली छूट, गलत-पढ़ने और गलत-उच्चारण की समस्याओं को हल करती है, जिससे streaming speech synthesis की naturalness और stability में क्रांतिकारी सुधार हुआ है
मॉडल अवलोकन
- Qwen3.5-Omni टेक्स्ट, इमेज, ऑडियो और वीडियो सभी को प्रोसेस करने वाला Qwen का नवीनतम पूर्ण omnimodal LLM है
- Thinker और Talker दोनों में Hybrid-Attention MoE संरचना अपनाई गई है, जिससे multimodal processing performance बेहतर हुई है
- Plus, Flash, Light तीन Instruct वर्ज़न में उपलब्ध, और सभी 256k long context इनपुट को सपोर्ट करते हैं
- ऑडियो इनपुट: 10 घंटे से अधिक
- 720P·1FPS के आधार पर वीडियो इनपुट: 400 सेकंड से अधिक
- विशाल टेक्स्ट, विज़ुअल डेटा और 10 करोड़ घंटे से अधिक के audio-visual data पर omnimodal pre-training किया गया
- Offline API और Realtime API के माध्यम से अभी उपलब्ध
प्रमुख प्रदर्शन (Offline)
- Qwen3.5-Omni-Plus ने ऑडियो-वीडियो understanding, reasoning और interaction से जुड़े 215 subtask/benchmark में SOTA हासिल किया
- इसमें 3 audio-visual benchmark, 5 audio benchmark, 8 ASR benchmark, 156 language-specific S2TT, और 43 language-specific ASR शामिल हैं
- सामान्य ऑडियो understanding, reasoning, recognition, translation और conversation के सभी क्षेत्रों में Gemini-3.1 Pro से बेहतर, और कुल audio-visual understanding स्तर भी Gemini-3.1 Pro तक पहुँचा
- विज़ुअल और टेक्स्ट performance समान आकार के Qwen3.5 मॉडल के बराबर है
- Audio-Visual Captioning फीचर: बारीक और structured captions, automatic segmentation और timestamp annotation, पात्रों तथा ऑडियो संबंधों की व्याख्या जैसी scenario-level वर्णन क्षमता
- Audio-Visual Vibe Coding: ऑडियो-वीडियो निर्देशों के आधार पर सीधे कोड जनरेट करने वाली नई omnimodal क्षमता की पुष्टि
प्रमुख फीचर (Realtime)
- Semantic Interruption: Odin-आधारित turn-taking intent recognition के ज़रिए backchanneling और background noise से होने वाले अनावश्यक interruption को रोकता है; API में डिफ़ॉल्ट रूप से शामिल
- WebSearch और जटिल FunctionCall का native support: मॉडल खुद तय कर सकता है कि web search call करनी है या नहीं, ताकि real-time queries को संभाला जा सके
- End-to-end voice control: इंसानों की तरह निर्देशों का पालन करते हुए speech volume, speed और emotion को स्वतंत्र रूप से नियंत्रित करता है
- Voice Clone: उपयोगकर्ता अपनी आवाज़ अपलोड कर AI assistant की voice को customize कर सकते हैं; ये सभी Realtime API के माध्यम से उपलब्ध हैं
- system prompt बदलकर मॉडल की conversational style और identity बदली जा सकती है
ARIA तकनीक
- streaming voice interaction में टेक्स्ट और speech token encoding efficiency के अंतर से पैदा होने वाली omission, misreading और unclear pronunciation समस्याओं को हल करने के लिए ARIA(Adaptive Rate Interleave Alignment) तकनीक प्रस्तावित की गई
- टेक्स्ट और speech units को dynamically align (interleave) करके real-time performance बनाए रखते हुए speech synthesis की naturalness और stability में बड़ा सुधार किया गया
- यह पिछली पीढ़ी के Qwen3-Omni की fixed 1:1 text-speech tokenizer ratio पद्धति का स्थान लेती है
आर्किटेक्चर बदलाव (Qwen3-Omni की तुलना में)
- backbone: MoE → Hybrid-MoE
- sequence length: 32k → 256k (ऑडियो 10 घंटे, वीडियो 400 सेकंड)
- captioning range: केवल ऑडियो → audio-visual
- semantic interruption: unsupported → supported
- WebSearch/Tool: unsupported → supported
- voice control·clone: unsupported → supported
- Talker संरचना: dual-track autoregression → Interleave + ARIA
multilingual support का विस्तार
- speech recognition (ASR)
- पहले: 11 multilingual + 8 Chinese dialects
- अब: 74 multilingual languages + 39 Chinese dialects
- speech synthesis (TTS)
- पहले: 29 multilingual + 7 Chinese dialects
- अब: 36 multilingual voice generation (मूल पाठ में dialect synthesis की अलग सूची नहीं दी गई है)
benchmark संख्याएँ (मुख्य अंश)
- audio-visual (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)
- DailyOmni: 84.6 vs 82.7
- AVUT: 85.0 vs 85.6
- VideoMME (with audio): 83.7 vs 89.0
- OmniGAIA: 57.2 vs 68.9
- audio (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)
- MMAU: 82.2 vs 81.1
- VoiceBench: 93.1 vs 88.9
- Fleurs S2TT (xx↔en top59): 35.4 vs 34.6
- speech synthesis stability WER↓ (Custom Voice, Seed-hard)
- Qwen3.5-Omni-Plus: 6.24
- ElevenLabs: 27.70 / Gemini-2.5 Pro: 11.57 / GPT-Audio: 8.19
API और उपयोग का तरीका
- Offline API: वीडियो और ऑडियो analysis, web search (
enable_search parameter) सपोर्ट; Python OpenAI-compatible SDK से call किया जा सकता है
- Realtime API: WebSocket-आधारित real-time conversation; dashscope SDK का उपयोग, speech input/output streaming सपोर्ट
- उपलब्ध model ID:
qwen3.5-omni-plus, qwen3.5-omni-plus-realtime
- चीन mainland (Beijing) और international (Singapore) endpoints का अलग सपोर्ट
voice सूची
- Chinese और English custom voices: Tina, Cindy, Liora Mira, Sunnybobi, Raymond आदि 5 प्रकार
- emotion और roleplay जैसे scenario voices: Ethan, Harvey, Maia आदि 19 प्रकार (चीनी और अंग्रेज़ी)
- Chinese dialect voices: Sichuanese, Beijing dialect, Tianjin dialect, Cantonese आदि 8 प्रकार
- multilingual voices: Korean (Sohee), German (Lenn), Japanese (Ono Anna), Spanish, French, Russian आदि; 23 भाषाओं में कुल 23 प्रकार
अभी कोई टिप्पणी नहीं है.