Voxtral Transcribe 2 मॉडल जारी
(mistral.ai)- रियल-टाइम speech recognition और उच्च-सटीक speaker diarization क्षमताओं वाला अगली पीढ़ी का speech-to-text मॉडल
- यह दो मॉडलों से बना है: Voxtral Mini Transcribe V2 बैच प्रोसेसिंग के लिए, और Voxtral Realtime रियल-टाइम एप्लिकेशन के लिए
- Realtime मॉडल 200ms से कम latency के साथ streaming मोड में speech प्रोसेस करता है, और Apache 2.0 open weights के साथ जारी किया गया है
- Mini Transcribe V2 कोरियाई सहित 13 भाषाओं का समर्थन करता है, और word-level timestamps, context biasing, speaker diarization जैसी enterprise सुविधाएँ देता है
- दोनों मॉडल GDPR·HIPAA-compliant deployment को सपोर्ट करते हैं और voice-आधारित एप्लिकेशन की accuracy, speed, और cost efficiency को काफी बेहतर बनाते हैं
Voxtral Transcribe 2 अवलोकन
- Voxtral Transcribe 2 दो मॉडलों का समूह है, जिसकी प्रमुख विशेषताएँ हैं नवीनतम speech recognition गुणवत्ता, सटीक speaker diarization, और अत्यंत कम latency प्रोसेसिंग
- Voxtral Mini Transcribe V2: बैच transcription के लिए
- Voxtral Realtime: रियल-टाइम एप्लिकेशन के लिए
- Realtime मॉडल Apache 2.0 लाइसेंस के तहत जारी किया गया है, इसलिए इसे edge environment में भी deploy किया जा सकता है
- Mistral Studio के audio playground के जरिए तुरंत transcription टेस्ट किया जा सकता है
मुख्य फीचर्स का सार
- Voxtral Mini Transcribe V2: 13 भाषाओं का समर्थन, speaker diarization, context biasing, और word-level timestamps
- Voxtral Realtime: 200ms से कम latency पर रियल-टाइम transcription, voice agents और live applications के लिए उपयुक्त
- दक्षता: इंडस्ट्री की सबसे कम लागत पर शीर्ष-स्तरीय accuracy
- Open weights: Realtime मॉडल Apache 2.0 के तहत उपलब्ध है, जिससे privacy-केंद्रित deployment संभव है
Voxtral Realtime
- यह मॉडल उन एप्लिकेशन के लिए डिज़ाइन किया गया है जहाँ latency बेहद महत्वपूर्ण है; यह audio को chunk में प्रोसेस करने के बजाय streaming architecture के साथ रियल-टाइम transcription करता है
- 200ms से कम latency पर कॉन्फ़िगर किया जा सकता है, 2.4 सेकंड latency पर बैच मॉडल जैसी accuracy, और 480ms latency पर 1~2% error rate बनाए रखता है
- 13 भाषाओं (English, Chinese, Hindi, Spanish, Arabic, French, Portuguese, Russian, German, Japanese, Korean, Italian, Dutch) का समर्थन
- 4B parameters के स्केल पर edge devices में भी कुशलता से चलता है और security·privacy सुनिश्चित करता है
- मॉडल weights Hugging Face Hub पर उपलब्ध हैं
Voxtral Mini Transcribe V2
- transcription और speaker diarization की गुणवत्ता में भाषाओं और domains के across बड़ा सुधार हुआ है
- FLEURS benchmark पर लगभग 4% word error rate, और $0.003/मिनट की लागत पर बेहतरीन price-performance देता है
- इसकी accuracy GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal, Deepgram Nova से अधिक है, और यह ElevenLabs Scribe v2 से 3 गुना तेज़ है जबकि लागत केवल 1/5 है
Enterprise फीचर्स
- Speaker diarization: बोलने वाले की पहचान और शुरुआत/समाप्ति समय दिखाता है; मीटिंग, इंटरव्यू, और multi-party calls के लिए उपयुक्त
- Context biasing: अधिकतम 100 शब्द या वाक्यांश निर्दिष्ट किए जा सकते हैं; proper nouns और technical terms की पहचान बेहतर होती है (English के लिए optimized, अन्य भाषाओं में experimental)
- Word-level timestamps: subtitles बनाने, audio search, और content alignment में उपयोगी
- विस्तारित भाषा समर्थन: 13 भाषाओं का समर्थन, non-English भाषाओं में भी प्रतिस्पर्धी मॉडलों से बेहतर प्रदर्शन
- Noise robustness: फ़ैक्टरी, कॉल सेंटर जैसे शोर वाले वातावरण में भी accuracy बनाए रखता है
- लंबे audio की प्रोसेसिंग: एक ही request में अधिकतम 3 घंटे की रिकॉर्डिंग फ़ाइल प्रोसेस कर सकता है
Audio playground
- Mistral Studio में Voxtral Transcribe 2 को सीधे टेस्ट किया जा सकता है
- अधिकतम 10 audio files अपलोड की जा सकती हैं, और speaker diarization, timestamp unit, तथा context biasing सेटिंग्स का समर्थन है
- समर्थित फ़ॉर्मैट: .mp3, .wav, .m4a, .flac, .ogg, प्रति फ़ाइल अधिकतम 1GB
विभिन्न उपयोग के मामले
- Meeting intelligence: बहुभाषी मीटिंग transcription और speaker separation के जरिए बड़े पैमाने पर मीटिंग डेटा का विश्लेषण
- Voice agents·virtual assistants: 200ms से कम latency पर स्वाभाविक conversational interface
- Contact center automation: रियल-टाइम कॉल transcription के साथ sentiment analysis, response suggestions, और CRM auto-fill
- Media·broadcasting: रियल-टाइम बहुभाषी subtitles, proper nouns और technical terms की बेहतर पहचान
- Regulatory compliance·documentation: speaker-specific timestamps के आधार पर audit trail संभव
- दोनों मॉडल GDPR और HIPAA-compliant deployment को सपोर्ट करते हैं, और on-premises या private cloud environment में सुरक्षित रूप से चलाए जा सकते हैं
उपयोग और कीमत
- Voxtral Mini Transcribe V2: API के जरिए $0.003/मिनट, Mistral Studio या Le Chat में उपलब्ध
- Voxtral Realtime: API के जरिए $0.006/मिनट, Hugging Face पर open weights उपलब्ध
- Mistral के audio·transcription documentation में अतिरिक्त जानकारी देखी जा सकती है
1 टिप्पणियां
Hacker News टिप्पणियाँ
यह डेमो सच में प्रभावशाली था
माइक्रोफ़ोन नहीं होने का संकेत दिखने पर भी, रिकॉर्ड बटन दबाते ही ब्राउज़र permissions मांगता है और तुरंत काम करने लगता है
तेज़ बोलने पर और technical terms मिलाने पर भी इसे काफ़ी सटीक रूप से transcribe किया। WebAssembly की spelling तक बिल्कुल सही थी
ऊपर से यह open weights है, इसके लिए सच में आभारी हूँ
मैंने दो भाषाएँ एक साथ बोलकर भी देखा, और उसने उन्हें सही पहचाना। सच में हैरान करने वाला
English recognition काफ़ी अच्छी है, लेकिन Polish में बोलने पर यह उसे Russian या Ukrainian के रूप में पहचानता है
अगर यह यूरोप-आधारित कंपनी है, तो मुझे लगता है कि प्रमुख यूरोपीय भाषाओं का support बेहतर होना चाहिए
मैंने English और Polish मिलाकर बोला, तो पूरी तरह mixed result आया
यह 13 भाषाओं को support करता है, और मैं सोच रहा हूँ कि अगर मिलती-जुलती जड़ों वाली भाषाएँ ज़्यादा हों तो parameter count या training data requirement कैसे बदलती होगी
FLEURS के आधार पर word error rate 4% और $0.003 प्रति मिनट का आँकड़ा प्रभावशाली है
Amazon Transcribe $0.024 प्रति मिनट है, इसलिए अंतर बड़ा है
उदाहरण के लिए, fal.ai का Whisper API “$0.00125 per compute second” है, लेकिन 10~25x real-time speed से process करता है, इसलिए वह काफ़ी सस्ता पड़ता है
यह मॉडल 14 भाषाएँ समझने वाला multilingual model है
लेकिन ज़्यादातर use cases में सिर्फ़ एक भाषा की ज़रूरत होती है, इसलिए बाकी भाषाएँ सिर्फ़ latency बढ़ा सकती हैं
आगे चलकर शायद ऐसे general-purpose models से अनावश्यक हिस्सों को घटाने का trend बने
संबंधित paper यहाँ देखा जा सकता है
उदाहरण: “voila”, “el camino real” जैसे expressions
हालाँकि अंदरूनी तौर पर वे भी शायद मिलती-जुलती LLM-based architecture इस्तेमाल करती हैं
Performance Deepgram nova-3 के मुकाबले competitive थी, और Assembly या ElevenLabs से ज़्यादातर मामलों में बेहतर लगी
internal test में इसे मज़बूत British accent वाले 8kHz call dataset पर evaluate किया गया, और practically SOTA स्तर का लगा
हालाँकि latency distribution कुछ अस्थिर थी। Local run में शायद यह बेहतर हो जाए
मैं जानना चाहता हूँ कि इसमें किस तरह के hardware resources चाहिए
क्या कई high-end NVIDIA GPU चाहिए, या फिर ESP32 जैसे low-power device पर offline चल सकता है, यह स्पष्ट नहीं था
जानना चाहता हूँ कि क्या यह Nvidia Parakeet V3 से बेहतर है। अभी तक local use में वही मेरे लिए सबसे अच्छा रहा है
मॉडल लिंक, inference port, और GGUF version देखें
मुझे लगा था कि speaker diarization feature default रूप से शामिल होगा, लेकिन real-time version में यह नहीं था
Voxtral-Mini-4B-Realtime-2602 लगभग 9GB का मॉडल है
मैंने डेमो इस्तेमाल किया, और English recognition शानदार थी, साथ ही language switching भी real time में detect हो रही थी
लेकिन Ukrainian को यह बिल्कुल नहीं पहचानता और हमेशा Russian में transcribe करता है
दूसरे STT models Ukrainian को अच्छी तरह handle करते हैं, इसलिए अफ़सोस है कि इसमें शायद training data में Russian ज़्यादा है
मॉडल अच्छा है, लेकिन पिछला version Parakeet से बेहतर नहीं था
Qwen3-ASR जैसे नए models के साथ objective comparison की ज़रूरत है
कंपनियों द्वारा दिखाए जाने वाले cherry-picked benchmarks पर अब भरोसा करना मुश्किल है
फिलहाल मेरे use case में Parakeet v3 सबसे तेज़ और efficient है
फ़ोन पर आप कौन-सा app इस्तेमाल करते हैं?