- रियल-टाइम speech recognition और उच्च-सटीक speaker diarization क्षमताओं वाला अगली पीढ़ी का speech-to-text मॉडल
- यह दो मॉडलों से बना है: Voxtral Mini Transcribe V2 बैच प्रोसेसिंग के लिए, और Voxtral Realtime रियल-टाइम एप्लिकेशन के लिए
- Realtime मॉडल 200ms से कम latency के साथ streaming मोड में speech प्रोसेस करता है, और Apache 2.0 open weights के साथ जारी किया गया है
- Mini Transcribe V2 कोरियाई सहित 13 भाषाओं का समर्थन करता है, और word-level timestamps, context biasing, speaker diarization जैसी enterprise सुविधाएँ देता है
- दोनों मॉडल GDPR·HIPAA-compliant deployment को सपोर्ट करते हैं और voice-आधारित एप्लिकेशन की accuracy, speed, और cost efficiency को काफी बेहतर बनाते हैं
Voxtral Transcribe 2 अवलोकन
- Voxtral Transcribe 2 दो मॉडलों का समूह है, जिसकी प्रमुख विशेषताएँ हैं नवीनतम speech recognition गुणवत्ता, सटीक speaker diarization, और अत्यंत कम latency प्रोसेसिंग
- Voxtral Mini Transcribe V2: बैच transcription के लिए
- Voxtral Realtime: रियल-टाइम एप्लिकेशन के लिए
- Realtime मॉडल Apache 2.0 लाइसेंस के तहत जारी किया गया है, इसलिए इसे edge environment में भी deploy किया जा सकता है
- Mistral Studio के audio playground के जरिए तुरंत transcription टेस्ट किया जा सकता है
मुख्य फीचर्स का सार
- Voxtral Mini Transcribe V2: 13 भाषाओं का समर्थन, speaker diarization, context biasing, और word-level timestamps
- Voxtral Realtime: 200ms से कम latency पर रियल-टाइम transcription, voice agents और live applications के लिए उपयुक्त
- दक्षता: इंडस्ट्री की सबसे कम लागत पर शीर्ष-स्तरीय accuracy
- Open weights: Realtime मॉडल Apache 2.0 के तहत उपलब्ध है, जिससे privacy-केंद्रित deployment संभव है
Voxtral Realtime
- यह मॉडल उन एप्लिकेशन के लिए डिज़ाइन किया गया है जहाँ latency बेहद महत्वपूर्ण है; यह audio को chunk में प्रोसेस करने के बजाय streaming architecture के साथ रियल-टाइम transcription करता है
- 200ms से कम latency पर कॉन्फ़िगर किया जा सकता है, 2.4 सेकंड latency पर बैच मॉडल जैसी accuracy, और 480ms latency पर 1~2% error rate बनाए रखता है
- 13 भाषाओं (English, Chinese, Hindi, Spanish, Arabic, French, Portuguese, Russian, German, Japanese, Korean, Italian, Dutch) का समर्थन
- 4B parameters के स्केल पर edge devices में भी कुशलता से चलता है और security·privacy सुनिश्चित करता है
- मॉडल weights Hugging Face Hub पर उपलब्ध हैं
Voxtral Mini Transcribe V2
- transcription और speaker diarization की गुणवत्ता में भाषाओं और domains के across बड़ा सुधार हुआ है
- FLEURS benchmark पर लगभग 4% word error rate, और $0.003/मिनट की लागत पर बेहतरीन price-performance देता है
- इसकी accuracy GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal, Deepgram Nova से अधिक है, और यह ElevenLabs Scribe v2 से 3 गुना तेज़ है जबकि लागत केवल 1/5 है
Enterprise फीचर्स
- Speaker diarization: बोलने वाले की पहचान और शुरुआत/समाप्ति समय दिखाता है; मीटिंग, इंटरव्यू, और multi-party calls के लिए उपयुक्त
- Context biasing: अधिकतम 100 शब्द या वाक्यांश निर्दिष्ट किए जा सकते हैं; proper nouns और technical terms की पहचान बेहतर होती है (English के लिए optimized, अन्य भाषाओं में experimental)
- Word-level timestamps: subtitles बनाने, audio search, और content alignment में उपयोगी
- विस्तारित भाषा समर्थन: 13 भाषाओं का समर्थन, non-English भाषाओं में भी प्रतिस्पर्धी मॉडलों से बेहतर प्रदर्शन
- Noise robustness: फ़ैक्टरी, कॉल सेंटर जैसे शोर वाले वातावरण में भी accuracy बनाए रखता है
- लंबे audio की प्रोसेसिंग: एक ही request में अधिकतम 3 घंटे की रिकॉर्डिंग फ़ाइल प्रोसेस कर सकता है
Audio playground
- Mistral Studio में Voxtral Transcribe 2 को सीधे टेस्ट किया जा सकता है
- अधिकतम 10 audio files अपलोड की जा सकती हैं, और speaker diarization, timestamp unit, तथा context biasing सेटिंग्स का समर्थन है
- समर्थित फ़ॉर्मैट: .mp3, .wav, .m4a, .flac, .ogg, प्रति फ़ाइल अधिकतम 1GB
विभिन्न उपयोग के मामले
- Meeting intelligence: बहुभाषी मीटिंग transcription और speaker separation के जरिए बड़े पैमाने पर मीटिंग डेटा का विश्लेषण
- Voice agents·virtual assistants: 200ms से कम latency पर स्वाभाविक conversational interface
- Contact center automation: रियल-टाइम कॉल transcription के साथ sentiment analysis, response suggestions, और CRM auto-fill
- Media·broadcasting: रियल-टाइम बहुभाषी subtitles, proper nouns और technical terms की बेहतर पहचान
- Regulatory compliance·documentation: speaker-specific timestamps के आधार पर audit trail संभव
- दोनों मॉडल GDPR और HIPAA-compliant deployment को सपोर्ट करते हैं, और on-premises या private cloud environment में सुरक्षित रूप से चलाए जा सकते हैं
उपयोग और कीमत
- Voxtral Mini Transcribe V2: API के जरिए $0.003/मिनट, Mistral Studio या Le Chat में उपलब्ध
- Voxtral Realtime: API के जरिए $0.006/मिनट, Hugging Face पर open weights उपलब्ध
- Mistral के audio·transcription documentation में अतिरिक्त जानकारी देखी जा सकती है
अभी कोई टिप्पणी नहीं है.