• रियल-टाइम speech recognition और उच्च-सटीक speaker diarization क्षमताओं वाला अगली पीढ़ी का speech-to-text मॉडल
  • यह दो मॉडलों से बना है: Voxtral Mini Transcribe V2 बैच प्रोसेसिंग के लिए, और Voxtral Realtime रियल-टाइम एप्लिकेशन के लिए
  • Realtime मॉडल 200ms से कम latency के साथ streaming मोड में speech प्रोसेस करता है, और Apache 2.0 open weights के साथ जारी किया गया है
  • Mini Transcribe V2 कोरियाई सहित 13 भाषाओं का समर्थन करता है, और word-level timestamps, context biasing, speaker diarization जैसी enterprise सुविधाएँ देता है
  • दोनों मॉडल GDPR·HIPAA-compliant deployment को सपोर्ट करते हैं और voice-आधारित एप्लिकेशन की accuracy, speed, और cost efficiency को काफी बेहतर बनाते हैं

Voxtral Transcribe 2 अवलोकन

  • Voxtral Transcribe 2 दो मॉडलों का समूह है, जिसकी प्रमुख विशेषताएँ हैं नवीनतम speech recognition गुणवत्ता, सटीक speaker diarization, और अत्यंत कम latency प्रोसेसिंग
    • Voxtral Mini Transcribe V2: बैच transcription के लिए
    • Voxtral Realtime: रियल-टाइम एप्लिकेशन के लिए
  • Realtime मॉडल Apache 2.0 लाइसेंस के तहत जारी किया गया है, इसलिए इसे edge environment में भी deploy किया जा सकता है
  • Mistral Studio के audio playground के जरिए तुरंत transcription टेस्ट किया जा सकता है

मुख्य फीचर्स का सार

  • Voxtral Mini Transcribe V2: 13 भाषाओं का समर्थन, speaker diarization, context biasing, और word-level timestamps
  • Voxtral Realtime: 200ms से कम latency पर रियल-टाइम transcription, voice agents और live applications के लिए उपयुक्त
  • दक्षता: इंडस्ट्री की सबसे कम लागत पर शीर्ष-स्तरीय accuracy
  • Open weights: Realtime मॉडल Apache 2.0 के तहत उपलब्ध है, जिससे privacy-केंद्रित deployment संभव है

Voxtral Realtime

  • यह मॉडल उन एप्लिकेशन के लिए डिज़ाइन किया गया है जहाँ latency बेहद महत्वपूर्ण है; यह audio को chunk में प्रोसेस करने के बजाय streaming architecture के साथ रियल-टाइम transcription करता है
  • 200ms से कम latency पर कॉन्फ़िगर किया जा सकता है, 2.4 सेकंड latency पर बैच मॉडल जैसी accuracy, और 480ms latency पर 1~2% error rate बनाए रखता है
  • 13 भाषाओं (English, Chinese, Hindi, Spanish, Arabic, French, Portuguese, Russian, German, Japanese, Korean, Italian, Dutch) का समर्थन
  • 4B parameters के स्केल पर edge devices में भी कुशलता से चलता है और security·privacy सुनिश्चित करता है
  • मॉडल weights Hugging Face Hub पर उपलब्ध हैं

Voxtral Mini Transcribe V2

  • transcription और speaker diarization की गुणवत्ता में भाषाओं और domains के across बड़ा सुधार हुआ है
  • FLEURS benchmark पर लगभग 4% word error rate, और $0.003/मिनट की लागत पर बेहतरीन price-performance देता है
  • इसकी accuracy GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal, Deepgram Nova से अधिक है, और यह ElevenLabs Scribe v2 से 3 गुना तेज़ है जबकि लागत केवल 1/5 है

Enterprise फीचर्स

  • Speaker diarization: बोलने वाले की पहचान और शुरुआत/समाप्ति समय दिखाता है; मीटिंग, इंटरव्यू, और multi-party calls के लिए उपयुक्त
  • Context biasing: अधिकतम 100 शब्द या वाक्यांश निर्दिष्ट किए जा सकते हैं; proper nouns और technical terms की पहचान बेहतर होती है (English के लिए optimized, अन्य भाषाओं में experimental)
  • Word-level timestamps: subtitles बनाने, audio search, और content alignment में उपयोगी
  • विस्तारित भाषा समर्थन: 13 भाषाओं का समर्थन, non-English भाषाओं में भी प्रतिस्पर्धी मॉडलों से बेहतर प्रदर्शन
  • Noise robustness: फ़ैक्टरी, कॉल सेंटर जैसे शोर वाले वातावरण में भी accuracy बनाए रखता है
  • लंबे audio की प्रोसेसिंग: एक ही request में अधिकतम 3 घंटे की रिकॉर्डिंग फ़ाइल प्रोसेस कर सकता है

Audio playground

  • Mistral Studio में Voxtral Transcribe 2 को सीधे टेस्ट किया जा सकता है
  • अधिकतम 10 audio files अपलोड की जा सकती हैं, और speaker diarization, timestamp unit, तथा context biasing सेटिंग्स का समर्थन है
  • समर्थित फ़ॉर्मैट: .mp3, .wav, .m4a, .flac, .ogg, प्रति फ़ाइल अधिकतम 1GB

विभिन्न उपयोग के मामले

  • Meeting intelligence: बहुभाषी मीटिंग transcription और speaker separation के जरिए बड़े पैमाने पर मीटिंग डेटा का विश्लेषण
  • Voice agents·virtual assistants: 200ms से कम latency पर स्वाभाविक conversational interface
  • Contact center automation: रियल-टाइम कॉल transcription के साथ sentiment analysis, response suggestions, और CRM auto-fill
  • Media·broadcasting: रियल-टाइम बहुभाषी subtitles, proper nouns और technical terms की बेहतर पहचान
  • Regulatory compliance·documentation: speaker-specific timestamps के आधार पर audit trail संभव
  • दोनों मॉडल GDPR और HIPAA-compliant deployment को सपोर्ट करते हैं, और on-premises या private cloud environment में सुरक्षित रूप से चलाए जा सकते हैं

उपयोग और कीमत

  • Voxtral Mini Transcribe V2: API के जरिए $0.003/मिनट, Mistral Studio या Le Chat में उपलब्ध
  • Voxtral Realtime: API के जरिए $0.006/मिनट, Hugging Face पर open weights उपलब्ध
  • Mistral के audio·transcription documentation में अतिरिक्त जानकारी देखी जा सकती है

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.