13 पॉइंट द्वारा GN⁺ 2026-02-05 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • रियल-टाइम speech recognition और उच्च-सटीक speaker diarization क्षमताओं वाला अगली पीढ़ी का speech-to-text मॉडल
  • यह दो मॉडलों से बना है: Voxtral Mini Transcribe V2 बैच प्रोसेसिंग के लिए, और Voxtral Realtime रियल-टाइम एप्लिकेशन के लिए
  • Realtime मॉडल 200ms से कम latency के साथ streaming मोड में speech प्रोसेस करता है, और Apache 2.0 open weights के साथ जारी किया गया है
  • Mini Transcribe V2 कोरियाई सहित 13 भाषाओं का समर्थन करता है, और word-level timestamps, context biasing, speaker diarization जैसी enterprise सुविधाएँ देता है
  • दोनों मॉडल GDPR·HIPAA-compliant deployment को सपोर्ट करते हैं और voice-आधारित एप्लिकेशन की accuracy, speed, और cost efficiency को काफी बेहतर बनाते हैं

Voxtral Transcribe 2 अवलोकन

  • Voxtral Transcribe 2 दो मॉडलों का समूह है, जिसकी प्रमुख विशेषताएँ हैं नवीनतम speech recognition गुणवत्ता, सटीक speaker diarization, और अत्यंत कम latency प्रोसेसिंग
    • Voxtral Mini Transcribe V2: बैच transcription के लिए
    • Voxtral Realtime: रियल-टाइम एप्लिकेशन के लिए
  • Realtime मॉडल Apache 2.0 लाइसेंस के तहत जारी किया गया है, इसलिए इसे edge environment में भी deploy किया जा सकता है
  • Mistral Studio के audio playground के जरिए तुरंत transcription टेस्ट किया जा सकता है

मुख्य फीचर्स का सार

  • Voxtral Mini Transcribe V2: 13 भाषाओं का समर्थन, speaker diarization, context biasing, और word-level timestamps
  • Voxtral Realtime: 200ms से कम latency पर रियल-टाइम transcription, voice agents और live applications के लिए उपयुक्त
  • दक्षता: इंडस्ट्री की सबसे कम लागत पर शीर्ष-स्तरीय accuracy
  • Open weights: Realtime मॉडल Apache 2.0 के तहत उपलब्ध है, जिससे privacy-केंद्रित deployment संभव है

Voxtral Realtime

  • यह मॉडल उन एप्लिकेशन के लिए डिज़ाइन किया गया है जहाँ latency बेहद महत्वपूर्ण है; यह audio को chunk में प्रोसेस करने के बजाय streaming architecture के साथ रियल-टाइम transcription करता है
  • 200ms से कम latency पर कॉन्फ़िगर किया जा सकता है, 2.4 सेकंड latency पर बैच मॉडल जैसी accuracy, और 480ms latency पर 1~2% error rate बनाए रखता है
  • 13 भाषाओं (English, Chinese, Hindi, Spanish, Arabic, French, Portuguese, Russian, German, Japanese, Korean, Italian, Dutch) का समर्थन
  • 4B parameters के स्केल पर edge devices में भी कुशलता से चलता है और security·privacy सुनिश्चित करता है
  • मॉडल weights Hugging Face Hub पर उपलब्ध हैं

Voxtral Mini Transcribe V2

  • transcription और speaker diarization की गुणवत्ता में भाषाओं और domains के across बड़ा सुधार हुआ है
  • FLEURS benchmark पर लगभग 4% word error rate, और $0.003/मिनट की लागत पर बेहतरीन price-performance देता है
  • इसकी accuracy GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal, Deepgram Nova से अधिक है, और यह ElevenLabs Scribe v2 से 3 गुना तेज़ है जबकि लागत केवल 1/5 है

Enterprise फीचर्स

  • Speaker diarization: बोलने वाले की पहचान और शुरुआत/समाप्ति समय दिखाता है; मीटिंग, इंटरव्यू, और multi-party calls के लिए उपयुक्त
  • Context biasing: अधिकतम 100 शब्द या वाक्यांश निर्दिष्ट किए जा सकते हैं; proper nouns और technical terms की पहचान बेहतर होती है (English के लिए optimized, अन्य भाषाओं में experimental)
  • Word-level timestamps: subtitles बनाने, audio search, और content alignment में उपयोगी
  • विस्तारित भाषा समर्थन: 13 भाषाओं का समर्थन, non-English भाषाओं में भी प्रतिस्पर्धी मॉडलों से बेहतर प्रदर्शन
  • Noise robustness: फ़ैक्टरी, कॉल सेंटर जैसे शोर वाले वातावरण में भी accuracy बनाए रखता है
  • लंबे audio की प्रोसेसिंग: एक ही request में अधिकतम 3 घंटे की रिकॉर्डिंग फ़ाइल प्रोसेस कर सकता है

Audio playground

  • Mistral Studio में Voxtral Transcribe 2 को सीधे टेस्ट किया जा सकता है
  • अधिकतम 10 audio files अपलोड की जा सकती हैं, और speaker diarization, timestamp unit, तथा context biasing सेटिंग्स का समर्थन है
  • समर्थित फ़ॉर्मैट: .mp3, .wav, .m4a, .flac, .ogg, प्रति फ़ाइल अधिकतम 1GB

विभिन्न उपयोग के मामले

  • Meeting intelligence: बहुभाषी मीटिंग transcription और speaker separation के जरिए बड़े पैमाने पर मीटिंग डेटा का विश्लेषण
  • Voice agents·virtual assistants: 200ms से कम latency पर स्वाभाविक conversational interface
  • Contact center automation: रियल-टाइम कॉल transcription के साथ sentiment analysis, response suggestions, और CRM auto-fill
  • Media·broadcasting: रियल-टाइम बहुभाषी subtitles, proper nouns और technical terms की बेहतर पहचान
  • Regulatory compliance·documentation: speaker-specific timestamps के आधार पर audit trail संभव
  • दोनों मॉडल GDPR और HIPAA-compliant deployment को सपोर्ट करते हैं, और on-premises या private cloud environment में सुरक्षित रूप से चलाए जा सकते हैं

उपयोग और कीमत

  • Voxtral Mini Transcribe V2: API के जरिए $0.003/मिनट, Mistral Studio या Le Chat में उपलब्ध
  • Voxtral Realtime: API के जरिए $0.006/मिनट, Hugging Face पर open weights उपलब्ध
  • Mistral के audio·transcription documentation में अतिरिक्त जानकारी देखी जा सकती है

1 टिप्पणियां

 
GN⁺ 2026-02-05
Hacker News टिप्पणियाँ
  • यह डेमो सच में प्रभावशाली था
    माइक्रोफ़ोन नहीं होने का संकेत दिखने पर भी, रिकॉर्ड बटन दबाते ही ब्राउज़र permissions मांगता है और तुरंत काम करने लगता है
    तेज़ बोलने पर और technical terms मिलाने पर भी इसे काफ़ी सटीक रूप से transcribe किया। WebAssembly की spelling तक बिल्कुल सही थी

    • पिछले 3 साल में मैंने लगभग हर speech model इस्तेमाल किया है, और यह अब तक देखे गए मॉडलों में साफ़ तौर पर सबसे बेहतरीन स्तर का है
      ऊपर से यह open weights है, इसके लिए सच में आभारी हूँ
    • लिंक के लिए धन्यवाद। Mistral के default playground में सिर्फ़ file upload होता है, इसलिए speed और accuracy का ठीक से अंदाज़ा लगाना मुश्किल था, लेकिन यह लिंक real-time performance को अच्छे से दिखाता है
      मैंने दो भाषाएँ एक साथ बोलकर भी देखा, और उसने उन्हें सही पहचाना। सच में हैरान करने वाला
    • मेरे environment में यह काम नहीं कर रहा था। Firefox और Chromium दोनों में waveform दिखती है, लेकिन सिर्फ़ “Awaiting audio input” ही दिखाई देता है
    • यह API लिंक 404 error देता है। UI के ऊपर दाएँ कोने में लाल error के रूप में दिखता है
    • Eminem के तेज़ rap वाले हिस्से को भी real time में transcribe कर लेने जितनी इसकी speed चौंकाने वाली है
  • English recognition काफ़ी अच्छी है, लेकिन Polish में बोलने पर यह उसे Russian या Ukrainian के रूप में पहचानता है
    अगर यह यूरोप-आधारित कंपनी है, तो मुझे लगता है कि प्रमुख यूरोपीय भाषाओं का support बेहतर होना चाहिए
    मैंने English और Polish मिलाकर बोला, तो पूरी तरह mixed result आया

    • मॉडल में साफ़ लिखा है कि Polish supported नहीं है, लेकिन Russian supported है
      यह 13 भाषाओं को support करता है, और मैं सोच रहा हूँ कि अगर मिलती-जुलती जड़ों वाली भाषाएँ ज़्यादा हों तो parameter count या training data requirement कैसे बदलती होगी
    • मैं सलाह दूँगा कि सिर्फ़ support list में मौजूद भाषाओं के साथ ही test करें
    • यह अफ़सोस की बात है कि performance कुछ खास भाषाओं में ही अच्छी है। आधिकारिक तौर पर सिर्फ़ 13 भाषाओं के लिए मज़बूत support है
    • Polish और Ukrainian मिलाने पर output Russian में आता है। सिर्फ़ Ukrainian बोलने पर भी यह हमेशा Russian में transcribe करता है, जो निराशाजनक है
    • Polish की ध्वन्यात्मक संरचना के हिसाब से उसे Cyrillic script में लिखना ज़्यादा स्वाभाविक लगता है, लेकिन ऐतिहासिक कारणों से ऐसा नहीं है। शायद इसी वजह से AI भ्रमित हो जाता है
  • FLEURS के आधार पर word error rate 4% और $0.003 प्रति मिनट का आँकड़ा प्रभावशाली है
    Amazon Transcribe $0.024 प्रति मिनट है, इसलिए अंतर बड़ा है

    • लेकिन मैं जानना चाहता हूँ कि यह pricing audio minute के हिसाब से है या compute minute के हिसाब से
      उदाहरण के लिए, fal.ai का Whisper API “$0.00125 per compute second” है, लेकिन 10~25x real-time speed से process करता है, इसलिए वह काफ़ी सस्ता पड़ता है
  • यह मॉडल 14 भाषाएँ समझने वाला multilingual model है
    लेकिन ज़्यादातर use cases में सिर्फ़ एक भाषा की ज़रूरत होती है, इसलिए बाकी भाषाएँ सिर्फ़ latency बढ़ा सकती हैं
    आगे चलकर शायद ऐसे general-purpose models से अनावश्यक हिस्सों को घटाने का trend बने
    संबंधित paper यहाँ देखा जा सकता है

    • लेकिन भाषाओं के बीच बहुत से borrowed words होते हैं, इसलिए multilingual model उल्टा मददगार भी हो सकता है
      उदाहरण: “voila”, “el camino real” जैसे expressions
    • लगता है इस मॉडल ने efficiency और accuracy दोनों एक साथ साबित की हैं
    • Azure, Google, Amazon जैसी मौजूदा STT services में भाषा explicitly बतानी पड़ती है, लेकिन quality अब भी ऊँची है
      हालाँकि अंदरूनी तौर पर वे भी शायद मिलती-जुलती LLM-based architecture इस्तेमाल करती हैं
    • इंसान सिर्फ़ एक ही भाषा नहीं बोलते। code switching स्वाभाविक है, इसलिए single-language model की सीमाएँ हैं
    • मज़ेदार बात यह है कि ऊपर वाला comment भाषाएँ कम करने की बात कर रहा है, जबकि दूसरे comments भाषाएँ कम होने की शिकायत कर रहे हैं
  • Performance Deepgram nova-3 के मुकाबले competitive थी, और Assembly या ElevenLabs से ज़्यादातर मामलों में बेहतर लगी
    internal test में इसे मज़बूत British accent वाले 8kHz call dataset पर evaluate किया गया, और practically SOTA स्तर का लगा
    हालाँकि latency distribution कुछ अस्थिर थी। Local run में शायद यह बेहतर हो जाए

  • मैं जानना चाहता हूँ कि इसमें किस तरह के hardware resources चाहिए
    क्या कई high-end NVIDIA GPU चाहिए, या फिर ESP32 जैसे low-power device पर offline चल सकता है, यह स्पष्ट नहीं था

  • जानना चाहता हूँ कि क्या यह Nvidia Parakeet V3 से बेहतर है। अभी तक local use में वही मेरे लिए सबसे अच्छा रहा है

    • मैं खुद Nemotron ASR port करके इस्तेमाल कर रहा हूँ और संतुष्ट हूँ
      मॉडल लिंक, inference port, और GGUF version देखें
    • मैंने Parakeet V3 को local में इस्तेमाल किया है, और महसूस हुआ कि यह मॉडल थोड़ा धीमा है लेकिन accuracy ज़्यादा है
    • मुझे Parakeet v3 पसंद था, लेकिन कभी-कभी यह पूरे वाक्य ही छोड़ देता था
    • Parakeet 0.6B है, इसलिए edge devices पर भी चल जाता है। Voxtral 4B है, इसलिए Orin या Hailo पर real-time में चलना मुश्किल लगता है
    • मैं भी यही सवाल पूछने आया था!
  • मुझे लगा था कि speaker diarization feature default रूप से शामिल होगा, लेकिन real-time version में यह नहीं था
    Voxtral-Mini-4B-Realtime-2602 लगभग 9GB का मॉडल है

    • speaker diarization सिर्फ़ Voxtral Mini Transcribe V2 version में शामिल है
  • मैंने डेमो इस्तेमाल किया, और English recognition शानदार थी, साथ ही language switching भी real time में detect हो रही थी
    लेकिन Ukrainian को यह बिल्कुल नहीं पहचानता और हमेशा Russian में transcribe करता है
    दूसरे STT models Ukrainian को अच्छी तरह handle करते हैं, इसलिए अफ़सोस है कि इसमें शायद training data में Russian ज़्यादा है

    • क्योंकि मॉडल सिर्फ़ Russian को support करता है, यह input Ukrainian को सबसे नज़दीकी Russian शब्दों से map कर देता है
  • मॉडल अच्छा है, लेकिन पिछला version Parakeet से बेहतर नहीं था
    Qwen3-ASR जैसे नए models के साथ objective comparison की ज़रूरत है
    कंपनियों द्वारा दिखाए जाने वाले cherry-picked benchmarks पर अब भरोसा करना मुश्किल है
    फिलहाल मेरे use case में Parakeet v3 सबसे तेज़ और efficient है

    • Open ASR Leaderboard है, लेकिन आधे साल से update नहीं हुआ
    • मुझे भी Parakeet पसंद है, इसलिए Mac पर मैं Handy app के साथ इसका इस्तेमाल करता हूँ।
      फ़ोन पर आप कौन-सा app इस्तेमाल करते हैं?