• अंग्रेज़ी, कोरियाई, चीनी सहित 14 भाषाओं को सपोर्ट करने वाला 2B (2 अरब) पैरामीटर का अत्याधुनिक automatic speech recognition (ASR) मॉडल
  • Conformer-आधारित encoder-decoder architecture का उपयोग करता है और Apache 2.0 license के तहत जारी किया गया है
  • अंग्रेज़ी में औसत word error rate (WER) 5.42% के साथ Whisper Large v3 जैसे प्रमुख प्रतिस्पर्धी मॉडलों से बेहतर प्रदर्शन, और Hugging Face Open ASR Leaderboard में प्रथम स्थान दर्ज
  • वास्तविक-परिस्थिति मूल्यांकन और मानव मूल्यांकन दोनों में उच्च सटीकता और स्थिरता दिखाई, तथा बहुभाषी transcription में भी भरोसेमंद प्रदर्शन बनाए रखा
  • कम latency और उच्च processing efficiency दोनों हासिल, इसलिए real-time products और workflows के लिए उपयुक्त

Cohere Transcribe अवलोकन

  • speech अब बैठक रिकॉर्डिंग, voice analytics, real-time customer support जैसे AI-आधारित कार्य स्वचालन का एक मुख्य input format बनकर उभर रहा है
  • यह मॉडल word error rate (WER) को न्यूनतम करने के लक्ष्य से शुरू से प्रशिक्षित किया गया है, और research के बजाय वास्तविक service environments में उपयोग को ध्यान में रखकर डिज़ाइन किया गया है
  • GPU और local environments में भी efficient inference संभव है, और Cohere के managed inference platform Model Vault पर भी उपलब्ध है
  • Hugging Face के Open ASR Leaderboard में accuracy में प्रथम स्थान हासिल कर, वास्तविक-परिस्थिति transcription performance के लिए एक नया मानक प्रस्तुत किया

मॉडल संरचना

  • मॉडल का नाम cohere-transcribe-03-2026 है, और यह Conformer-आधारित encoder-decoder architecture का उपयोग करता है
    • input के रूप में audio waveform को log-Mel spectrogram में बदला जाता है, और output transcription text होता है
    • 2B (2 अरब) पैरामीटर वाला बड़ा Conformer encoder acoustic representations निकालता है, और हल्का Transformer decoder token generate करता है
  • मानक cross-entropy loss का उपयोग कर इसे शुरू से supervised learning के साथ प्रशिक्षित किया गया है
  • 14 भाषाओं का समर्थन

    • यूरोप: अंग्रेज़ी, फ़्रेंच, जर्मन, इटालियन, स्पैनिश, पुर्तगाली, ग्रीक, डच, पोलिश
    • एशिया-प्रशांत: चीनी (Mandarin), जापानी, कोरियाई, वियतनामी
    • मध्य पूर्व और उत्तर अफ्रीका: अरबी
    • Apache 2.0 license के तहत जारी

मॉडल प्रदर्शन

  • अंग्रेज़ी speech recognition accuracy में नया अत्याधुनिक मानक, औसत WER 5.42% के साथ public और private ASR मॉडलों में सर्वोच्च प्रदर्शन
    • Whisper Large v3, ElevenLabs Scribe v2, Qwen3-ASR-1.7B जैसे प्रमुख प्रतिस्पर्धी मॉडलों से बेहतर
  • विविध वास्तविक परिस्थितियों (multiple speakers, meeting-room acoustics, विभिन्न accents) में भी मज़बूत प्रदर्शन बनाए रखता है
  • प्रमुख benchmark परिणाम
    • AMI: 8.13, LS clean: 1.25, LS other: 2.37, Voxpopuli: 5.87
    • औसत WER 5.42 के साथ Zoom Scribe v1 (5.47), IBM Granite 4.0 (5.52), NVIDIA Canary Qwen 2.5B (5.63) से बेहतर
  • Hugging Face Open ASR Leaderboard कई datasets पर standardized WER के आधार पर मूल्यांकन करता है, जहाँ कम WER का अर्थ अधिक transcription accuracy होता है

मानव मूल्यांकन परिणाम

  • benchmarks से बाहर की वास्तविक परिस्थितियों में भी वही उत्कृष्ट प्रदर्शन पुष्टि हुआ
    • अनुभवी evaluators ने वास्तविक audio transcription परिणामों का accuracy, consistency, usability के आधार पर मूल्यांकन किया
    • automated evaluation और human evaluation दोनों में लगातार उत्कृष्ट प्रदर्शन दिखा
  • अंग्रेज़ी transcription quality comparative evaluation में meaning preservation, hallucination रोकथाम, proper noun recognition, formatting accuracy जैसे मानदंडों पर उच्च प्राथमिकता प्राप्त हुई
  • प्रत्येक supported language के human evaluation में भी 50% से अधिक preference rate दर्ज, जिससे multilingual environments में भी स्थिर प्रदर्शन साबित हुआ

processing speed और efficiency

  • वास्तविक service environments में latency और throughput प्रमुख सीमाएँ होती हैं
    • accuracy अधिक होने पर भी यदि मॉडल धीमा हो या resource consumption अधिक हो, तो उसका सीधा असर user experience और cost पर पड़ता है
  • Cohere Transcribe 1B+ parameter मॉडल वर्ग में शीर्ष-स्तरीय processing efficiency बनाए रखता है, और कम WER तथा उच्च RTFx (real-time processing multiple) दोनों एक साथ हासिल करता है
  • RTFx वह metric है जो दिखाता है कि audio input को real time की तुलना में कितनी तेज़ी से process किया जाता है; Transcribe accuracy और speed दोनों में Pareto frontier का विस्तार करता है
  • Radical Ventures का मूल्यांकन

    • Radical Ventures की vice president Paige Dickie ने Transcribe की speed और quality की उच्च सराहना की
    • उन्होंने कहा, “यह कुछ मिनट के audio को कुछ सेकंड में transcribe कर देता है और real-time products व workflows के लिए नई संभावनाएँ खोलता है”
    • उन्होंने यह भी आकलन किया कि यह सामान्य speech में भी मज़बूत और विश्वसनीय transcription quality देता है, और उपयोग अनुभव सहज था

आगे की विकास दिशा

  • Cohere, Transcribe को AI agent orchestration platform North के साथ integrate करने की योजना बना रहा है
    • आगे चलकर Transcribe केवल एक transcription मॉडल से आगे बढ़कर enterprise voice intelligence foundation के रूप में विस्तारित किया जाएगा

उपयोग और परिनियोजन

  • मॉडल Hugging Face से डाउनलोड किया जा सकता है, और local या edge environments में भी चलाया जा सकता है
  • Cohere API के माध्यम से इसे मुफ़्त में आज़माया जा सकता है, हालाँकि request limit (rate limit) मौजूद है
    • उपयोग विधि और integration guide आधिकारिक दस्तावेज़ों में उपलब्ध हैं
  • Model Vault का उपयोग करने पर infrastructure management के बिना low-latency private cloud inference संभव है
    • प्रति-घंटा instance pricing लागू होती है, और लंबे उपयोग पर छूट उपलब्ध है
    • enterprise deployment के लिए Cohere की sales team से संपर्क किया जा सकता है

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.