- अंग्रेज़ी, कोरियाई, चीनी सहित 14 भाषाओं को सपोर्ट करने वाला 2B (2 अरब) पैरामीटर का अत्याधुनिक automatic speech recognition (ASR) मॉडल
- Conformer-आधारित encoder-decoder architecture का उपयोग करता है और Apache 2.0 license के तहत जारी किया गया है
- अंग्रेज़ी में औसत word error rate (WER) 5.42% के साथ Whisper Large v3 जैसे प्रमुख प्रतिस्पर्धी मॉडलों से बेहतर प्रदर्शन, और Hugging Face Open ASR Leaderboard में प्रथम स्थान दर्ज
- वास्तविक-परिस्थिति मूल्यांकन और मानव मूल्यांकन दोनों में उच्च सटीकता और स्थिरता दिखाई, तथा बहुभाषी transcription में भी भरोसेमंद प्रदर्शन बनाए रखा
- कम latency और उच्च processing efficiency दोनों हासिल, इसलिए real-time products और workflows के लिए उपयुक्त
Cohere Transcribe अवलोकन
- speech अब बैठक रिकॉर्डिंग, voice analytics, real-time customer support जैसे AI-आधारित कार्य स्वचालन का एक मुख्य input format बनकर उभर रहा है
- यह मॉडल word error rate (WER) को न्यूनतम करने के लक्ष्य से शुरू से प्रशिक्षित किया गया है, और research के बजाय वास्तविक service environments में उपयोग को ध्यान में रखकर डिज़ाइन किया गया है
- GPU और local environments में भी efficient inference संभव है, और Cohere के managed inference platform Model Vault पर भी उपलब्ध है
- Hugging Face के Open ASR Leaderboard में accuracy में प्रथम स्थान हासिल कर, वास्तविक-परिस्थिति transcription performance के लिए एक नया मानक प्रस्तुत किया
मॉडल संरचना
- मॉडल का नाम cohere-transcribe-03-2026 है, और यह Conformer-आधारित encoder-decoder architecture का उपयोग करता है
- input के रूप में audio waveform को log-Mel spectrogram में बदला जाता है, और output transcription text होता है
- 2B (2 अरब) पैरामीटर वाला बड़ा Conformer encoder acoustic representations निकालता है, और हल्का Transformer decoder token generate करता है
- मानक cross-entropy loss का उपयोग कर इसे शुरू से supervised learning के साथ प्रशिक्षित किया गया है
-
14 भाषाओं का समर्थन
- यूरोप: अंग्रेज़ी, फ़्रेंच, जर्मन, इटालियन, स्पैनिश, पुर्तगाली, ग्रीक, डच, पोलिश
- एशिया-प्रशांत: चीनी (Mandarin), जापानी, कोरियाई, वियतनामी
- मध्य पूर्व और उत्तर अफ्रीका: अरबी
- Apache 2.0 license के तहत जारी
मॉडल प्रदर्शन
- अंग्रेज़ी speech recognition accuracy में नया अत्याधुनिक मानक, औसत WER 5.42% के साथ public और private ASR मॉडलों में सर्वोच्च प्रदर्शन
- Whisper Large v3, ElevenLabs Scribe v2, Qwen3-ASR-1.7B जैसे प्रमुख प्रतिस्पर्धी मॉडलों से बेहतर
- विविध वास्तविक परिस्थितियों (multiple speakers, meeting-room acoustics, विभिन्न accents) में भी मज़बूत प्रदर्शन बनाए रखता है
- प्रमुख benchmark परिणाम
- AMI: 8.13, LS clean: 1.25, LS other: 2.37, Voxpopuli: 5.87
- औसत WER 5.42 के साथ Zoom Scribe v1 (5.47), IBM Granite 4.0 (5.52), NVIDIA Canary Qwen 2.5B (5.63) से बेहतर
- Hugging Face Open ASR Leaderboard कई datasets पर standardized WER के आधार पर मूल्यांकन करता है, जहाँ कम WER का अर्थ अधिक transcription accuracy होता है
मानव मूल्यांकन परिणाम
- benchmarks से बाहर की वास्तविक परिस्थितियों में भी वही उत्कृष्ट प्रदर्शन पुष्टि हुआ
- अनुभवी evaluators ने वास्तविक audio transcription परिणामों का accuracy, consistency, usability के आधार पर मूल्यांकन किया
- automated evaluation और human evaluation दोनों में लगातार उत्कृष्ट प्रदर्शन दिखा
- अंग्रेज़ी transcription quality comparative evaluation में meaning preservation, hallucination रोकथाम, proper noun recognition, formatting accuracy जैसे मानदंडों पर उच्च प्राथमिकता प्राप्त हुई
- प्रत्येक supported language के human evaluation में भी 50% से अधिक preference rate दर्ज, जिससे multilingual environments में भी स्थिर प्रदर्शन साबित हुआ
processing speed और efficiency
- वास्तविक service environments में latency और throughput प्रमुख सीमाएँ होती हैं
- accuracy अधिक होने पर भी यदि मॉडल धीमा हो या resource consumption अधिक हो, तो उसका सीधा असर user experience और cost पर पड़ता है
- Cohere Transcribe 1B+ parameter मॉडल वर्ग में शीर्ष-स्तरीय processing efficiency बनाए रखता है, और कम WER तथा उच्च RTFx (real-time processing multiple) दोनों एक साथ हासिल करता है
- RTFx वह metric है जो दिखाता है कि audio input को real time की तुलना में कितनी तेज़ी से process किया जाता है; Transcribe accuracy और speed दोनों में Pareto frontier का विस्तार करता है
-
Radical Ventures का मूल्यांकन
- Radical Ventures की vice president Paige Dickie ने Transcribe की speed और quality की उच्च सराहना की
- उन्होंने कहा, “यह कुछ मिनट के audio को कुछ सेकंड में transcribe कर देता है और real-time products व workflows के लिए नई संभावनाएँ खोलता है”
- उन्होंने यह भी आकलन किया कि यह सामान्य speech में भी मज़बूत और विश्वसनीय transcription quality देता है, और उपयोग अनुभव सहज था
आगे की विकास दिशा
- Cohere, Transcribe को AI agent orchestration platform North के साथ integrate करने की योजना बना रहा है
- आगे चलकर Transcribe केवल एक transcription मॉडल से आगे बढ़कर enterprise voice intelligence foundation के रूप में विस्तारित किया जाएगा
उपयोग और परिनियोजन
- मॉडल Hugging Face से डाउनलोड किया जा सकता है, और local या edge environments में भी चलाया जा सकता है
- Cohere API के माध्यम से इसे मुफ़्त में आज़माया जा सकता है, हालाँकि request limit (rate limit) मौजूद है
- उपयोग विधि और integration guide आधिकारिक दस्तावेज़ों में उपलब्ध हैं
- Model Vault का उपयोग करने पर infrastructure management के बिना low-latency private cloud inference संभव है
- प्रति-घंटा instance pricing लागू होती है, और लंबे उपयोग पर छूट उपलब्ध है
- enterprise deployment के लिए Cohere की sales team से संपर्क किया जा सकता है
2 टिप्पणियां
क्या यह open source नहीं है, बल्कि एक paid service है?
Hacker News की राय
मुझे चिंता है कि ASR (automatic speech recognition) का अंत कहीं OCR जैसा न हो
अगर multimodal बड़े AI काफी तेज़ और context को गहराई से समझने वाले हो जाएँ, तो लगता है वे मौजूदा तकनीकों को पूरी तरह अपने अंदर समेट लेंगे
OCR में भी ऐसा होता है कि अगर टेक्स्ट धुंधला scan हुआ हो, तो AI दस्तावेज़ का मतलब समझकर “order ID आमतौर पर order date के नीचे होता है” जैसे pattern से पहचान लेता है
अगर ASR भी इसी तरह context के आधार पर ‘अनुमान’ लगाने लगे, तो असली audio के विकृत होने का खतरा है
अच्छा ASR वह noise मिली हुई speech भी समझ लेता है जिसे मैं खुद नहीं समझ पाता, लेकिन कभी-कभी वह ज़रूरत से ज़्यादा correction करके किसी rare शब्द को common शब्द में बदल देता है
OCR में भी Xerox घटना की तरह plausible लेकिन गलत data बन सकता है
इसलिए मैं OCR को सिर्फ search के लिए इस्तेमाल करता हूँ, और original scan हमेशा संभालकर रखता हूँ
gpt-4o-transcribe जैसे multimodal LLM साधारण speech recognition से कहीं बेहतर हैं
आप कंपनी की विशेष terminology या org chart को prompt में डाल सकते हैं, इसलिए “Kaitlyn को PR review करने के लिए कहो” जैसे वाक्यों में भी व्यक्ति की सही पहचान हो जाती है
मेरे बनाए Mac के लिए open source tool से OpenAI API key और custom prompt इस्तेमाल किए जा सकते हैं
अगर तकनीक आगे बढ़ती है, तो कुछ तकनीकें खत्म होने पर भी आखिरकार चीज़ें बेहतर दिशा में ही जाती हैं, है न?
Whisper आने के बाद local पर चलने वाले speech recognition models तेज़ी से बढ़े हैं
उदाहरण: superwhisper.com, carelesswhisper.app, macwhisper.com
microphone वाले device पर सीधे process करने से bandwidth काफ़ी कम हो सकती है, और cloud पर भेजने की ज़रूरत भी न पड़े
अफ़सोस है कि मॉडल में timestamp या speaker diarization फीचर नहीं है
जानना चाहता हूँ कि क्या WhisperX अब भी उस काम के लिए सबसे अच्छा विकल्प है
Google Chirp में segment छूट जाना, hallucination, timestamp mismatch जैसी बहुत समस्याएँ थीं
AWS थोड़ा बेहतर है, लेकिन वहाँ भी word-level sync स्थिर नहीं है
Whisper में भी hallucination अक्सर होती है, और OpenAI का नया model सटीक है लेकिन timestamp support नहीं करता
आखिरकार post-processing से इसे संभाला जा सकता है, लेकिन अच्छा होता अगर कोई ऐसा API होता जिस पर सीधे भरोसा किया जा सके
लगता है Cohere Transcribe के लिए integration version भी जल्द आएगा
पेज के नीचे timestamp वाले example दिए गए हैं
यह अतिरिक्त model के बिना Whisper की cross-attention weights का उपयोग करके Dynamic Time Warping से alignment करता है
मैं Cohere की service से बहुत संतुष्ट हूँ
कुछ महीने पहले मैं उनके clip-style embedding model पर गया था, और अब तक इस्तेमाल की गई बाहरी सेवाओं में इसका P50 latency सबसे स्थिर रहा है
Cohere के models आमतौर पर आकार में छोटे और प्रदर्शन में थोड़े कमज़ोर माने जाते हैं
बहुत से STT models सिर्फ बिल्कुल साफ़ उच्चारण वाली speech पर train किए जाते हैं, इसलिए foreign accent पर कमज़ोर पड़ते हैं
मेरे जैसे फ़्रेंच-लहजे वाली English बोलने वाले व्यक्ति के लिए, मैं इस model को ज़रूर test करना चाहूँगा
अब तक मेरे language learning app (Copycat Cafe) में सबसे अच्छा Soniox चला है, जबकि Whisper-आधारित models अक्सर hallucinated sentences बना देते थे
हमने अपने internal dataset (UK postal codes की 250 audio samples) पर test किया, और यह काफ़ी competitive लगा
Soniox 71%, ElevenLabs 68.5%, AssemblyAI 66.9%, Deepgram 63.7%, Cohere 59.7%, Speechmatics 54% के आसपास थे
अफ़सोस है कि यह model custom word dictionary, word boosting, या prompt addition support नहीं करता
शायद यह एक और benchmark-केंद्रित ASR model होगा
मैं Twitch stream edits को YouTube पर अपलोड करते समय Whisper-large-v3 से subtitles बनाता हूँ
अच्छे ASR के लिए ये ज़रूरी हैं
WhisperX से 5 मिनट में transcription हो जाती है, लेकिन अब भी सबसे बड़ी समस्या वाक्यों का छूट जाना है
अगर इसे “open source” कहा जा रहा है, तो जानना चाहता हूँ कि इसमें source code है या सिर्फ model weights सार्वजनिक किए गए हैं
और ONNX conversion version भी है, इसलिए इसे CPU पर भी चलाया जा सकता है
model training की लागत बहुत ज़्यादा होती है, इसलिए सिर्फ नतीजा साझा करना भी काफ़ी उपयोगी है
जानना चाहता हूँ कि क्या यह model अपने size class में SOTA है
यह Parakeet से बेहतर है या नहीं
Parakeet (0.6B) तेज़ है, लेकिन WER के हिसाब से लगभग top 10 के आसपास है
मैंने पहले Dragon Dictate इस्तेमाल किया था, लेकिन training में बहुत समय लगता था और नतीजे भी ख़ास नहीं थे
हाल ही में मैंने एक podcast interview किया, और Apple Podcasts ने अपने आप AI transcription बना दी
errors बहुत नहीं थे, लेकिन speaker separation न होना सबसे असुविधाजनक बात थी
बचपन में मैंने ऐसे TTS/speech recognition shareware बहुत डाउनलोड किए थे