Cohere Transcribe - SOTA ओपन सोर्स speech recognition मॉडल

(cohere.com)

3 पॉइंट द्वारा GN⁺ 29 일 전 | 2 टिप्पणियां | WhatsApp पर शेयर करें

अंग्रेज़ी, कोरियाई, चीनी सहित 14 भाषाओं को सपोर्ट करने वाला 2B (2 अरब) पैरामीटर का अत्याधुनिक automatic speech recognition (ASR) मॉडल
Conformer-आधारित encoder-decoder architecture का उपयोग करता है और Apache 2.0 license के तहत जारी किया गया है
अंग्रेज़ी में औसत word error rate (WER) 5.42% के साथ Whisper Large v3 जैसे प्रमुख प्रतिस्पर्धी मॉडलों से बेहतर प्रदर्शन, और Hugging Face Open ASR Leaderboard में प्रथम स्थान दर्ज
वास्तविक-परिस्थिति मूल्यांकन और मानव मूल्यांकन दोनों में उच्च सटीकता और स्थिरता दिखाई, तथा बहुभाषी transcription में भी भरोसेमंद प्रदर्शन बनाए रखा
कम latency और उच्च processing efficiency दोनों हासिल, इसलिए real-time products और workflows के लिए उपयुक्त

Cohere Transcribe अवलोकन

speech अब बैठक रिकॉर्डिंग, voice analytics, real-time customer support जैसे AI-आधारित कार्य स्वचालन का एक मुख्य input format बनकर उभर रहा है
यह मॉडल word error rate (WER) को न्यूनतम करने के लक्ष्य से शुरू से प्रशिक्षित किया गया है, और research के बजाय वास्तविक service environments में उपयोग को ध्यान में रखकर डिज़ाइन किया गया है
GPU और local environments में भी efficient inference संभव है, और Cohere के managed inference platform Model Vault पर भी उपलब्ध है
Hugging Face के Open ASR Leaderboard में accuracy में प्रथम स्थान हासिल कर, वास्तविक-परिस्थिति transcription performance के लिए एक नया मानक प्रस्तुत किया

मॉडल संरचना

मॉडल का नाम cohere-transcribe-03-2026 है, और यह Conformer-आधारित encoder-decoder architecture का उपयोग करता है
- input के रूप में audio waveform को log-Mel spectrogram में बदला जाता है, और output transcription text होता है
- 2B (2 अरब) पैरामीटर वाला बड़ा Conformer encoder acoustic representations निकालता है, और हल्का Transformer decoder token generate करता है
मानक cross-entropy loss का उपयोग कर इसे शुरू से supervised learning के साथ प्रशिक्षित किया गया है
14 भाषाओं का समर्थन
- यूरोप: अंग्रेज़ी, फ़्रेंच, जर्मन, इटालियन, स्पैनिश, पुर्तगाली, ग्रीक, डच, पोलिश
- एशिया-प्रशांत: चीनी (Mandarin), जापानी, कोरियाई, वियतनामी
- मध्य पूर्व और उत्तर अफ्रीका: अरबी
- Apache 2.0 license के तहत जारी

मॉडल प्रदर्शन

अंग्रेज़ी speech recognition accuracy में नया अत्याधुनिक मानक, औसत WER 5.42% के साथ public और private ASR मॉडलों में सर्वोच्च प्रदर्शन
- Whisper Large v3, ElevenLabs Scribe v2, Qwen3-ASR-1.7B जैसे प्रमुख प्रतिस्पर्धी मॉडलों से बेहतर
विविध वास्तविक परिस्थितियों (multiple speakers, meeting-room acoustics, विभिन्न accents) में भी मज़बूत प्रदर्शन बनाए रखता है
प्रमुख benchmark परिणाम
- AMI: 8.13, LS clean: 1.25, LS other: 2.37, Voxpopuli: 5.87
- औसत WER 5.42 के साथ Zoom Scribe v1 (5.47), IBM Granite 4.0 (5.52), NVIDIA Canary Qwen 2.5B (5.63) से बेहतर
Hugging Face Open ASR Leaderboard कई datasets पर standardized WER के आधार पर मूल्यांकन करता है, जहाँ कम WER का अर्थ अधिक transcription accuracy होता है

मानव मूल्यांकन परिणाम

benchmarks से बाहर की वास्तविक परिस्थितियों में भी वही उत्कृष्ट प्रदर्शन पुष्टि हुआ
- अनुभवी evaluators ने वास्तविक audio transcription परिणामों का accuracy, consistency, usability के आधार पर मूल्यांकन किया
- automated evaluation और human evaluation दोनों में लगातार उत्कृष्ट प्रदर्शन दिखा
अंग्रेज़ी transcription quality comparative evaluation में meaning preservation, hallucination रोकथाम, proper noun recognition, formatting accuracy जैसे मानदंडों पर उच्च प्राथमिकता प्राप्त हुई
प्रत्येक supported language के human evaluation में भी 50% से अधिक preference rate दर्ज, जिससे multilingual environments में भी स्थिर प्रदर्शन साबित हुआ

processing speed और efficiency

वास्तविक service environments में latency और throughput प्रमुख सीमाएँ होती हैं
- accuracy अधिक होने पर भी यदि मॉडल धीमा हो या resource consumption अधिक हो, तो उसका सीधा असर user experience और cost पर पड़ता है
Cohere Transcribe 1B+ parameter मॉडल वर्ग में शीर्ष-स्तरीय processing efficiency बनाए रखता है, और कम WER तथा उच्च RTFx (real-time processing multiple) दोनों एक साथ हासिल करता है
RTFx वह metric है जो दिखाता है कि audio input को real time की तुलना में कितनी तेज़ी से process किया जाता है; Transcribe accuracy और speed दोनों में Pareto frontier का विस्तार करता है
Radical Ventures का मूल्यांकन
- Radical Ventures की vice president Paige Dickie ने Transcribe की speed और quality की उच्च सराहना की
- उन्होंने कहा, “यह कुछ मिनट के audio को कुछ सेकंड में transcribe कर देता है और real-time products व workflows के लिए नई संभावनाएँ खोलता है”
- उन्होंने यह भी आकलन किया कि यह सामान्य speech में भी मज़बूत और विश्वसनीय transcription quality देता है, और उपयोग अनुभव सहज था

आगे की विकास दिशा

Cohere, Transcribe को AI agent orchestration platform North के साथ integrate करने की योजना बना रहा है
- आगे चलकर Transcribe केवल एक transcription मॉडल से आगे बढ़कर enterprise voice intelligence foundation के रूप में विस्तारित किया जाएगा

उपयोग और परिनियोजन

मॉडल Hugging Face से डाउनलोड किया जा सकता है, और local या edge environments में भी चलाया जा सकता है
Cohere API के माध्यम से इसे मुफ़्त में आज़माया जा सकता है, हालाँकि request limit (rate limit) मौजूद है
- उपयोग विधि और integration guide आधिकारिक दस्तावेज़ों में उपलब्ध हैं
Model Vault का उपयोग करने पर infrastructure management के बिना low-latency private cloud inference संभव है
- प्रति-घंटा instance pricing लागू होती है, और लंबे उपयोग पर छूट उपलब्ध है
- enterprise deployment के लिए Cohere की sales team से संपर्क किया जा सकता है

2 टिप्पणियां

j2sus91 29 일 전

क्या यह open source नहीं है, बल्कि एक paid service है?

GN⁺ 29 일 전

Hacker News की राय

मुझे चिंता है कि ASR (automatic speech recognition) का अंत कहीं OCR जैसा न हो
अगर multimodal बड़े AI काफी तेज़ और context को गहराई से समझने वाले हो जाएँ, तो लगता है वे मौजूदा तकनीकों को पूरी तरह अपने अंदर समेट लेंगे
OCR में भी ऐसा होता है कि अगर टेक्स्ट धुंधला scan हुआ हो, तो AI दस्तावेज़ का मतलब समझकर “order ID आमतौर पर order date के नीचे होता है” जैसे pattern से पहचान लेता है
अगर ASR भी इसी तरह context के आधार पर ‘अनुमान’ लगाने लगे, तो असली audio के विकृत होने का खतरा है
- इसमें अच्छे और बुरे, दोनों पहलू हैं
  अच्छा ASR वह noise मिली हुई speech भी समझ लेता है जिसे मैं खुद नहीं समझ पाता, लेकिन कभी-कभी वह ज़रूरत से ज़्यादा correction करके किसी rare शब्द को common शब्द में बदल देता है
  OCR में भी Xerox घटना की तरह plausible लेकिन गलत data बन सकता है
  इसलिए मैं OCR को सिर्फ search के लिए इस्तेमाल करता हूँ, और original scan हमेशा संभालकर रखता हूँ
- हकीकत पहले से ही उसी दिशा में जा रही है
  gpt-4o-transcribe जैसे multimodal LLM साधारण speech recognition से कहीं बेहतर हैं
  आप कंपनी की विशेष terminology या org chart को prompt में डाल सकते हैं, इसलिए “Kaitlyn को PR review करने के लिए कहो” जैसे वाक्यों में भी व्यक्ति की सही पहचान हो जाती है
  मेरे बनाए Mac के लिए open source tool से OpenAI API key और custom prompt इस्तेमाल किए जा सकते हैं
- समझ नहीं आता चिंता क्यों है
  अगर तकनीक आगे बढ़ती है, तो कुछ तकनीकें खत्म होने पर भी आखिरकार चीज़ें बेहतर दिशा में ही जाती हैं, है न?
- ASR पहले ही अपनी उपयोगिता साबित कर चुका है
  Whisper आने के बाद local पर चलने वाले speech recognition models तेज़ी से बढ़े हैं
  उदाहरण: superwhisper.com, carelesswhisper.app, macwhisper.com
- STT (speech→text) में कुछ समय तक local processing ज़्यादा फायदेमंद लगती है
  microphone वाले device पर सीधे process करने से bandwidth काफ़ी कम हो सकती है, और cloud पर भेजने की ज़रूरत भी न पड़े
अफ़सोस है कि मॉडल में timestamp या speaker diarization फीचर नहीं है
जानना चाहता हूँ कि क्या WhisperX अब भी उस काम के लिए सबसे अच्छा विकल्प है
- commercial API में भी बहुत कम सेवाएँ हैं जो speaker diarization और word-level timestamp को स्थिर रूप से support करती हों
  Google Chirp में segment छूट जाना, hallucination, timestamp mismatch जैसी बहुत समस्याएँ थीं
  AWS थोड़ा बेहतर है, लेकिन वहाँ भी word-level sync स्थिर नहीं है
  Whisper में भी hallucination अक्सर होती है, और OpenAI का नया model सटीक है लेकिन timestamp support नहीं करता
  आखिरकार post-processing से इसे संभाला जा सकता है, लेकिन अच्छा होता अगर कोई ऐसा API होता जिस पर सीधे भरोसा किया जा सके
- WhisperX कोई model नहीं, बल्कि Whisper और दूसरे models को जोड़ने वाला software package है
  लगता है Cohere Transcribe के लिए integration version भी जल्द आएगा
- Qwen-ASR की सिफारिश करता हूँ
  पेज के नीचे timestamp वाले example दिए गए हैं
- Mistral Voxtral timestamp और speaker diarization support करता है, और German में इसका प्रदर्शन अच्छा रहा है
- whisper-timestamped भी है
  यह अतिरिक्त model के बिना Whisper की cross-attention weights का उपयोग करके Dynamic Time Warping से alignment करता है
मैं Cohere की service से बहुत संतुष्ट हूँ
कुछ महीने पहले मैं उनके clip-style embedding model पर गया था, और अब तक इस्तेमाल की गई बाहरी सेवाओं में इसका P50 latency सबसे स्थिर रहा है
- कुल quality कैसी है, यह जानना चाहता हूँ
  Cohere के models आमतौर पर आकार में छोटे और प्रदर्शन में थोड़े कमज़ोर माने जाते हैं
बहुत से STT models सिर्फ बिल्कुल साफ़ उच्चारण वाली speech पर train किए जाते हैं, इसलिए foreign accent पर कमज़ोर पड़ते हैं
मेरे जैसे फ़्रेंच-लहजे वाली English बोलने वाले व्यक्ति के लिए, मैं इस model को ज़रूर test करना चाहूँगा
अब तक मेरे language learning app (Copycat Cafe) में सबसे अच्छा Soniox चला है, जबकि Whisper-आधारित models अक्सर hallucinated sentences बना देते थे
हमने अपने internal dataset (UK postal codes की 250 audio samples) पर test किया, और यह काफ़ी competitive लगा
Soniox 71%, ElevenLabs 68.5%, AssemblyAI 66.9%, Deepgram 63.7%, Cohere 59.7%, Speechmatics 54% के आसपास थे
- compare-stt.com के अनुसार Gladia blind test में पहले स्थान पर था
- table rendering के लिए पंक्तियों के बीच दो blank lines देनी होती हैं
- सोच रहा हूँ कि human baseline 248/248 है क्या
अफ़सोस है कि यह model custom word dictionary, word boosting, या prompt addition support नहीं करता
शायद यह एक और benchmark-केंद्रित ASR model होगा
मैं Twitch stream edits को YouTube पर अपलोड करते समय Whisper-large-v3 से subtitles बनाता हूँ
अच्छे ASR के लिए ये ज़रूरी हैं
1. timestamp support
2. simultaneous speaker recognition
3. accurate transcription
4. [खाँसी], [हँसी] जैसे non-verbal expressions शामिल हों
5. 10,000 से ज़्यादा शब्दों का context injection संभव हो
  WhisperX से 5 मिनट में transcription हो जाती है, लेकिन अब भी सबसे बड़ी समस्या वाक्यों का छूट जाना है
- 3 और 4 शायद ज़्यादातर ग्राहकों के लिए अनावश्यक features भी हो सकते हैं
अगर इसे “open source” कहा जा रहा है, तो जानना चाहता हूँ कि इसमें source code है या सिर्फ model weights सार्वजनिक किए गए हैं
- Hugging Face से files डाउनलोड की जा सकती हैं,
  और ONNX conversion version भी है, इसलिए इसे CPU पर भी चलाया जा सकता है
- ज़्यादातर मामलों में “open source” का मतलब weights release होता है
  model training की लागत बहुत ज़्यादा होती है, इसलिए सिर्फ नतीजा साझा करना भी काफ़ी उपयोगी है
- शायद यह शब्द model के लिए ही इस्तेमाल किया गया है
जानना चाहता हूँ कि क्या यह model अपने size class में SOTA है
यह Parakeet से बेहतर है या नहीं
- Hugging Face ASR leaderboard को देखें, तो
  Parakeet (0.6B) तेज़ है, लेकिन WER के हिसाब से लगभग top 10 के आसपास है
- Cohere model 2B parameters का है, इसलिए यह Parakeet (0.6B, 1.1B) से बड़ा है, और benchmarks में भी बेहतर प्रदर्शन दिखाता है
मैंने पहले Dragon Dictate इस्तेमाल किया था, लेकिन training में बहुत समय लगता था और नतीजे भी ख़ास नहीं थे
हाल ही में मैंने एक podcast interview किया, और Apple Podcasts ने अपने आप AI transcription बना दी
errors बहुत नहीं थे, लेकिन speaker separation न होना सबसे असुविधाजनक बात थी
- उस दौर में ऐसे speech recognition software भी थे जो 64MB RAM पर चल जाते थे
  बचपन में मैंने ऐसे TTS/speech recognition shareware बहुत डाउनलोड किए थे

Cohere Transcribe - SOTA ओपन सोर्स speech recognition मॉडल

Cohere Transcribe अवलोकन

मॉडल संरचना

14 भाषाओं का समर्थन

मॉडल प्रदर्शन

मानव मूल्यांकन परिणाम

processing speed और efficiency

Radical Ventures का मूल्यांकन

आगे की विकास दिशा

उपयोग और परिनियोजन

संबंधित पढ़ाई

2 टिप्पणियां

Hacker News की राय