WhisperX - timestamp accuracy को बेहतर बनाने वाला Whisper-आधारित ASR

xguru · 2022-12-31T10:49:01+09:00

OpenAI Whisper बहुत सटीक transcription बनाता है, लेकिन इसके timestamp शब्द-स्तर के बजाय utterance-स्तर पर होते हैं, इसलिए इनमें कुछ सेकंड तक की अशुद्धि हो सकती है Wav2vec2.0 जैसे phoneme-based ASR और forced alignment का उपयोग करके Whisper मॉडल के timestamp को बेहतर बनाया जाता है डिफ़ॉल्ट भाषाएँ {en, fr, de, es, it, ja, zh, nl} उपलब्ध हैं। अतिरिक्त भाषाओं के लिए Huggingface Model Hub में खोजकर परीक्षण करना होगा

(github.com/m-bain)

5 पॉइंट द्वारा xguru 2022-12-31 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

OpenAI Whisper बहुत सटीक transcription बनाता है, लेकिन इसके timestamp शब्द-स्तर के बजाय utterance-स्तर पर होते हैं, इसलिए इनमें कुछ सेकंड तक की अशुद्धि हो सकती है
Wav2vec2.0 जैसे phoneme-based ASR और forced alignment का उपयोग करके Whisper मॉडल के timestamp को बेहतर बनाया जाता है
डिफ़ॉल्ट भाषाएँ {en, fr, de, es, it, ja, zh, nl} उपलब्ध हैं। अतिरिक्त भाषाओं के लिए Huggingface Model Hub में खोजकर परीक्षण करना होगा

WhisperX - timestamp accuracy को बेहतर बनाने वाला Whisper-आधारित ASR

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.