WhisperX - timestamp accuracy को बेहतर बनाने वाला Whisper-आधारित ASR
(github.com/m-bain)- OpenAI Whisper बहुत सटीक transcription बनाता है, लेकिन इसके timestamp शब्द-स्तर के बजाय utterance-स्तर पर होते हैं, इसलिए इनमें कुछ सेकंड तक की अशुद्धि हो सकती है
- Wav2vec2.0 जैसे phoneme-based ASR और forced alignment का उपयोग करके Whisper मॉडल के timestamp को बेहतर बनाया जाता है
- डिफ़ॉल्ट भाषाएँ {en, fr, de, es, it, ja, zh, nl} उपलब्ध हैं। अतिरिक्त भाषाओं के लिए Huggingface Model Hub में खोजकर परीक्षण करना होगा
अभी कोई टिप्पणी नहीं है.