• OpenAI Whisper बहुत सटीक transcription बनाता है, लेकिन इसके timestamp शब्द-स्तर के बजाय utterance-स्तर पर होते हैं, इसलिए इनमें कुछ सेकंड तक की अशुद्धि हो सकती है
  • Wav2vec2.0 जैसे phoneme-based ASR और forced alignment का उपयोग करके Whisper मॉडल के timestamp को बेहतर बनाया जाता है
  • डिफ़ॉल्ट भाषाएँ {en, fr, de, es, it, ja, zh, nl} उपलब्ध हैं। अतिरिक्त भाषाओं के लिए Huggingface Model Hub में खोजकर परीक्षण करना होगा

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.