• FFmpeg 8.0 वर्शन में Whisper speech recognition model के सपोर्ट को आधिकारिक रूप से जोड़ा गया है
  • Whisper, OpenAI द्वारा विकसित एक open source speech recognition model है, जिसका उपयोग कई भाषाओं में automatic speech transcription के लिए किया जाता है
  • इस फीचर के जुड़ने से video और audio processing workflows में सीधे speech-to-text conversion automation की संभावना बढ़ गई है
  • डेवलपर्स और media automation क्षेत्र में FFmpeg की उपयोगिता और efficiency काफी मजबूत हुई है
  • latest speech recognition फीचर्स built-in होने से अतिरिक्त external tools या complex integration process का बोझ कम होता है

FFmpeg 8.0 में Whisper सपोर्ट का अवलोकन

  • FFmpeg 8.0 वर्शन, Whisper speech recognition model सपोर्ट जोड़कर कई भाषाओं में speech data को text में अपने-आप बदलने की सुविधा देता है
  • Whisper, OpenAI द्वारा बनाया गया deep learning आधारित algorithm उपयोग करता है, जो high-accuracy speech-to-text conversion performance सुनिश्चित करता है
  • मौजूदा FFmpeg users अब external tools के बिना, built-in Whisper support के जरिए video और audio files से subtitles बना सकते हैं या speech content निकाल सकते हैं

Whisper integration के मुख्य फायदे

  • Whisper integration के कारण FFmpeg-आधारित media processing और automation pipelines में efficient और scalable speech recognition workflows लागू करना संभव हो गया है
  • speech recognition algorithm built-in होने से डेवलपर्स को complex अतिरिक्त integration work या अलग scripts लिखने की जरूरत के बिना, सिर्फ simple commands से speech-to-text conversion results पाने का फायदा मिलता है

FFmpeg और Whisper संयोजन का औद्योगिक महत्व

  • विशाल media asset management, subtitle generation, video data archiving जैसे कई क्षेत्रों में FFmpeg + Whisper का संयोजन cost efficiency और automation दोनों को एक साथ हासिल करने की ताकत रखता है
  • पहले अलग open source speech recognition tools को FFmpeg के साथ integrate करना पड़ता था, लेकिन अब सीधे FFmpeg के भीतर processing करके workflow simplification और processing speed improvement की उम्मीद की जा सकती है

तकनीकी विवरण

  • FFmpeg में Whisper.cpp library पर आधारित एक audio filter जोड़ा गया है, जो FFmpeg के भीतर सीधे automatic speech recognition (ASR) चलाता है
  • इसे --enable-whisper विकल्प से सक्रिय किया जा सकता है, और model path (model) देना अनिवार्य है
  • मुख्य विकल्प: language setting (language), GPU उपयोग (use_gpu), queue size (queue), output format (format: text/srt/json), VAD (voice activity detection) model और threshold settings आदि
    • queue value को छोटा रखने पर real-time responsiveness बढ़ती है, लेकिन accuracy घट सकती है और CPU load बढ़ सकता है; बड़ा रखने पर accuracy बढ़ती है, लेकिन latency बढ़ती है
    • destination विकल्प से output file, URL, या metadata में results सेव किए जा सकते हैं, और AVIO protocol भी सपोर्ट होता है
  • उदाहरणों में SRT subtitle generation, JSON format में HTTP transmission, microphone input की real-time transcription (VAD के साथ) जैसे scenarios शामिल हैं
    • SRT subtitle file generation example
      ffmpeg -i input.mp4 -vn \  
      -af "whisper=model=../whisper.cpp/models/ggml-base.en.bin:language=en:queue=3:destination=output.srt:format=srt" \  
      -f null -  
      

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.