18 पॉइंट द्वारा xguru 2022-12-28 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • गेम में अगर कोई कैरेक्टर विदेशी भाषा में बात करता है, तो उसके सिर के ऊपर पहले मूल भाषा में subtitles दिखते हैं और फिर real-time में अपनी भाषा में अनुवाद हो जाता है
  • इस फीचर को DL speech recognition/face recognition आदि का उपयोग करके लागू किए गए code और उसके काम करने के तरीके का विस्तृत परिचय
  • OpenAI Whisper + NVDIA NeMo + DeepL + RetinaFace + DeepFace + Sckikit-learn + Gradio + Modal + PIL/OpenCV + ffpmpeg

काम करने का तरीका

  • yt-dlp से YouTube वीडियो डाउनलोड किया जाता है
  • ffmpeg से वीडियो/ऑडियो अलग किए जाते हैं
  • ऑडियो को
    • Whisper में डालकर transcripts बनाए जाते हैं और DeepL से अनुवाद किया जाता है
    • NeMo में डालकर speaker ID (कौन बोल रहा है) निकाला जाता है
    • इन दोनों को timestamp के आधार पर मिलाकर speaker ID लगा हुआ टेक्स्ट बनाया जाता है
  • वीडियो को
    • MTCNN/RetinaFace से चेहरे की स्थिति निकाली जाती है. Modal से parallelize करके तेज़ किया जाता है
    • DeepFace/Scikit-Learn से हर चेहरे की embedding निकाली जाती है और unique ID दी जाती है
  • Jaccard Index से FaceID और SpeakerID को match किया जाता है
  • बने हुए frame metadata के साथ PIL/OpenCV से frames पर annotation लगाया जाता है
  • ffmpeg Writer से वीडियो बनाया जाता है

1 टिप्पणियां

 
chicol 2022-12-28

काम करने के तरीके का डिज़ाइन कमाल का है।