- गेम में अगर कोई कैरेक्टर विदेशी भाषा में बात करता है, तो उसके सिर के ऊपर पहले मूल भाषा में subtitles दिखते हैं और फिर real-time में अपनी भाषा में अनुवाद हो जाता है
- इस फीचर को DL speech recognition/face recognition आदि का उपयोग करके लागू किए गए code और उसके काम करने के तरीके का विस्तृत परिचय
- OpenAI Whisper + NVDIA NeMo + DeepL + RetinaFace + DeepFace + Sckikit-learn + Gradio + Modal + PIL/OpenCV + ffpmpeg
काम करने का तरीका
yt-dlp से YouTube वीडियो डाउनलोड किया जाता है
ffmpeg से वीडियो/ऑडियो अलग किए जाते हैं
- ऑडियो को
- Whisper में डालकर transcripts बनाए जाते हैं और DeepL से अनुवाद किया जाता है
- NeMo में डालकर speaker ID (कौन बोल रहा है) निकाला जाता है
- इन दोनों को timestamp के आधार पर मिलाकर speaker ID लगा हुआ टेक्स्ट बनाया जाता है
- वीडियो को
- MTCNN/RetinaFace से चेहरे की स्थिति निकाली जाती है. Modal से parallelize करके तेज़ किया जाता है
- DeepFace/Scikit-Learn से हर चेहरे की embedding निकाली जाती है और unique ID दी जाती है
- Jaccard Index से FaceID और SpeakerID को match किया जाता है
- बने हुए frame metadata के साथ PIL/OpenCV से frames पर annotation लगाया जाता है
ffmpeg Writer से वीडियो बनाया जाता है
1 टिप्पणियां
काम करने के तरीके का डिज़ाइन कमाल का है।