मुझे नहीं पता यह ASK GN के लिए सही है या नहीं..! लेकिन लगा कि यह news या Show नहीं है, इसलिए यहाँ पोस्ट कर रहा हूँ.

पहले जो राय आपने दी थी, उसी के आधार पर मैं इसे बना रहा हूँ.
संयोग से मेरे साथ काम करने वाले बिज़नेस पक्ष के एक दोस्त के पास भी ऐसा ही आइडिया था, इसलिए हम दोनों non-developer मिलकर MVP बनाने की जद्दोजहद कर रहे हैं.
(Claude Code 5X + API की लागत पूरी तरह अपनी जेब से दे रहे हैं.. बिज़नेस वाले दोस्त की तरफ़ से शराब और खाना मिल रहा है..haha)

क्योंकि हम इसे drama/variety/movie जैसे content के आधार पर बना रहे हैं, इसलिए इस्तेमाल किए जा सकने वाले models काफ़ी सीमित हैं.
इसलिए बहुत खोजने के बाद अभी Whisper(Open AI API), Pyannote, और Assembly AI का उपयोग कर रहे हैं.

Pyannote का free period खत्म हो गया है, और क्योंकि यह usage-based billing नहीं बल्कि subscription ($19/month) है, इसलिए इसे छोड़ दिया,
और अभी Deepgram Nova-3 से टेस्ट कर रहे हैं. (साइन अप करने पर $200 मिलता है.)

लेकिन.. जैसा उम्मीद था, pyannote के बिना speaker separation मुश्किल हो रही है, इसलिए replicate.com पर meronym/speaker-diarization का उपयोग करके speaker separation कर रहे हैं.

अंतिम result देखें तो फिर भी speaker separation लगभग ठीक-ठाक हो जाती है.
Clova के साथ तुलना करने की योजना है, और तुलना का result भी साझा करूँगा!

अब यहाँ अगली चिंताएँ ये हैं:

  1. speaker separation audio आधारित है; अगर इसमें face recognition फीचर जोड़ें, तो क्या यह और अधिक सटीक होगा?
  2. face recognition के लिए ज़रूरी metadata कैसे इकट्ठा किया जाए?
  3. अगर आधार drama/movie/variety content है, तो metadata कहाँ से मिलेगा? (Naver, Namuwiki वगैरह)
  4. metadata इकट्ठा करने से लागत और समय की तुलना में quality बेहतर होगी क्या?

अगर इस तरह की समस्या पर पहले काम कर चुके वरिष्ठ लोग यहाँ हों, तो कृपया बहुत-सी सलाह दें...!!!

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.