पहले मैंने Korean multi-speaker से जुड़ा सवाल पोस्ट किया था! उसके बाद की प्रगति का अपडेट!

3 पॉइंट द्वारा somang04 2026-05-28 | 5 टिप्पणियां | WhatsApp पर शेयर करें

मुझे नहीं पता यह ASK GN के लिए सही है या नहीं..! लेकिन लगा कि यह news या Show नहीं है, इसलिए यहाँ पोस्ट कर रहा हूँ.

पहले जो राय आपने दी थी, उसी के आधार पर मैं इसे बना रहा हूँ.
संयोग से मेरे साथ काम करने वाले बिज़नेस पक्ष के एक दोस्त के पास भी ऐसा ही आइडिया था, इसलिए हम दोनों non-developer मिलकर MVP बनाने की जद्दोजहद कर रहे हैं.
(Claude Code 5X + API की लागत पूरी तरह अपनी जेब से दे रहे हैं.. बिज़नेस वाले दोस्त की तरफ़ से शराब और खाना मिल रहा है..haha)

क्योंकि हम इसे drama/variety/movie जैसे content के आधार पर बना रहे हैं, इसलिए इस्तेमाल किए जा सकने वाले models काफ़ी सीमित हैं.
इसलिए बहुत खोजने के बाद अभी Whisper(Open AI API), Pyannote, और Assembly AI का उपयोग कर रहे हैं.

Pyannote का free period खत्म हो गया है, और क्योंकि यह usage-based billing नहीं बल्कि subscription ($19/month) है, इसलिए इसे छोड़ दिया,
और अभी Deepgram Nova-3 से टेस्ट कर रहे हैं. (साइन अप करने पर $200 मिलता है.)

लेकिन.. जैसा उम्मीद था, pyannote के बिना speaker separation मुश्किल हो रही है, इसलिए replicate.com पर meronym/speaker-diarization का उपयोग करके speaker separation कर रहे हैं.

अंतिम result देखें तो फिर भी speaker separation लगभग ठीक-ठाक हो जाती है.
Clova के साथ तुलना करने की योजना है, और तुलना का result भी साझा करूँगा!

अब यहाँ अगली चिंताएँ ये हैं:

speaker separation audio आधारित है; अगर इसमें face recognition फीचर जोड़ें, तो क्या यह और अधिक सटीक होगा?
face recognition के लिए ज़रूरी metadata कैसे इकट्ठा किया जाए?
अगर आधार drama/movie/variety content है, तो metadata कहाँ से मिलेगा? (Naver, Namuwiki वगैरह)
metadata इकट्ठा करने से लागत और समय की तुलना में quality बेहतर होगी क्या?

अगर इस तरह की समस्या पर पहले काम कर चुके वरिष्ठ लोग यहाँ हों, तो कृपया बहुत-सी सलाह दें...!!!

5 टिप्पणियां

boradi 2026-05-29

मैंने speaker separation से जुड़ा research किया है, इसलिए जो मुझे पता है उसके आधार पर कहूँ तो

हाँ, यह ज्यादा परिष्कृत हो जाता है। लेकिन तकनीकी रूप से कठिनाई कुछ ज्यादा होगी। क्योंकि इसमें होंठों की आकृति में बदलाव और voice sync तक match करना संभव होता है। TalkNet-ASD, 3D-Speaker-Toolkit जैसे कई संबंधित open source उपलब्ध हैं, इसलिए उन्हें अच्छे से reference के तौर पर देख सकते हैं। साथ ही हाल में ऐसे research भी हैं, जैसे SpeakerLM, जो LLM के साथ image और video को एक साथ input के रूप में देकर speaker separation और subtitle generation एक साथ करने की सुविधा देते हैं.
यह जिस business context में आपने सवाल किया है, उसे मैं ठीक से नहीं जानता, इसलिए सिर्फ लिखी हुई जानकारी के आधार पर कहूँ तो drama, film, variety show जैसे content में दिखने वाले चेहरे, एक ही व्यक्ति के होने पर bhi makeup या situation के अनुसार अलग-अलग तरह से extract होते हैं। इसलिए हर content में आने वाले पात्रों के चेहरों को अलग-अलग निकालकर, face-wise clustering करके, उस content की cast के साथ 1:1 matching करने का काम करना पड़ेगा। यह multimodal model से भी संभव हो सकता है, लेकिन accuracy के लिए इंसानों द्वारा labeling की जरूरत पड़ती है, इसलिए इसमें काफी cost और time लगता है। पैसे देकर part-time workers रखने की एक वजह यही भी है। साथ ही, केवल ऑडियो होने की स्थिति में भी, इस ऑडियो डेटा को पहले से इकट्ठा करके, इंसानों से label कराकर embedding बना दी जाए, तो speaker separation की quality काफी बेहतर हो जाती है।
ऐसे content का db tmdb, imdb, kmdb आदि जैसी कई संबंधित API के जरिए काफी हद तक लिया जा सकता है, चाहे मुफ्त हो या paid। लेकिन उसे database के रूप में व्यवस्थित करना आपको खुद करना होगा। Crawling भी एक तरीका हो सकता है।
आप क्या करना चाहते हैं, यह तो मुझे नहीं पता, लेकिन मैंने ऊपर जो बातें कही हैं, वे सुनने में आसान लगती हैं, जबकि वास्तव में accuracy बढ़ाने के लिए इनमें बहुत समय और लागत लगती है। मैंने जो research किया था, वह भी कई कारणों से काफी लंबा चला था। 80~90% accuracy बनाना आसान है, लेकिन वह कोई भी कर सकता है। इसलिए बाकी 10% की detail भरना ही commercialization का असली सार और core value है। अगर आप पूछें कि "quality बेहतर होती है क्या", तो निश्चित रूप से होती है। लेकिन अगर पूछें कि "cost और time के मुकाबले" बेहतर होती है क्या, तो इस पर मैं पक्का नहीं कह सकता। जैसा मैंने कहा, सुधार लगभग 10% के आसपास ही होता है।

जो भी हो, non-developer लोगों का इस तरह की चुनौती लेना बहुत प्रभावशाली और सराहनीय है। उम्मीद है यह अच्छे से सफल हो।

somang04 2026-05-29

धन्यवाद!! जैसा सोचा था, automation की भी अपनी limits हैं, और tagging व mapping में इंसानी मेहनत लगनी ही पड़ती है..

लगता है अब slave 1 के लिए एक और बंदा ढूँढ़ना पड़ेगा.. बहुत ज़्यादा मदद मिली!!

धन्यवाद!!

hmmhmmhm 2026-05-29

diarization अच्छा तो लगा, लेकिन कुछ कमी वाले हिस्से भी हैं, इसलिए लगता है कि अगर सार्वजनिक रूप से उपलब्ध models में से और गहराई में जाना हो, तो नीचे वाली comment की तरह यह लगभग पूरी तरह research के क्षेत्र में चला जाता है।

somang04 2026-05-29

मैं बिना ज़्यादा समझे-समझे बस ट्राय करता हुआ आगे बढ़ रहा हूँ..haha लगता है, जब ठीक से पता नहीं होता तो बस कर ही डालते हैं.
जैसा नीचे वाले ने कहा, इसमें लोगों का हाथ लगाना पड़ेगा, इसलिए अभी slave 1 के लिए किसी को ढूंढ रहा हूँ.. haha

hmmhmmhm 2026-05-29

ओ.... आपका यह challenge लेना बहुत शानदार है... मुझे भी इससे synergy मिल रही है!! फ़ाइटिंग!!!

पहले मैंने Korean multi-speaker से जुड़ा सवाल पोस्ट किया था! उसके बाद की प्रगति का अपडेट!

संबंधित पढ़ाई

5 टिप्पणियां