क्या कोरियाई में multi-speaker differentiation अच्छी तरह करने वाला कोई मॉडल है??

2 पॉइंट द्वारा somang04 2026-05-12 | 5 टिप्पणियां | WhatsApp पर शेयर करें

मैंने Open AI का Whisper भी इस्तेमाल किया है, और NCP का Clova भी, लेकिन कोरियाई में multi-speaker differentiation उम्मीद से कहीं ज्यादा मुश्किल लग रहा है.
क्या आपने ऐसे किसी local या cloud, commercial मॉडल का इस्तेमाल किया है जिसे आप recommend कर सकें?

अनुमानित process यह रहेगा

content collection > audio separation (Music, Effect, Voice) > audio waveform analysis > audio में multiple speakers separation > multiple speakers के आधार पर STT > timecode information के आधार पर transcript तैयार करना — इस क्रम में करने की योजना है.

ऐसा लगता है कि result के आधार पर इसे dubbing/subtitle production तक भी expand किया जा सकता है.

मेरे evaluation criteria इस प्रकार हैं.

audio separation के output की quality कैसी है?
क्या audio के आधार पर एक ही व्यक्ति की आवाज़ को पहचानकर अलग किया जा सकता है?

कृपया अपने सुझाव और अनुभव साझा करें!

5 टिप्पणियां

sungwoo 2026-05-19

मैंने हाल ही में यह-वह कई चीज़ें आज़माई हैं, और मेरे अनुभव में multi-speaker को अलग पहचानने का काम Cloava अच्छी तरह कर देता है.
अगर मध्यम स्तर की quality ठीक है, तो ऊपर सुझाया गया ReturnZero भी ठीक रहेगा.
STT की quality थोड़ी कम भी हो, तब भी अगर result को किसी अच्छे performance वाले LLM तक भेज दिया जाए, तो काफ़ी हद तक संतोषजनक नतीजे मिल जाते हैं.

मेरे मामले में speaker recognition इतना महत्वपूर्ण नहीं था, इसलिए मैंने Gemini चुना.
हर solution के अपने फायदे और नुकसान हैं, इसलिए आखिर में मैं यही सुझाऊँगा कि आप जिस data problem को हल करना चाहते हैं, उसके कुछ samples लेकर खुद चुनें.

arthurk 2026-05-18

https://developers.rtzr.ai/docs/stt-file/diarization/
सिर्फ multi-speaker diarization का अलग से इस्तेमाल नहीं किया जा सकता, लेकिन यह STT के साथ जोड़कर API के रूप में उपलब्ध है। (OpenAI या Clova भी इसी तरह हैं)

yunsub2 2026-05-12

लगता है कि speaker diarization में Daglo अच्छा काम करता है।

somang04 2026-05-12

ओह! क्या ऐसा है?! क्या यह एक platform है? मैं ऐसी form ढूंढ रहा हूँ जो local LLM या API-आधारित तरीके से काम करे!

yunsub2 2026-05-13

हाँ, दुर्भाग्य से Daglo अभी local LLM उपलब्ध नहीं कराता है!
हालाँकि यह paid है, लेकिन लगता है कि API भी उपलब्ध कराता है। (https://developers.daglo.ai/guide/)

क्या कोरियाई में multi-speaker differentiation अच्छी तरह करने वाला कोई मॉडल है??

संबंधित पढ़ाई

5 टिप्पणियां