मैंने Open AI का Whisper भी इस्तेमाल किया है, और NCP का Clova भी, लेकिन कोरियाई में multi-speaker differentiation उम्मीद से कहीं ज्यादा मुश्किल लग रहा है.
क्या आपने ऐसे किसी local या cloud, commercial मॉडल का इस्तेमाल किया है जिसे आप recommend कर सकें?
अनुमानित process यह रहेगा
- content collection > audio separation (Music, Effect, Voice) > audio waveform analysis > audio में multiple speakers separation > multiple speakers के आधार पर STT > timecode information के आधार पर transcript तैयार करना — इस क्रम में करने की योजना है.
ऐसा लगता है कि result के आधार पर इसे dubbing/subtitle production तक भी expand किया जा सकता है.
मेरे evaluation criteria इस प्रकार हैं.
- audio separation के output की quality कैसी है?
- क्या audio के आधार पर एक ही व्यक्ति की आवाज़ को पहचानकर अलग किया जा सकता है?
कृपया अपने सुझाव और अनुभव साझा करें!
5 टिप्पणियां
मैंने हाल ही में यह-वह कई चीज़ें आज़माई हैं, और मेरे अनुभव में multi-speaker को अलग पहचानने का काम Cloava अच्छी तरह कर देता है.
अगर मध्यम स्तर की quality ठीक है, तो ऊपर सुझाया गया ReturnZero भी ठीक रहेगा.
STT की quality थोड़ी कम भी हो, तब भी अगर result को किसी अच्छे performance वाले LLM तक भेज दिया जाए, तो काफ़ी हद तक संतोषजनक नतीजे मिल जाते हैं.
मेरे मामले में speaker recognition इतना महत्वपूर्ण नहीं था, इसलिए मैंने Gemini चुना.
हर solution के अपने फायदे और नुकसान हैं, इसलिए आखिर में मैं यही सुझाऊँगा कि आप जिस data problem को हल करना चाहते हैं, उसके कुछ samples लेकर खुद चुनें.
https://developers.rtzr.ai/docs/stt-file/diarization/
सिर्फ multi-speaker diarization का अलग से इस्तेमाल नहीं किया जा सकता, लेकिन यह STT के साथ जोड़कर API के रूप में उपलब्ध है। (OpenAI या Clova भी इसी तरह हैं)
लगता है कि speaker diarization में Daglo अच्छा काम करता है।
ओह! क्या ऐसा है?! क्या यह एक platform है? मैं ऐसी form ढूंढ रहा हूँ जो local LLM या API-आधारित तरीके से काम करे!
हाँ, दुर्भाग्य से Daglo अभी local LLM उपलब्ध नहीं कराता है!
हालाँकि यह paid है, लेकिन लगता है कि API भी उपलब्ध कराता है। (https://developers.daglo.ai/guide/)