2 पॉइंट द्वारा somang04 12 일 전 | 5 टिप्पणियां | WhatsApp पर शेयर करें

मैंने Open AI का Whisper भी इस्तेमाल किया है, और NCP का Clova भी, लेकिन कोरियाई में multi-speaker differentiation उम्मीद से कहीं ज्यादा मुश्किल लग रहा है.
क्या आपने ऐसे किसी local या cloud, commercial मॉडल का इस्तेमाल किया है जिसे आप recommend कर सकें?

अनुमानित process यह रहेगा

  1. content collection > audio separation (Music, Effect, Voice) > audio waveform analysis > audio में multiple speakers separation > multiple speakers के आधार पर STT > timecode information के आधार पर transcript तैयार करना — इस क्रम में करने की योजना है.

ऐसा लगता है कि result के आधार पर इसे dubbing/subtitle production तक भी expand किया जा सकता है.

मेरे evaluation criteria इस प्रकार हैं.

  • audio separation के output की quality कैसी है?
  • क्या audio के आधार पर एक ही व्यक्ति की आवाज़ को पहचानकर अलग किया जा सकता है?

कृपया अपने सुझाव और अनुभव साझा करें!

5 टिप्पणियां

 
sungwoo 5 일 전

मैंने हाल ही में यह-वह कई चीज़ें आज़माई हैं, और मेरे अनुभव में multi-speaker को अलग पहचानने का काम Cloava अच्छी तरह कर देता है.
अगर मध्यम स्तर की quality ठीक है, तो ऊपर सुझाया गया ReturnZero भी ठीक रहेगा.
STT की quality थोड़ी कम भी हो, तब भी अगर result को किसी अच्छे performance वाले LLM तक भेज दिया जाए, तो काफ़ी हद तक संतोषजनक नतीजे मिल जाते हैं.

मेरे मामले में speaker recognition इतना महत्वपूर्ण नहीं था, इसलिए मैंने Gemini चुना.
हर solution के अपने फायदे और नुकसान हैं, इसलिए आखिर में मैं यही सुझाऊँगा कि आप जिस data problem को हल करना चाहते हैं, उसके कुछ samples लेकर खुद चुनें.

 
arthurk 6 일 전

https://developers.rtzr.ai/docs/stt-file/diarization/
सिर्फ multi-speaker diarization का अलग से इस्तेमाल नहीं किया जा सकता, लेकिन यह STT के साथ जोड़कर API के रूप में उपलब्ध है। (OpenAI या Clova भी इसी तरह हैं)

 
yunsub2 12 일 전

लगता है कि speaker diarization में Daglo अच्छा काम करता है।

 
somang04 12 일 전

ओह! क्या ऐसा है?! क्या यह एक platform है? मैं ऐसी form ढूंढ रहा हूँ जो local LLM या API-आधारित तरीके से काम करे!

 
yunsub2 11 일 전

हाँ, दुर्भाग्य से Daglo अभी local LLM उपलब्ध नहीं कराता है!
हालाँकि यह paid है, लेकिन लगता है कि API भी उपलब्ध कराता है। (https://developers.daglo.ai/guide/)