24 पॉइंट द्वारा xguru 2025-02-14 | 2 टिप्पणियां | WhatsApp पर शेयर करें
  • 200,000 घंटे से अधिक के बहुभाषी speech data पर प्रशिक्षित Open Weight Text-To-Speech मॉडल
  • व्यावसायिक TTS सेवाओं के "बराबर या बेहतर voice quality" और "प्राकृतिक अभिव्यक्तिपूर्णता" प्रदान करता है
  • 44kHz sampling rate पर उच्च-गुणवत्ता audio output
  • voice cloning सपोर्ट: केवल कुछ सेकंड के reference audio से किसी खास वक्ता की शैली को सटीक रूप से दोहराया जा सकता है
  • विभिन्न control फीचर: बोलने की गति, pitch, voice quality और emotion (खुशी, डर, उदासी, गुस्सा आदि) को नियंत्रित किया जा सकता है

मुख्य विशेषताएँ

  • Zero-shot TTS और voice cloning
    • text और 10~30 सेकंड लंबे speaker sample को इनपुट देने पर तुरंत उच्च-गुणवत्ता speech synthesis संभव
  • audio prefix input सपोर्ट
    • text के साथ audio prefix जोड़ने पर अधिक सटीक speaker matching संभव
    • whispering voice जैसी विशेष vocal styles लागू करने में प्रभावी
  • बहुभाषी समर्थन
    • अंग्रेज़ी, जापानी, चीनी, फ़्रेंच, जर्मन का समर्थन
  • emotion और voice quality control
    • emotion control: खुशी, गुस्सा, उदासी, डर आदि को व्यक्त किया जा सकता है
    • विस्तृत voice control: speed, pitch, maximum frequency, audio quality को समायोजित किया जा सकता है
  • उच्च-गति प्रदर्शन
    • RTX 4090 पर real-time से लगभग 2 गुना गति से चल सकता है
  • Gradio WebUI समर्थन
    • आसान web interface के ज़रिए कोई भी आसानी से voice generate कर सकता है
  • सरल installation और deployment
    • Docker का उपयोग करके आसानी से installation और deployment किया जा सकता है

2 टिप्पणियां

 
mindok 2025-02-14

अफसोस है कि Korean नहीं है,,,,

 
marantz 2025-02-19

कोरियन भी काफ़ी अच्छी तरह काम करता है। हालांकि थोड़ा अटपटा लगता है।