- Chatterbox Resemble AI द्वारा जारी किया गया नवीनतम ओपन सोर्स TTS (speech synthesis) मॉडल है
- प्रतिस्पर्धी ElevenLabs के साथ तुलना-आधारित मूल्यांकन में इसने लगातार अधिक पसंद किए जाने वाले परिणाम दिखाए हैं
- emotion exaggeration control जैसी विशिष्ट सुविधाओं के साथ यह आवाज़ की विविध अभिव्यक्तियाँ संभव बनाता है
- इसे 0.5B parameter Llama backbone और 0.5M घंटे के refined data पर प्रशिक्षित किया गया है
- सभी generated audio में Perth watermarking अंतर्निहित है, जो अनधिकृत उपयोग और छेड़छाड़ की रोकथाम में मदद करती है
Chatterbox TTS का परिचय और महत्व
- Chatterbox Resemble AI द्वारा विकसित production-grade open source TTS (text-to-speech) मॉडल है
- MIT license के तहत यह स्वतंत्र रूप से उपयोग योग्य है, और closed-source commercial models (जैसे ElevenLabs) की तुलना में भी बेहतर गुणवत्ता साबित करने वाले परिणाम प्रकाशित किए गए हैं
- यह वीडियो, memes, games, AI agents आदि सहित कंटेंट निर्माण के व्यापक क्षेत्रों में उपयोगी है, और open source TTS में पहली बार emotion exaggeration control सुविधा प्रदान करता है
- इसे Hugging Face Gradio app या अपने API के माध्यम से डेमो और वास्तविक उपयोग के लिए इस्तेमाल किया जा सकता है, जबकि बड़े पैमाने या उच्च सटीकता की जरूरत पर commercial API (200ms से कम ultra-low latency) भी उपलब्ध है
मुख्य विशेषताएँ
- state-of-the-art zero-shot TTS: बिना अतिरिक्त डेटा के भी विभिन्न speaker styles व्यक्त कर सकता है
- 0.5B Llama backbone: large language model संरचना को speech synthesis में लागू करता है
- emotion exaggeration / intensity control: प्रत्येक speaker की व्यक्तित्व और भावनात्मक तीव्रता को बारीकी से नियंत्रित करने की सुविधा
- Alignment-informed inference: phoneme और audio alignment जानकारी को शामिल कर अत्यंत स्थिर generation quality प्रदान करता है
- 0.5M घंटे का refined data: बड़े पैमाने और उच्च गुणवत्ता वाले speech dataset पर प्रशिक्षण
- built-in watermarking: Resemble AI की Perth (Perceptual Threshold) watermarking के जरिए generated outputs की tracking और unauthorized use prevention
- voice conversion script: आसानी से उपयोग योग्य voice conversion सुविधा अंतर्निहित
- performance validation: ElevenLabs की तुलना में बेहतर मूल्यांकन परिणाम उपलब्ध
उपयोग सुझाव
- सामान्य TTS / voice agents: default settings (Exaggeration=0.5, cfg_weight=0.5) अधिकतर स्थितियों में संतुलित गुणवत्ता देती हैं
- यदि speaker style तेज़ है, तो cfg_weight को 0.3 के आसपास समायोजित करने पर अधिक प्राकृतिक गति मिल सकती है
- भावनात्मक / नाटकीय speech synthesis: Exaggeration को 0.7 या उससे अधिक बढ़ाकर और cfg_weight घटाने पर नाटकीय बोलने का प्रभाव बढ़ता है
- emotion intensity (exaggeration) जितनी अधिक होगी, speech rate उतनी तेज़ होगी; cfg_weight कम करने पर और धीमी व स्पष्ट speech के लिए समायोजन संभव है
समर्थित भाषाएँ
- वर्तमान में यह केवल अंग्रेज़ी को समर्थन देता है
संदर्भ / निर्भर ओपन सोर्स
- Cosyvoice, Real-Time-Voice-Cloning, HiFT-GAN, Llama 3, S3Tokenizer आदि विभिन्न आधुनिक speech और language model तकनीकों को इसमें शामिल किया गया है
Perth watermarking अंतर्निहित
- Perth (Perceptual Threshold) watermarking: सभी generated audio में audio quality घटाए बिना neural watermark डाला जाता है
- watermark MP3 compression, audio editing, processing के बाद भी बना रहता है
- लगभग 100% सटीकता के साथ स्वचालित detection संभव है, जिससे source tracking, tamper prevention और जिम्मेदार AI उपयोग को समर्थन मिलता है
Watermark extraction उदाहरण
- अलग script के माध्यम से watermark की मौजूदगी सत्यापित की जा सकती है
- Python package perth और librosa का उपयोग कर audio से watermark value (0 या 1) निकाली जा सकती है
समुदाय
- आधिकारिक Discord community संचालित हो रही है, जिसमें कोई भी जुड़कर सहयोग कर सकता है
अस्वीकरण
- इस मॉडल का दुरुपयोग निषिद्ध है, और prompts के लिए केवल इंटरनेट पर सार्वजनिक रूप से उपलब्ध डेटा का उपयोग किया गया है
1 टिप्पणियां
Hacker News की राय
इसे imperceptible neural watermarks के रूप में प्रचारित किया गया है, जो MP3 compression, audio editing और तरह-तरह के modifications के बाद भी बने रहते हैं, और जिनकी detection accuracy लगभग 100% बताई जाती है
लेकिन यह सवाल उठता है कि क्या
tts.pyमेंapply_watermarkfunction call को बस comment out करके watermark डालना आसानी से disable नहीं किया जा सकताऐसे watermark का मकसद तो आम तौर पर इसे मॉडल के भीतर ही छिपाना होता है ताकि इसे आसानी से हटाया न जा सके
open source model में watermark को अलग post-processing step के रूप में जोड़ा जा रहा है, तो फिर सवाल है कि watermark डालने की ज़रूरत ही क्या है
जैसे original Stable Diffusion में भी content filter था
और training data contamination रोकने का इरादा भी हो सकता है
--no-watermarkflag भी शामिल हैआख़िरकार लगता है कि इसे एक “feature” की तरह रखा गया है, उन users के लिए जो इसे किसी बड़े product में शामिल करना चाहेंगे
TTS बाज़ार के leaders पहले से साफ़ हैं, और Resemble, PlayHT जैसी कंपनियों को developers को weights और source code देना होगा, तभी वे कुछ market share ले पाएँगी
watermarking मीडिया की misuse आलोचना से बचाव के लिए CYA जैसा कदम है
अगर ऐसा न हो तो media और anti-AI camp (404Media आदि) misuse के मुद्दे उठाएँगे
source, weights public करना, और अलग API/fine-tuning options देना ही सही दिशा है
संदर्भ के लिए 404Media लेख
अगर demo audio बहुत ज़्यादा चुने हुए examples नहीं हैं, तो यह सचमुच एक बहुत अच्छा release लगता है
मैं हर बार यही कहता हूँ, लेकिन प्रयोगों में बार-बार महसूस हुआ है कि voice AI की असली सीमा अक्सर TTS quality नहीं बल्कि speech recognition (transcription) है
अगर हाल में कुछ बदला नहीं है, तो यह अब भी सीमा बनी हुई है
अभी तक मैंने LLM को transcription के कई versions या confidence level नहीं दिए हैं, लेकिन लगता है कि ऐसा करने पर वे उन्हें अच्छी तरह इस्तेमाल कर पाएँगे
यह भी मज़ेदार है कि वह वाक्य Pulp Fiction से लिया गया है
पुराने demos हमेशा इतने फीके और safe होते थे कि उनसे ऊब हो गई थी
indie TTS community में Navy Seals copypasta बहुत इस्तेमाल होता है, लेकिन Resemble जैसी service company का ऐसे वाक्य डालना नया लगा
Copypasta wiki, Navy Seal copypasta उदाहरण
मेरी Australian accent डालने पर आउटपुट बहुत British, और वह भी काफ़ी smooth RP pronunciation में निकला
आवाज़ बहुत natural लगती है, लेकिन यह साफ़ तौर पर मेरी accent को reproduce नहीं करती
कई practical use cases में clear और natural speech ज़्यादा अहम होती है, इसलिए वहाँ यह पूरी तरह उपयुक्त है
बेहतर “open” models में ये हैं
असल में सिर्फ Seed-VC के training/fine-tuning code उपलब्ध हैं, लेकिन zero-shot performance में ये सभी Chatterbox से बेहतर हैं
खासकर ByteDance का MegaTTS3, ElevenLabs को छोड़ दें तो लगभग किसी और कंपनी की पहुँच से बाहर है
ByteDance के पास पैसा, लोग और data सब कुछ बहुत ज़्यादा है
अगर आपका लक्ष्य fine-tuning के बिना zero-shot voice reproduction है, तो ये models बेहतर विकल्प हैं
deployable model का link भी जोड़ा गया है
बताया गया है कि streaming support पर अभी काम चल रहा है
लेकिन उम्मीद से ज़्यादा आम accents में भी दूसरी accents घुल जाती हैं, जैसे Scotland की recording से Australian accent जैसा असर
Yorkshire क्षेत्र की accent भी ठीक से नहीं पकड़ता
इसलिए default हालत में इसे काफ़ी high-end consumer hardware चाहिए
लेकिन आगे optimization की गुंजाइश काफ़ी लगती है
issue link
अगर model काफ़ी मूल्यवान निकला, तो शायद कोई इसे कम VRAM पर चलाने का तरीका ढूँढ लेगा
वास्तव में पुराने Nvidia 2060 पर चलाकर देखा गया, जहाँ VRAM peak लगभग 5GB थी
इसे मुफ्त में चलाया जा सकता है, लेकिन वास्तविक लागत self-hosting का मतलब ख़त्म कर सकती है
जानना था कि क्या महँगा GPU चाहिए, या यह 12 साल पुराने laptop पर भी चल जाएगा
झेली गई समस्याओं की सूची:
uvसे 3.12 virtual environment फिर से सेट करना पड़ाuv pipसिर्फ pytorch repository में खोज रहा थाpip install chatterbox-ttsversion में CPU only mode पर bug हैprotobuf-compilerचाहिएदूसरों के Python projects चलाते समय हर बार यही झंझट दोहरने से थकान होती है
SparkTTS कुछ ज़्यादा parameters देता है, और GitHub code में emotions को और बारीकी से नियंत्रित करने की संभावना भी दिखती है
मेरे मामले में prosody और tonality को text में ज़रूरत से ज़्यादा manipulate करके कुछ models में मनचाहे concept के क़रीब पहुँचना संभव हुआ
फिर भी Elevenlabs की intuitive emotion design की तुलना में यह काफ़ी झंझट भरा काम है
फिर भी इतने छोटे sample से यहाँ तक पहुँच जाना काफ़ी चौंकाने वाला है
और अगर one-shot sample wave में noise मिला हो, तो Chatterbox कभी-कभी अंत में कोई अजीब अनपहचानी आवाज़ भी bonus में दे देता है
खासकर Dante की Divine Comedy जैसी चीज़ पढ़ते समय तो जैसे “नरक की आवाज़” का अनुभव
(बस यह सवाल है कि Amazon इस बात का खुलासा करेगा या नहीं)
audiobook conversion tool audiblez
एक साल बाद अब यह निश्चित ही और बेहतर हुई होगी