3 पॉइंट द्वारा GN⁺ 2025-06-12 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Chatterbox Resemble AI द्वारा जारी किया गया नवीनतम ओपन सोर्स TTS (speech synthesis) मॉडल है
  • प्रतिस्पर्धी ElevenLabs के साथ तुलना-आधारित मूल्यांकन में इसने लगातार अधिक पसंद किए जाने वाले परिणाम दिखाए हैं
  • emotion exaggeration control जैसी विशिष्ट सुविधाओं के साथ यह आवाज़ की विविध अभिव्यक्तियाँ संभव बनाता है
  • इसे 0.5B parameter Llama backbone और 0.5M घंटे के refined data पर प्रशिक्षित किया गया है
  • सभी generated audio में Perth watermarking अंतर्निहित है, जो अनधिकृत उपयोग और छेड़छाड़ की रोकथाम में मदद करती है

Chatterbox TTS का परिचय और महत्व

  • Chatterbox Resemble AI द्वारा विकसित production-grade open source TTS (text-to-speech) मॉडल है
  • MIT license के तहत यह स्वतंत्र रूप से उपयोग योग्य है, और closed-source commercial models (जैसे ElevenLabs) की तुलना में भी बेहतर गुणवत्ता साबित करने वाले परिणाम प्रकाशित किए गए हैं
  • यह वीडियो, memes, games, AI agents आदि सहित कंटेंट निर्माण के व्यापक क्षेत्रों में उपयोगी है, और open source TTS में पहली बार emotion exaggeration control सुविधा प्रदान करता है
  • इसे Hugging Face Gradio app या अपने API के माध्यम से डेमो और वास्तविक उपयोग के लिए इस्तेमाल किया जा सकता है, जबकि बड़े पैमाने या उच्च सटीकता की जरूरत पर commercial API (200ms से कम ultra-low latency) भी उपलब्ध है

मुख्य विशेषताएँ

  • state-of-the-art zero-shot TTS: बिना अतिरिक्त डेटा के भी विभिन्न speaker styles व्यक्त कर सकता है
  • 0.5B Llama backbone: large language model संरचना को speech synthesis में लागू करता है
  • emotion exaggeration / intensity control: प्रत्येक speaker की व्यक्तित्व और भावनात्मक तीव्रता को बारीकी से नियंत्रित करने की सुविधा
  • Alignment-informed inference: phoneme और audio alignment जानकारी को शामिल कर अत्यंत स्थिर generation quality प्रदान करता है
  • 0.5M घंटे का refined data: बड़े पैमाने और उच्च गुणवत्ता वाले speech dataset पर प्रशिक्षण
  • built-in watermarking: Resemble AI की Perth (Perceptual Threshold) watermarking के जरिए generated outputs की tracking और unauthorized use prevention
  • voice conversion script: आसानी से उपयोग योग्य voice conversion सुविधा अंतर्निहित
  • performance validation: ElevenLabs की तुलना में बेहतर मूल्यांकन परिणाम उपलब्ध

उपयोग सुझाव

  • सामान्य TTS / voice agents: default settings (Exaggeration=0.5, cfg_weight=0.5) अधिकतर स्थितियों में संतुलित गुणवत्ता देती हैं
    • यदि speaker style तेज़ है, तो cfg_weight को 0.3 के आसपास समायोजित करने पर अधिक प्राकृतिक गति मिल सकती है
  • भावनात्मक / नाटकीय speech synthesis: Exaggeration को 0.7 या उससे अधिक बढ़ाकर और cfg_weight घटाने पर नाटकीय बोलने का प्रभाव बढ़ता है
    • emotion intensity (exaggeration) जितनी अधिक होगी, speech rate उतनी तेज़ होगी; cfg_weight कम करने पर और धीमी व स्पष्ट speech के लिए समायोजन संभव है

समर्थित भाषाएँ

  • वर्तमान में यह केवल अंग्रेज़ी को समर्थन देता है

संदर्भ / निर्भर ओपन सोर्स

  • Cosyvoice, Real-Time-Voice-Cloning, HiFT-GAN, Llama 3, S3Tokenizer आदि विभिन्न आधुनिक speech और language model तकनीकों को इसमें शामिल किया गया है

Perth watermarking अंतर्निहित

  • Perth (Perceptual Threshold) watermarking: सभी generated audio में audio quality घटाए बिना neural watermark डाला जाता है
  • watermark MP3 compression, audio editing, processing के बाद भी बना रहता है
  • लगभग 100% सटीकता के साथ स्वचालित detection संभव है, जिससे source tracking, tamper prevention और जिम्मेदार AI उपयोग को समर्थन मिलता है

Watermark extraction उदाहरण

  • अलग script के माध्यम से watermark की मौजूदगी सत्यापित की जा सकती है
  • Python package perth और librosa का उपयोग कर audio से watermark value (0 या 1) निकाली जा सकती है

समुदाय

  • आधिकारिक Discord community संचालित हो रही है, जिसमें कोई भी जुड़कर सहयोग कर सकता है

अस्वीकरण

  • इस मॉडल का दुरुपयोग निषिद्ध है, और prompts के लिए केवल इंटरनेट पर सार्वजनिक रूप से उपलब्ध डेटा का उपयोग किया गया है

1 टिप्पणियां

 
GN⁺ 2025-06-12
Hacker News की राय
  • यह नोटिस दिखता है कि Chatterbox से बनाई गई सभी ऑडियो फ़ाइलों में Resemble AI का Perth(Perceptual Threshold) watermark शामिल है
    इसे imperceptible neural watermarks के रूप में प्रचारित किया गया है, जो MP3 compression, audio editing और तरह-तरह के modifications के बाद भी बने रहते हैं, और जिनकी detection accuracy लगभग 100% बताई जाती है
    लेकिन यह सवाल उठता है कि क्या tts.py में apply_watermark function call को बस comment out करके watermark डालना आसानी से disable नहीं किया जा सकता
    ऐसे watermark का मकसद तो आम तौर पर इसे मॉडल के भीतर ही छिपाना होता है ताकि इसे आसानी से हटाया न जा सके
    open source model में watermark को अलग post-processing step के रूप में जोड़ा जा रहा है, तो फिर सवाल है कि watermark डालने की ज़रूरत ही क्या है
  • अंदाज़ा है कि यह एक तरह का CYA(Cover Your Ass, खुद को बचाने) gesture है
    जैसे original Stable Diffusion में भी content filter था
    और training data contamination रोकने का इरादा भी हो सकता है
  • parser में तो --no-watermark flag भी शामिल है
    आख़िरकार लगता है कि इसे एक “feature” की तरह रखा गया है, उन users के लिए जो इसे किसी बड़े product में शामिल करना चाहेंगे
  • OpenAI, Google, ElevenLabs के अलावा बाकी कंपनियाँ अगर आक्रामक रूप से open source नहीं करेंगी तो पूरी तरह अप्रासंगिक हो जाएँगी
    TTS बाज़ार के leaders पहले से साफ़ हैं, और Resemble, PlayHT जैसी कंपनियों को developers को weights और source code देना होगा, तभी वे कुछ market share ले पाएँगी
    watermarking मीडिया की misuse आलोचना से बचाव के लिए CYA जैसा कदम है
    अगर ऐसा न हो तो media और anti-AI camp (404Media आदि) misuse के मुद्दे उठाएँगे
    source, weights public करना, और अलग API/fine-tuning options देना ही सही दिशा है
    संदर्भ के लिए 404Media लेख
  • demo page यहाँ है
    अगर demo audio बहुत ज़्यादा चुने हुए examples नहीं हैं, तो यह सचमुच एक बहुत अच्छा release लगता है
    मैं हर बार यही कहता हूँ, लेकिन प्रयोगों में बार-बार महसूस हुआ है कि voice AI की असली सीमा अक्सर TTS quality नहीं बल्कि speech recognition (transcription) है
    अगर हाल में कुछ बदला नहीं है, तो यह अब भी सीमा बनी हुई है
  • हाल के अनुभव में LLM transcription errors को भी काफ़ी अच्छी तरह पढ़कर इस्तेमाल कर लेते हैं
    अभी तक मैंने LLM को transcription के कई versions या confidence level नहीं दिए हैं, लेकिन लगता है कि ऐसा करने पर वे उन्हें अच्छी तरह इस्तेमाल कर पाएँगे
  • वास्तव में Speechmatics इस्तेमाल किया, और transcription quality काफ़ी उपयोगी लगी
  • Huggingface demo पर सीधे इस्तेमाल करने पर emotions page demo जितने natural नहीं लगे, और examples कुछ चुने हुए से लगे
  • यह जिज्ञासा है कि क्या synthetic data से transcription की समस्या को पार किया जा सकता है
  • demo में सीधे गाली-गलौज होना मुझे वास्तव में अच्छा लगा
    यह भी मज़ेदार है कि वह वाक्य Pulp Fiction से लिया गया है
    पुराने demos हमेशा इतने फीके और safe होते थे कि उनसे ऊब हो गई थी
    indie TTS community में Navy Seals copypasta बहुत इस्तेमाल होता है, लेकिन Resemble जैसी service company का ऐसे वाक्य डालना नया लगा
    Copypasta wiki, Navy Seal copypasta उदाहरण
  • इसे यहाँ मुफ्त में चलाकर देखा जा सकता है
  • इसे मज़े से आज़माने का अनुभव रहा
    मेरी Australian accent डालने पर आउटपुट बहुत British, और वह भी काफ़ी smooth RP pronunciation में निकला
    आवाज़ बहुत natural लगती है, लेकिन यह साफ़ तौर पर मेरी accent को reproduce नहीं करती
    कई practical use cases में clear और natural speech ज़्यादा अहम होती है, इसलिए वहाँ यह पूरी तरह उपयुक्त है
  • अफ़सोस है कि training या fine-tuning code public नहीं है, इसलिए Flux या Stable Diffusion की तरह “पूरी तरह open” स्तर का नहीं है
    बेहतर “open” models में ये हैं
    • Zeroshot TTS: MaskGCT, MegaTTS3
    • Zeroshot VC: Seed-VC, MegaTTS3
      असल में सिर्फ Seed-VC के training/fine-tuning code उपलब्ध हैं, लेकिन zero-shot performance में ये सभी Chatterbox से बेहतर हैं
      खासकर ByteDance का MegaTTS3, ElevenLabs को छोड़ दें तो लगभग किसी और कंपनी की पहुँच से बाहर है
      ByteDance के पास पैसा, लोग और data सब कुछ बहुत ज़्यादा है
      अगर आपका लक्ष्य fine-tuning के बिना zero-shot voice reproduction है, तो ये models बेहतर विकल्प हैं
  • production environment में TTS API deployment implementation example भी open source के रूप में आया है
    deployable model का link भी जोड़ा गया है
  • sample inference code, voice cloning example भी दिया गया है
    बताया गया है कि streaming support पर अभी काम चल रहा है
  • मुझे लगता है कि बहुत सामान्य accents पर यह बेहद अच्छा काम करता है
    लेकिन उम्मीद से ज़्यादा आम accents में भी दूसरी accents घुल जाती हैं, जैसे Scotland की recording से Australian accent जैसा असर
    Yorkshire क्षेत्र की accent भी ठीक से नहीं पकड़ता
  • Scottish accent डालने पर मेरी Australian accent भी British RP में बदल गई
  • राय यह है कि यह मॉडल से ज़्यादा Scottish accent की विशेषता की समस्या है
  • यह किसी British accent coach जैसा लगता है
  • hardware specs को लेकर सवाल, क्या यह minimum specs पर चल सकता है
  • GitHub issue page के मुताबिक optimization अभी काफ़ी कमज़ोर है
    इसलिए default हालत में इसे काफ़ी high-end consumer hardware चाहिए
    लेकिन आगे optimization की गुंजाइश काफ़ी लगती है
    issue link
  • इस issue के अनुसार 6~7GB VRAM चाहिए
    अगर model काफ़ी मूल्यवान निकला, तो शायद कोई इसे कम VRAM पर चलाने का तरीका ढूँढ लेगा
    वास्तव में पुराने Nvidia 2060 पर चलाकर देखा गया, जहाँ VRAM peak लगभग 5GB थी
  • यह सवाल बिल्कुल मामूली नहीं, बल्कि सबसे अच्छे सवालों में से है
    इसे मुफ्त में चलाया जा सकता है, लेकिन वास्तविक लागत self-hosting का मतलब ख़त्म कर सकती है
  • मुझे भी यही जिज्ञासा थी, इसलिए मैंने भी खोजा
    जानना था कि क्या महँगा GPU चाहिए, या यह 12 साल पुराने laptop पर भी चल जाएगा
  • पुराने CPU पर चलाने का अनुभव साझा करना चाहता था, लेकिन 30 मिनट से ज़्यादा सिर्फ installation और errors में निकल गए
    झेली गई समस्याओं की सूची:
    • Python 3.13 unsupported, इसलिए uv से 3.12 virtual environment फिर से सेट करना पड़ा
    • numpy 1.26.4 पहचान में नहीं आया, uv pip सिर्फ pytorch repository में खोज रहा था
    • pip install chatterbox-tts version में CPU only mode पर bug है
    • default main version को Debian पर protobuf-compiler चाहिए
    • अनजान CMake error, Python dev headers न होने की शिकायत
      दूसरों के Python projects चलाते समय हर बार यही झंझट दोहरने से थकान होती है
  • emotions की बढ़ाचढ़ाकर अभिव्यक्ति दिलचस्प लगी, लेकिन Elevenlabs जैसी ऐसी सेवा अभी नहीं मिली जहाँ सिर्फ text description से चाही गई voice tone को “sculpt” किया जा सके
    SparkTTS कुछ ज़्यादा parameters देता है, और GitHub code में emotions को और बारीकी से नियंत्रित करने की संभावना भी दिखती है
    मेरे मामले में prosody और tonality को text में ज़रूरत से ज़्यादा manipulate करके कुछ models में मनचाहे concept के क़रीब पहुँचना संभव हुआ
    फिर भी Elevenlabs की intuitive emotion design की तुलना में यह काफ़ी झंझट भरा काम है
  • demo को अपनी आवाज़ के एक हिस्से से टेस्ट करने का अनुभव
    • output ने मेरी voice feel को कुछ हद तक पकड़ा, लेकिन बहुत ज़्यादा समान नहीं था
      फिर भी इतने छोटे sample से यहाँ तक पहुँच जाना काफ़ी चौंकाने वाला है
    • CFG/pace values थोड़ी भी बढ़ाने पर audio तुरंत समझ से बाहर होकर टूट जाती है
    • मेरी accent Australian है, लेकिन output कभी British तो कभी American निकलता है
    • emotions की अतिरंजित अभिव्यक्ति मज़ेदार थी, लेकिन कौन-सा emotion निकलेगा यह हर बार अलग था
  • जिज्ञासा है कि क्या ऐसा TTS model किताबों का narration भी भरोसेमंद ढंग से कर सकता है, या कुछ paragraphs के बाद voice consistency टूट जाती है
  • ज़्यादातर TTS systems लंबे text पर quality खो देते हैं, इसलिए व्यवहार में paragraph-wise narration करके बाद में जोड़ना बेहतर है
    और अगर one-shot sample wave में noise मिला हो, तो Chatterbox कभी-कभी अंत में कोई अजीब अनपहचानी आवाज़ भी bonus में दे देता है
    खासकर Dante की Divine Comedy जैसी चीज़ पढ़ते समय तो जैसे “नरक की आवाज़” का अनुभव
  • कभी न कभी quality इतनी अच्छी हो जाएगी कि Audible पर AI-narrated audiobooks की बाढ़ आ जाएगी
    (बस यह सवाल है कि Amazon इस बात का खुलासा करेगा या नहीं)
  • मैंने सीधे एक epub किताब को audiobook में बदलकर देखा, और इस tool से काफ़ी ठीक-ठाक नतीजा मिला
    audiobook conversion tool audiblez
  • मैं इस क्षेत्र की एक कंपनी को consult कर रहा हूँ, और पूरे भरोसे से कह सकता हूँ कि मौजूदा तकनीक से book narration में कोई समस्या नहीं है
  • एक साल पहले मैंने मज़ाक में एक दोस्त के लिए Carl Rogers therapy audiobook को Attenbrough style में synthesize करके सुनाया था, और तब भी quality काफ़ी शानदार थी
    एक साल बाद अब यह निश्चित ही और बेहतर हुई होगी