Chatterbox TTS - ओपन-सोर्स टेक्स्ट-टू-स्पीच मॉडल

(github.com/resemble-ai)

3 पॉइंट द्वारा GN⁺ 2025-06-12 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Chatterbox Resemble AI द्वारा जारी नवीनतम ओपन-सोर्स टेक्स्ट-टू-स्पीच मॉडल परिवार है, जो voice cloning और multilingual speech generation को सपोर्ट करता है
नवीनतम Chatterbox Multilingual V3 0.5B मॉडल साइज बनाए रखते हुए speaker similarity में सुधार, hallucination में कमी, और अधिक नैचुरल conversational multilingual voice का लक्ष्य रखता है
Chatterbox-Turbo English low-latency voice agents के लिए 350M मॉडल है, जो speech-token-to-mel decoder generation को 10 steps से घटाकर 1 step करता है और [laugh], [cough] जैसे paralinguistic tag को सपोर्ट करता है
मॉडल कॉन्फ़िगरेशन Turbo, Multilingual V3, Single Language Pack, और मौजूदा Chatterbox में बंटा है; multilingual model Korean सहित 23 भाषाओं को सपोर्ट करता है और Single Language Pack 6 dedicated fine-tuning उपलब्ध कराता है
बताया गया है कि generate किए गए सभी audio में Resemble AI का PerTh watermark शामिल होता है, और MP3 compression, audio editing, व सामान्य manipulation के बाद भी लगभग 100% detection accuracy बनाए रखता है

Chatterbox TTS का ओवरव्यू

Chatterbox Resemble AI का open-source text-to-speech model family है
Demo samples, Hugging Face Space, Podonos evaluation, और Discord link साथ में उपलब्ध कराए गए हैं

नवीनतम रिलीज़: Chatterbox Multilingual V3

Chatterbox Multilingual V3 Chatterbox परिवार का नवीनतम general-purpose multilingual TTS model है
V3 मौजूदा 0.5B model size बनाए रखते हुए निम्न चीज़ों में सुधार करता है
- speaker similarity
- hallucination में कमी
- सभी भाषाओं में अधिक नैचुरल conversational speech
V2 की तरह व्यापक language coverage को लक्ष्य बनाते हुए, इसे अधिक stability और expressiveness वाली generation देने के लिए design किया गया है
यह उन users के लिए recommended multilingual model है जिन्हें कई भाषाओं में काम करने वाला एक voice cloning model चाहिए

Single Language Pack

Single Language Pack priority languages के लिए dedicated fine-tuning models का bundle है
इसे तब इस्तेमाल किया जाता है जब general-purpose multilingual model की तुलना में अधिक मजबूत language-specific behavior, ज्यादा strict quality control, और dialect-aware generation की जरूरत हो
उपलब्ध dedicated models 6 हैं
- Chinese / Demo
- Latam Spanish / Demo
- Brazilian Portuguese / Demo
- Spain Spanish / Demo
- Portugal Portuguese / Demo
- Hindi / Demo

Chatterbox-Turbo

Chatterbox-Turbo low-latency English voice agents के लिए सबसे efficient model है
यह 350M parameters की streamlined architecture इस्तेमाल करता है, और पिछले models की तुलना में कम compute और VRAM के साथ high-quality speech generate करने के लिए design किया गया है
bottleneck रहे speech-token-to-mel decoder को distill करके generation steps को 10 steps से घटाकर 1 step किया गया है
Turbo [cough], [laugh], [chuckle] जैसे paralinguistic tag को native support करता है, जिससे realistic expressions जोड़े जा सकते हैं
मुख्य use case low-latency voice agents है, लेकिन बताया गया है कि यह narration और creative workflows के लिए भी उपयुक्त है
commercial TTS service 200ms से कम ultra-low-latency performance देती है, और agents, applications, व interactive media के production use cases के लिए उपयुक्त बताई गई है

मॉडल कॉन्फ़िगरेशन

मॉडल	साइज	भाषा	मुख्य फीचर	उपयुक्त उपयोग
Chatterbox-Turbo	350M	English	paralinguistic tag, कम compute·VRAM	zero-shot voice agents, production
Chatterbox-Multilingual V3	500M	23+	बेहतर speaker similarity, कम hallucination, नैचुरल multilingual speech	global apps, localization, cross-language voice cloning
Single Language Pack	हर एक 500M	6 dedicated fine-tuning	language·region-specific quality control	priority languages और dialect-sensitive apps
Chatterbox	500M	English	CFG और exaggeration adjustment	creative control वाला general zero-shot TTS

इंस्टॉलेशन और रन करना

package को pip install chatterbox-tts से install किया जाता है

source installation भी supported है

git clone https://github.com/resemble-ai/chatterbox.git
cd chatterbox
pip install -e .

development·test environment Python 3.11 और Debian 11 है, और dependency versions pyproject.toml में pinned हैं
source installation mode में code या dependencies को modify किया जा सकता है

इस्तेमाल का तरीका

Chatterbox-Turbo में model को ChatterboxTurboTTS.from_pretrained(device="cuda") से load किया जाता है, और voice cloning के लिए reference clip path को audio_prompt_path के तौर पर pass किया जाता है
Turbo example [chuckle] जैसे paralinguistic tag वाली sentence generate करता है
general English model के लिए ChatterboxTTS, और multilingual model के लिए ChatterboxMultilingualTTS इस्तेमाल होता है
Multilingual V3 को ChatterboxMultilingualTTS.from_pretrained(device=device, t3_model="v3") से load किया जाता है
- legacy V2 checkpoint इस्तेमाल करने के लिए t3_model छोड़ दें या "v2" pass करें
किसी दूसरी voice में synthesize करने के लिए audio_prompt_path में reference audio file specify करें
अतिरिक्त examples example_tts.py और example_vc.py में हैं

समर्थित भाषाएं

general-purpose Chatterbox Multilingual model निम्न 23 भाषाओं को सपोर्ट करता है
- Arabic ar
- Danish da
- German de
- Greek el
- English en
- Spanish es
- Finnish fi
- French fr
- Hebrew he
- Hindi hi
- Italian it
- Japanese ja
- Korean ko
- Malay ms
- Dutch nl
- Norwegian no
- Polish pl
- Portuguese pt
- Russian ru
- Swedish sv
- Swahili sw
- Turkish tr
- Chinese zh

मौजूदा Chatterbox adjustment tips

reference clip specified language tag से match होना चाहिए
- ऐसा न होने पर language transfer output reference clip की भाषा का accent inherit कर सकता है
- इसे कम करने के लिए cfg_weight को 0 पर set करें
defaults exaggeration=0.5, cfg_weight=0.5 हैं और ज्यादातर prompts व languages में अच्छी तरह काम करते हैं
अगर reference speaker की speaking speed तेज है, तो cfg_weight को लगभग 0.3 तक कम करने से speed control में मदद मिल सकती है
expressive या dramatic voice के लिए कम cfg_weight और 0.7 या उससे ऊपर exaggeration try करें
- ज्यादा exaggeration बोलने की speed को तेज करने की tendency रखता है
- cfg_weight घटाने से उसे धीमी और सावधान pace में correct करने में मदद मिलती है

built-in PerTh watermarking

Chatterbox से generate होने वाली सभी audio files में Resemble AI का Perth watermark शामिल होता है
यह watermark Perceptual Threshold आधारित undetectable neural watermark है
बताया गया है कि यह MP3 compression, audio editing, और सामान्य manipulation के बाद भी बना रहता है और लगभग 100% detection accuracy बनाए रखता है
watermark extraction perth.PerthImplicitWatermarker() और get_watermark() से की जाती है
- result watermark नहीं है 0.0 या watermark है 1.0 के रूप में output होता है

मूल्यांकन

Chatterbox Turbo का evaluation reproducible subjective speech evaluation platform Podonos से किया गया
तुलना competing TTS systems से की गई, और evaluation focus overall preference, naturalness, और expressiveness पर है
public evaluation reports उपलब्ध हैं
सभी evaluations समान conditions में किए गए और Podonos के जरिए publicly accessible हैं

लाइसेंस के अलावा नोटिस

README में साफ लिखा है, “इस model को बुरे कामों के लिए इस्तेमाल न करें”
बताया गया है कि prompts internet पर freely accessible data से लिए गए हैं

1 टिप्पणियां

GN⁺ 2025-06-12

Hacker News की राय

डेमो यहाँ देखा जा सकता है: https://resemble-ai.github.io/chatterbox_demopage/
अगर ये बहुत ज़्यादा चुने हुए samples नहीं हैं, तो यह काफ़ी अच्छा release है। मैं हर बार यही बात कहता हूँ, लेकिन खुद प्रयोग करके देखने पर voice AI में bottleneck speech synthesis नहीं, बल्कि transcription quality लगा। हाल में यह बदला है या नहीं, पता नहीं
- लगता है एक 40 सेकंड की सीमा है, जिसके बारे में कोई बात नहीं कर रहा। audio 40 सेकंड से ज़्यादा हो तो कट जाता है
- हाल के अनुभव के हिसाब से LLM, transcription errors मिले होने पर भी उन्हें काफ़ी अच्छे से पढ़ लेता है
  अभी तक LLM को वैकल्पिक transcripts या confidence scores साथ में देकर प्रयोग नहीं किया है, लेकिन लगता है वह उनका भी अच्छा इस्तेमाल कर पाएगा
- अच्छा होगा अगर frontend integration हो जो text में मिले homographs की सूची user को दिखाए और हर एक पर confirmation ले
  common phrases की सूची से तुलना करने वाला feature भी चाहिए। LLM का “live feed” या “live here” गलत pronounce करना justify करना मुश्किल है
- सही बात है। मैंने Speechmatics इस्तेमाल किया है और यह transcription काफ़ी ठीक करता है
- अगर English-only और non-commercial use है, तो Parakeet लगभग बेदाग़ अच्छा था
  https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2
  मैं इसे realtime chat और subtitles generate करने में इस्तेमाल कर रहा हूँ, और 3090 पर यह एक TV show को 1 मिनट से कम में process कर देता है। मेरे मामले में Whisper में hallucinations बहुत ज़्यादा थीं, और उसे classifier की तरह इस्तेमाल करना ज़्यादा उपयोगी लगा
यहाँ free में run करके देख सकते हैं: https://huggingface.co/spaces/ResembleAI/Chatterbox
- अफ़सोस कि इन्होंने training या fine-tuning code open नहीं किया है, इसलिए यह Flux या Stable Diffusion को “open” कहने के अर्थ जैसा नहीं है
  अगर बेहतर “open” models चाहिए, तो random voice cloning के हिसाब से MaskGCT, MegaTTS3, और voice conversion के हिसाब से Seed-VC, MegaTTS3 बेहतर सुनाई देते हैं। हालांकि training/fine-tuning code सिर्फ Seed-VC में है। अगर वैसे भी ऐसा model इस्तेमाल करना है जिसे fine-tune नहीं कर सकते और अपनी आवाज़ से बेहतर match करने वाली random cloning चाहिए, तो Chatterbox के बजाय इन्हें इस्तेमाल करना बेहतर है। खासकर ByteDance का MegaTTS3 बहुत strong है। ByteDance के researchers ElevenLabs को छोड़कर ज़्यादातर TTS research teams से बहुत आगे हैं, और उनके पास funding, PhD-level researchers और training data भी कहीं ज़्यादा है
- इसके साथ खेलना मज़ेदार है
  हालांकि इसने मेरे Australian accent को बहुत British बना दिया, वह भी posh RP accent जैसा। सुनने में बहुत natural लगता है, लेकिन मेरे accent को reproduce नहीं करता। फिर भी अगर किसी को सचमुच mimic करना उद्देश्य नहीं है, तो ज़्यादातर TTS use cases के लिए यह हैरान करने वाली clarity और suitability देता है
- Hugging Face tool के default reference audio file के रूप में professional voice actor Jennifer English का sample इस्तेमाल करना बहुत ही साफ़-साफ़ दिखता है
- privacy के नज़रिए से यह कैसे काम करता है, जानने की उत्सुकता है। क्या recording samples को training में इस्तेमाल किया जा सकता है?
Chatterbox शानदार है
मैंने installation और आसान बनाने वाला API wrapper बनाया है और Docker भी support करता है: https://github.com/travisvn/chatterbox-tts-api/
मेरे अनुभव में local में इस्तेमाल किए जा सकने वाले voice cloning options में यह साफ़ तौर पर सबसे अच्छा है
- मैंने wrapper इस्तेमाल किया है, और Chatterbox TTS व API wrapper दोनों सच में impressive लगे
  नीचे वाला सवाल basic level का है, इसके लिए माफ़ी। मैं inline input object के बजाय local text file specify करने वाला simple CLI command ढूँढ रहा था, लेकिन नहीं मिला। कोई hint हो तो आभारी रहूँगा
- RTX 50 series पर चलाने की करीब एक घंटे कोशिश की, लेकिन fail रहा, और PyTorch 2.7 से भी नहीं चला
  लगता है यह 2.6 के हिसाब से बनाया गया है।
  "chatterbox-tts 0.1.2 requires torch==2.6.0, but you have torch 2.7.0+cu128 which is incompatible. chatterbox-tts 0.1.2 requires torchaudio==2.6.0, but you have torchaudio 2.7.0+cu128 which is incompatible."
- क्या इसे GPU न होने वाले PC पर भी इस्तेमाल किया जा सकता है?
कहा गया है कि Chatterbox द्वारा जेनरेट की गई सभी ऑडियो फ़ाइलों में Resemble AI का Perth watermark होता है
कहा जाता है कि यह एक ऐसा अगोचर neural network watermark है जो MP3 compression, audio editing और आम छेड़छाड़ के बाद भी बचा रहता है और लगभग 100% detection accuracy बनाए रखता है, लेकिन अगर मैं गलत नहीं समझ रहा, तो tts.py में apply_watermark call को comment out करने भर से watermark आसानी से बंद नहीं किया जा सकता? https://github.com/resemble-ai/chatterbox/blob/master/src/ch...
मुझे लगता था कि ऐसे watermark की मुख्य बात यह होनी चाहिए कि वह किसी तरह model weights के अंदर embedded हो, ताकि उसे आसानी से अलग न किया जा सके। अगर open source model जारी करते हुए watermark को अलग post-processing step के रूप में जोड़ना है, तो समझ नहीं आता कि शुरू से watermark डालने का मतलब ही क्या है
- यह एक तरह का liability-avoidance gesture हो सकता है। पुराने Stable Diffusion में content filter होने जैसा
  या training data के नज़रिए से गलती से अजीब data मिल जाने से रोकने के उद्देश्य से भी हो सकता है
- parser में इसे पूरी तरह बंद करने वाला flag --no-watermark भी है। मुझे लगा था कि इसे किसी बड़े product में इस्तेमाल करने वाले downstream users को “feature” के रूप में देने के लिए डाला गया होगा
- OpenAI, Google, ElevenLabs नहीं होने वाली कंपनियां अगर aggressively open source नहीं करेंगी तो पूरी तरह अप्रासंगिक हो जाएंगी
  TTS market के leaders साफ़ हैं और गहराई से जमे हुए हैं, इसलिए Resemble, Play(HT) जैसी जगहों को weights उपलब्ध कराते हुए developers के हिसाब से बहुत मजबूती से align करना होगा [1]. Watermarking उसके लिए liability-avoidance mechanism है। Watermark न हो तो 404Media जैसे anti-AI media को केंद्र बनाकर misuse को लेकर बड़ी चिंता उठेगी [2].
  [1] यही सही तरीका है। source code और weights दें, और अपना API तथा fine-tuning भी दें ताकि developers को झंझट न हो। तभी कुछ market share वापस हासिल किया जा सकता है।
  [2] https://www.404media.co/wikipedia-pauses-ai-generated-summar...
यह बेवकूफी भरा सवाल हो सकता है, लेकिन चलाने लायक minimum-spec hardware लगभग क्या होगा?
- मैं बताना चाहता था कि यह पुराने CPU पर कैसे चलता है, लेकिन करीब 30 मिनट जूझने के बाद भी इसे run तक नहीं कर पाया
  शायद मदद मिले इसलिए problems लिख देता हूं: Python 3.13 पर नहीं चलता, और uv से 3.12 virtual environment बनाने पर हल हो जाता है। numpy 1.26.4 नहीं होने की बात आती है, जबकि असल में है, और uv pip सिर्फ PyTorch repository में ही ढूंढ रहा था। --index-strategy flag देकर इसे दूसरे repositories भी check कराने पड़े। pip install chatterbox-tts version में CPU-only mode में bug था, इसलिए Git repository clone करनी पड़ी, और main के latest version को Debian पर protobuf-compiler चाहिए था। अंत में एक CMake error आया जिसे समझना मुश्किल था, लेकिन लगता था कि वह Python development headers नहीं होने की शिकायत कर रहा है। मैं inference करने की कोशिश कर रहा हूं, Python compile करने की नहीं, फिर इसकी ज़रूरत क्यों है समझ नहीं आता।
  मुझे पता है कि गुस्सा करना productive नहीं है, लेकिन किसी और का Python project run करते समय लगभग हर बार ऐसा ही अनुभव होता है। एक problem आती है तो पीछे हटो, फिर दूसरी problem आती है तो पीछे हटो, और एक घंटा बीत जाने पर भी अभी तक run नहीं होता
- इस GitHub issue के अनुसार VRAM 6–7GB चाहिए: https://github.com/resemble-ai/chatterbox/issues/44
  अगर model ठीक है, तो संभावना है कि कोई कम resources में चलाने का optimized तरीका ढूंढ लेगा।
  Edit: पुराने Nvidia 2060 पर चलाकर देखा, और peak VRAM usage लगभग 5GB दिखता है
- issues page देखने पर लगता है कि फिलहाल optimization अच्छी नहीं है[1]
  default state में इसे ठीक-ठाक speed पर चलाने के लिए काफ़ी मजबूत consumer hardware चाहिए लगता है। हालांकि सुधार की काफी गुंजाइश दिखती है, और मैं expert नहीं हूं।
  [1]: https://github.com/resemble-ai/chatterbox/issues/127
- यह बेवकूफी भरा सवाल नहीं, सबसे अच्छा सवाल है
  अगर free में चला सकने के बावजूद rent करके इस्तेमाल करना सस्ता पड़े, तो खुद चलाने का मतलब खत्म हो जाता है
- मैं भी यही पूछने आया था। जानना चाहता हूं कि क्या चार अंकों की कीमत वाला GPU चाहिए, या यह 12 साल पुराने ThinkPad पर भी चलेगा, या फिर बीच में कहीं है
emotion exaggeration feature दिलचस्प है, लेकिन सिर्फ इच्छित voice description से voice बना सकने वाले ElevenLabs जितना versatile और आसानी से “shape” किया जा सकने वाला कुछ अभी तक नहीं देखा
SparkTTS कुछ अतिरिक्त parameters देता है, और GitHub project code के placeholders देखने पर लगता है कि ज्यादा fine-grained emotion control के लिए model बेहतर हो सकता है। अभी भी text में rhythm और tone को strongly guide करने वाले cues डालकर, और result को फिर से voice conversion में डालकर desired result के करीब पहुंचने में मुझे कुछ हद तक सफलता मिली है। लेकिन यह ElevenLabs की तुलना में कहीं ज्यादा झंझट वाला process है
बहुत common accent में यह शानदार था, लेकिन उसके अलावा वाले accents भी काफी common हैं, और फिर भी यह आसानी से किसी दूसरे accent पर lock हो सकता है
उदाहरण के लिए कुछ Scottish recordings Australian accent में निकलीं, और काफी हल्के Yorkshire accent के साथ भी ऐसा ही हुआ
- यह model से ज्यादा Scottish accent के बारे में ज्यादा बताता लगता है
- मज़ेदार बात यह है कि मेरे Australian accent को इसने बहुत British RP जैसा बना दिया। अचानक मैं बहुत refined लगने लगा
- मेरा accent British RP है, और मैंने बारी-बारी से Yorkshire accent और Scottish accent दिए
- Professional actor लगते हो
क्या ये चीज़ें अब इतनी अच्छी हो गई हैं कि किसी किताब को भरोसेमंद ढंग से सुना सकें? या कुछ पैराग्राफ बोलने के बाद आवाज़ की consistency टूट जाती है?
- ऐसे ज़्यादातर TTS systems में टेक्स्ट लंबा होने पर टूटने की प्रवृत्ति होती है
  लंबे लेख को पैराग्राफ-लेवल batches में बाँटकर generate करना और फिर अंत में उन्हें दोबारा जोड़ना बेहतर है। साथ ही, अगर one-shot sample WAV बहुत साफ़ न हो, तो Chatterbox generated audio के अंत में random अश्लील-सी सरसराहट/झटकेदार आवाज़ भी निकाल देता था। अगर आप Dante की Inferno रिकॉर्ड कर रहे हों तो यह bonus हो सकता है
- संभव है। इस tool से epub की audiobook बनाई है और नतीजा ठीक-ठाक usable था: https://github.com/santinic/audiblez
- जैसे ही ये पर्याप्त अच्छे हो जाएंगे, Audible AI-read books से भर जाएगा, इसलिए हमें जल्द ही पता चल जाएगा। बेशक, एकमात्र सवाल यह है कि Amazon इसे public करेगा या नहीं
- मैं इस क्षेत्र की एक company को सलाह दे रहा हूँ, Resemble नहीं, लेकिन निश्चित तौर पर कह सकता हूँ। किताब narrate करना संभव है
- 1 साल पहले मज़े के लिए एक दोस्त के लिए Carl Rogers therapy audiobook बनाई थी, Attenborough-style narration में, और तब भी काफ़ी अच्छी थी। अब तो और बेहतर हो गई होगी
दोस्तों और परिवार को समय-समय पर याद दिलाना चाहिए कि phone calls पर और शक करें
यह संभावना बढ़ती जा रही है कि वह दोस्त जिसे तुरंत Walmart gift card चाहिए, असली दोस्त न हो
- हमारा परिवार Argentine accent वाली Spanish बोलता है। अब तक इस क्षेत्र को देखकर तो मैं सुरक्षित लगता हूँ
- किसी दिन शायद सरकार को Walmart जैसी जगहों पर दबाव डालकर gift card sales पूरी तरह बंद करवानी पड़ेगी
  impersonation इतना आसान और सस्ता होता जा रहा है कि निकट भविष्य में ऐसी scam calls की बाढ़ न आए, ऐसा हो ही नहीं सकता
- UK में AI-based advanced TTS calls काफ़ी अक्सर आती हैं। आज भी एक मिली
  बीच में “क्या तुम x पर एक कविता बना सकते हो?” कहकर टोक दें तो reliably filter हो जाती हैं। हालांकि response delay बहुत साफ़ दिख जाता है
- phone scams रोकने का सबसे आसान तरीका है कि परिवार और उन करीबी दोस्तों के साथ पहले से एक spoken password तय कर लें, जिन्हें आप पैसे उधार देने जितने करीब मानते हैं
  असली स्थिति में सामने वाले को वह password पता होगा, इसलिए authenticate किया जा सकता है। AI voice और video तक संभव नए दौर में यह बात बार-बार याद दिलानी होगी कि यह password impersonation रोकता है
मौजूदा open source multilingual TTS का state of the art अभी किस स्तर पर है? Kokoro English में शानदार था, लेकिन French, Japanese और German के लिए अभी भी अच्छे समाधान की तलाश है
- मैं भी ढूँढ रहा हूँ। OpenVoice2 कुछ languages support करता है, याद है करीब 5, लेकिन अभी तक कोई usable चीज़ नहीं देखी

Chatterbox TTS - ओपन-सोर्स टेक्स्ट-टू-स्पीच मॉडल

Chatterbox TTS का ओवरव्यू

नवीनतम रिलीज़: Chatterbox Multilingual V3

Single Language Pack

Chatterbox-Turbo

मॉडल कॉन्फ़िगरेशन

इंस्टॉलेशन और रन करना

इस्तेमाल का तरीका

समर्थित भाषाएं

मौजूदा Chatterbox adjustment tips

built-in PerTh watermarking

मूल्यांकन

लाइसेंस के अलावा नोटिस

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय