बातचीत वाली आवाज़ की uncanny valley से आगे निकलना
(sesame.com)- लंबे समय तक इस्तेमाल होने वाले digital voice assistants के लिए साफ़ synthetic आवाज़ से ज़्यादा voice presence—यानी भावना, rhythm और context को दर्शाने वाली आवाज़ी मौजूदगी—महत्वपूर्ण है, और Sesame इसके लिए Conversational Speech Model प्रस्तावित करता है
- CSM एक end-to-end multimodal transformer है जो text और speech को साथ में प्रोसेस करता है, और बातचीत के इतिहास का उपयोग करके ज़्यादा natural और consistent utterances generate करने के लिए design किया गया है
- मॉडल RVQ tokens को सीधे handle करता है, लेकिन latency और expressiveness के balance के लिए इसे 0th codebook संभालने वाले backbone और बाकी codebooks recover करने वाले छोटे audio decoder में बांटा गया है
- लगभग 10 लाख घंटे के मुख्यतः English public audio data पर Tiny, Small, Medium नाम के 3 sizes को train किया गया, और WER व speaker similarity के अलावा homograph pronunciation और pronunciation consistency evaluations जोड़े गए
- context न होने पर CSM-Medium और real speech के बीच preference में स्पष्ट अंतर नहीं था, लेकिन conversation context दिए जाने पर real recordings को ज़्यादा उपयुक्त continuation के रूप में preference मिली, जिससे पता चलता है कि conversational prosody gap अभी बाकी है
voice presence और लक्ष्य
- Sesame का लक्ष्य voice presence लागू करना है, जिससे speech सच में समझी गई और मूल्यवान महसूस हो
- मौजूदा digital voice assistants अक्सर neutral speaking style तक सीमित रहते हैं, इसलिए शुरुआती novelty खत्म होने के बाद उनका everyday use में टिकना मुश्किल होता है
- ज़रूरी components को चार हिस्सों में समझाया गया है
- emotional intelligence: emotional context को पढ़ना और respond करना
- conversation dynamics: natural timing, pauses, interruptions और emphasis को handle करना
- context awareness: situation के मुताबिक tone और style adjust करना
- consistent personality: भरोसेमंद और उपयुक्त presence बनाए रखना
- मौजूदा demo companion को friendliness और expressiveness पर ज़ोर देने के लिए optimize किया गया है, जबकि personality, memory, expressiveness और appropriateness में अभी सुधार जारी है
Conversational Speech Model की problem setting
- पारंपरिक TTS text से सीधे speech generate करता है, लेकिन natural conversation के लिए ज़रूरी context awareness की कमी होती है
- हाल के मॉडल इंसान जैसी voice बना सकते हैं, फिर भी एक sentence बोलने के कई तरीके हो सकते हैं और किसी खास situation के लिए उनमें से कुछ ही तरीके suitable होते हैं
- tone, rhythm और conversation history जैसे additional context के बिना model के लिए सबसे appropriate speaking style चुनना मुश्किल होता है
- CSM इस समस्या को end-to-end multimodal learning से address करता है, ताकि transformer conversation history का उपयोग करके ज़्यादा natural और consistent speech generate करे
- इसकी दो key features हैं
- single-stage model की तरह operate करके efficiency और expressiveness बढ़ाता है
- public evaluations के saturated हो जाने की स्थिति में, context capabilities में progress मापने के लिए अलग evaluation set इस्तेमाल करता है
audio tokens और RVQ design
- transformer से audio model करने के लिए continuous waveform को discrete audio token sequence में बदला जाता है
- modern approaches आम तौर पर दो तरह के tokens इस्तेमाल करते हैं
- semantic tokens: meaning और phoneme features को compress करके रखते हैं, लेकिन high-fidelity representation की कुर्बानी देते हैं
- acoustic tokens: detailed acoustic information रखते हैं, high-fidelity reconstruction संभव बनाते हैं, और speaker identity व timbre जैसी characteristics बनाए रखते हैं
- आम तरीका पहले semantic tokens को model करना और फिर RVQ या diffusion-based methods से audio generate करना है
- यह 2-stage approach structured synthesis संभव बनाती है, लेकिन semantic tokens को prosody भी पर्याप्त रूप से capture करनी पड़ती है, जिससे bottleneck बनता है
- RVQ-based approach में एक frame के भीतर codebooks के बीच sequential dependencies handle करनी पड़ती हैं
- delay pattern ऊंचे codebooks को धीरे-धीरे shift करके उसी frame के lower codebooks पर condition करता है
- अगर RVQ tokenizer में N codebooks हैं, तो पहला audio chunk decode करने से पहले N backbone steps चाहिए, जिससे time-to-first-audio खराब होता है
- यह audiobooks जैसे offline use cases के लिए ठीक है, लेकिन real-time scenarios में latency समस्या बन जाती है
CSM architecture और inference method
- CSM एक multimodal text-speech model है जो RVQ tokens को सीधे handle करता है
- इसका structure दो autoregressive transformers में बंटा है
- पहला multimodal backbone text और audio को interleaved input के रूप में लेकर 0th codebook model करता है
- दूसरा audio decoder हर codebook के लिए अलग linear head इस्तेमाल करके बाकी N−1 codebooks model करता है और speech reconstruct करता है
- decoder backbone से काफी छोटा है, जिससे low-latency generation संभव होता है और model end-to-end बना रहता है
- inference का flow इस प्रकार है
- text tokens और audio tokens को sequentially backbone में input किया जाता है
- backbone 0th codebook level predict करता है
- decoder 0th level पर conditioned होकर 1 से N−1 तक के levels sample करता है
- reconstructed audio tokens अगले step के लिए फिर autoregressively backbone में input किए जाते हैं
- audio EOT symbol आने पर generation खत्म होता है, और अगले request में user utterance जैसा intermediate audio, audio और text transcription tokens के रूप में represent होता है
- दोनों transformers Llama architecture variants हैं, और text tokens Llama tokenizer से generate होते हैं
- audio को split-RVQ tokenizer Mimi से process किया जाता है, जो 12.5Hz पर हर frame के लिए 1 semantic codebook और N−1 acoustic codebooks generate करता है
- training samples text और audio के alternating interleaved pattern में होते हैं, और speaker identity सीधे text representation में encode होती है
training efficiency और data
- training के दौरान audio decoder B×S के effective batch size और N codebooks को autoregressively process करता है, जिससे बड़ा memory burden बनता है
- यह burden छोटे models में भी training को धीमा करता है, और model scaling व fast experimentation को मुश्किल बनाता है
- Sesame पूरे RVQ codebook की fidelity बनाए रखते हुए bottleneck कम करने के लिए compute amortization इस्तेमाल करता है
- audio decoder को audio frames के random 1/16 subset पर ही train किया जाता है
- 0th codebook को सभी frames पर train किया जाता है
- इस तरीके में training के दौरान audio decoder loss में perceptible difference नहीं दिखा
- dataset public audio को transcribe, speaker-separate और segment करने के बाद filter करके बनाया गया
- filtering के बाद data लगभग 10 लाख घंटे है और ज्यादातर English audio है
- train किए गए model sizes तीन हैं
- Tiny: 1B backbone, 100M decoder
- Small: 3B backbone, 250M decoder
- Medium: 8B backbone, 300M decoder
- हर model को 2048 sequence length और लगभग 2 मिनट audio के आधार पर 5 epochs train किया गया
samples और evaluation framework
- samples में paralinguistic elements, foreign-language words, contextual expressiveness, pronunciation correction और multi-speaker conversations शामिल हैं
- evaluation set चार पहलुओं को measure करता है
- text fidelity
- context usage
- prosody
- latency
- objective evaluation में WER, नया pronunciation test, speaker similarity आदि शामिल हैं
- subjective evaluation Expresso dataset का उपयोग करके Comparative Mean Opinion Score(CMOS) human evaluation से बना है
- WER और speaker similarity जैसे traditional benchmarks में CSM सहित latest models लगभग human level हासिल कर चुके हैं, इसलिए वे saturation के करीब हैं
pronunciation और context understanding evaluation
- नया speech transcription-based benchmark pronunciation और context understanding को बेहतर assess करने के लिए introduce किया गया
- homograph disambiguation यह assess करता है कि spelling समान लेकिन pronunciation अलग वाले words को सही तरह pronounce किया गया या नहीं
- उदाहरण में “lead” को metal meaning के /lɛd/ और lead/guide meaning के /liːd/ के बीच distinguish करना शामिल है
- pronunciation continuation consistency यह assess करती है कि कई pronunciation variants वाले words multi-turn speech में consistently बने रहते हैं या नहीं
- उदाहरण में “route” का /raʊt/ या /ruːt/ होना शामिल है
- homograph accuracy evaluation 5 words—lead, bass, tear, wound, row—के लिए हर word के 2 variants वाले 200 speech samples पर की गई
- pronunciation consistency evaluation 10 words— aunt, data, envelope, mobile, route, vase, either, adult, often, caramel—वाले 200 speech samples पर की गई
- evaluation में wav2vec2-lv-60-espeak-cv-ft इस्तेमाल किया गया
- Play.ht, Elevenlabs और OpenAI generated results उनके संबंधित API docs की default settings और default voices से बनाए गए
- कुल मिलाकर model size बढ़ने पर performance बेहतर हुई, जिससे यह hypothesis support होता है कि scaling ज़्यादा realistic speech synthesis में मदद करती है
human evaluation results
- CSM-Medium की naturalness और prosody appropriateness assess करने के लिए Expresso dataset के साथ दो CMOS studies की गईं
- evaluators ने model-generated speech और real human recording की pair सुनी, और reference के मुकाबले generated sample को 7-point preference scale पर rate किया
- पहली study में generated sample और human sample को बिना context के दिखाया गया और पूछा गया कि “कौन सा ज़्यादा human speech जैसा लगता है”
- दूसरी study में पिछले 90 seconds का audio और text context साथ दिया गया और पूछा गया कि “कौन सा conversation का ज़्यादा appropriate continuation लगता है”
- 80 लोगों ने paid participation किया, और हर participant ने औसतन 15 examples evaluate किए
- context न होने पर evaluators ने generated speech और real speech के बीच स्पष्ट preference नहीं दिखाई, जो naturalness evaluation के saturation को suggest करता है
- context शामिल होने पर evaluators ने original recordings को लगातार prefer किया, जिससे conversational speech generation में human prosody से gap बाकी होने का संकेत मिलता है
release plans और limitations
- Sesame research के key components को open source के रूप में release करने की योजना रखता है, और model Apache 2.0 license के तहत उपलब्ध कराया जाएगा
- updates और contributions SesameAILabs/csm GitHub repository में देखे जा सकते हैं
- मौजूदा CSM मुख्यतः English data पर train किया गया है
- data contamination की वजह से कुछ multilingual ability दिखती है, लेकिन अभी ठीक से काम नहीं करती
- pretrained language model के weights में मौजूद information का भी उपयोग नहीं करता
- अगले कुछ महीनों में model size बढ़ाने, dataset scale बढ़ाने और 20 से ज़्यादा languages के support को expand करने की योजना है
- pretrained language model का उपयोग करने के तरीके भी explore किए जाएंगे, ताकि speech और text की deep knowledge वाला बड़ा multimodal model बनाया जा सके
- CSM high-quality conversational prosody generate करता है, लेकिन यह सिर्फ conversation के text और speech content को model करता है; conversation structure खुद model नहीं कर पाता
- human conversation turn-taking, pauses और speed control जैसी complex processes शामिल करती है, इसलिए future AI conversations ऐसे fully duplex models के ज़्यादा करीब होंगी जो इन dynamics को data से implicitly learn करें
- fully duplex models के लिए data curation से लेकर post-training methodology तक पूरे stack में fundamental changes की जरूरत होगी
अभी कोई टिप्पणी नहीं है.