5 पॉइंट द्वारा GN⁺ 2025-03-03 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • मानव आवाज़ सबसे अंतरंग माध्यमों में से एक है, जो tone, pitch, rhythm और emotion जैसे विविध बदलावों के माध्यम से गहरे अर्थ पहुँचाती है
  • मौजूदा digital voice assistants में इन भावनात्मक तत्वों की कमी है, जिससे उपयोगकर्ताओं के साथ प्रभावी सहयोग में सीमाएँ आती हैं
  • भावनाहीन आवाज़ शुरुआत में नई और रोचक लग सकती है, लेकिन समय के साथ यह निराशाजनक और थकाऊ हो सकती है
  • Sesame का लक्ष्य यह है कि conversational partner केवल अनुरोधों को प्रोसेस करने से आगे बढ़कर भरोसा और आत्मविश्वास बनाने वाली वास्तविक बातचीत कर सके
  • इसके जरिए वह आवाज़ की क्षमता का अधिकतम उपयोग कर उसे निर्देश और समझ के लिए अंतिम interface बनाना चाहता है

मुख्य तत्व

  • भावनात्मक बुद्धिमत्ता: भावनात्मक संदर्भ को पढ़ने और उसके अनुसार प्रतिक्रिया देने की क्षमता
  • संवाद गतिशीलता: बातचीत का प्रवाह, जिसमें natural timing, pauses, interruption और emphasis शामिल हैं
  • स्थिति-जागरूकता: परिस्थिति के अनुसार tone और style को समायोजित करने की क्षमता
  • सुसंगत व्यक्तित्व: एक स्थिर, भरोसेमंद और उपयुक्त उपस्थिति बनाए रखना

हम अभी वहाँ तक नहीं पहुँचे हैं

  • digital companion को आवाज़ के माध्यम से वास्तविक उपस्थिति देना एक कठिन चुनौती है, लेकिन हम personality, memory, expressiveness और appropriateness जैसे कई पहलुओं में लगातार प्रगति कर रहे हैं
  • नीचे दिया गया demo उस काम का एक हिस्सा दिखाता है जिसमें अपनापन और अभिव्यक्तiveness के लिए conversational voice generation को optimize किया गया है

conversational voice generation करना

  • वास्तव में interative AI companion बनाने के लिए केवल high-quality audio generation ही नहीं, बल्कि real time में context को समझना और उसके अनुसार अनुकूलित होना भी ज़रूरी है​
  • पारंपरिक text-to-speech (TTS) मॉडल सीधे text से आवाज़ बनाते हैं, लेकिन उनमें natural conversation के लिए ज़रूरी context awareness की कमी होती है​
  • हाल के मॉडल मानव जैसी आवाज़ पैदा करते हैं, लेकिन वे 'one-to-many' समस्या से जूझते हैं, जहाँ एक ही वाक्य कई अलग-अलग तरीकों से व्यक्त किया जा सकता है​
  • अतिरिक्त context (tone, rhythm, conversation history आदि) के बिना मॉडल के पास सबसे अच्छा विकल्प चुनने के लिए पर्याप्त जानकारी नहीं होती​
  • इन सूक्ष्म भिन्नताओं को पकड़ने के लिए भाषा और prosody के कई पहलुओं पर reasoning की ज़रूरत होती है

Conversational Speech Model (CSM)

  • इस समस्या को हल करने के लिए transformer का उपयोग करते हुए समस्या को end-to-end multimodal learning task के रूप में परिभाषित करने वाला Conversational Speech Model (CSM) प्रस्तुत किया गया है​
  • यह conversation history का उपयोग कर अधिक natural और consistent आवाज़ उत्पन्न करता है​
  • CSM एक single-stage model के रूप में काम करता है, जिससे efficiency और expressiveness बेहतर होती है​
  • इसमें contextual capabilities में प्रगति का मूल्यांकन करने के लिए एक evaluation suite भी है, क्योंकि सामान्य public evaluations अब संतृप्त हो चुके हैं

पृष्ठभूमि

  • transformer के साथ audio को model करने का एक तरीका यह है कि tokenizer की मदद से continuous waveform को discrete audio token sequence में बदला जाए
  • अधिकांश आधुनिक approaches दो प्रकार के audio tokens पर निर्भर करती हैं:
    • semantic tokens: semantic और phonetic विशेषताओं का संकुचित speaker-invariant representation, जो high-fidelity representation की कीमत पर मुख्य vocal characteristics को पकड़ता है
    • acoustic tokens: सूक्ष्म acoustic details का encoding, जो high-fidelity audio reconstruction को संभव बनाता है और Residual Vector Quantization(RVQ) का उपयोग करके बनाया जाता है। semantic tokens के विपरीत, यह speaker की विशिष्ट पहचान और timbre जैसी natural voice characteristics को बनाए रखता है

प्रयोग

  • dataset: सार्वजनिक रूप से उपलब्ध लगभग 10 लाख घंटे के, मुख्यतः अंग्रेज़ी audio dataset का उपयोग किया गया
  • model size: backbone और decoder size के आधार पर तीन मॉडल साइज़ प्रशिक्षित किए गए:
    • Tiny: 1 अरब backbone, 10 करोड़ decoder
    • Small: 3 अरब backbone, 25 करोड़ decoder
    • Medium: 8 अरब backbone, 30 करोड़ decoder
  • प्रत्येक मॉडल को 2048 sequence length (~2 मिनट audio) पर 5 epochs तक प्रशिक्षित किया गया

मूल्यांकन

  • मॉडल प्रदर्शन का मूल्यांकन चार प्रमुख पहलुओं पर किया गया: text fidelity, context utilization, prosody और latency
  • objective benchmark में word error rate (WER) और homophone disambiguation जैसे नए tests शामिल हैं
  • subjective evaluation Expresso dataset का उपयोग करने वाले comparative mean opinion score (CMOS) human studies पर आधारित है

सीमाएँ और भविष्य का काम

  • CSM को अभी मुख्यतः अंग्रेज़ी डेटा पर प्रशिक्षित किया गया है, और dataset contamination के कारण कुछ multilingual क्षमता दिखती है, लेकिन प्रदर्शन अभी अच्छा नहीं है
  • यह pre-trained language model के weights में मौजूद जानकारी का उपयोग नहीं करता

1 टिप्पणियां

 
GN⁺ 2025-03-03
Hacker News राय
  • Sesame के Brendan ने कहा कि फ़ीडबैक सटीक है, और यह भी माना कि अभी सुधार की बहुत गुंजाइश है। यह प्रेरणादायक है, लेकिन सचमुच का अनुभव देने तक पहुँचने के लिए अभी कई कदम बाकी हैं। फ़िलहाल यह विकास की शुरुआती अवस्था में है, लेकिन आगे को लेकर दृष्टिकोण सकारात्मक है

    • भाषाई संचार जटिल है, और हल करने के लिए कई दिलचस्प चुनौतियाँ हैं
    • प्रतिक्रिया का timing अक्सर अनुपयुक्त होता है, और यह बातचीत में स्वाभाविक रूप से घुल-मिल नहीं पाता
    • यह बातचीत में रुकावटों को अच्छी तरह संभाल नहीं पाता, और एकसमान personality भी बनाए नहीं रख पाता
    • hallucination, कमज़ोर memory, और समय की समझ की कमी जैसी समस्याएँ भी हैं
    • उनका मानना है कि community इन समस्याओं को हल कर सकती है
    • लक्ष्य भावनात्मक दोस्ती से ज़्यादा ऐसा interface बनाना है जिसके साथ स्वाभाविक रूप से collaboration किया जा सके
    • अगर app किसी विशेषज्ञ की तरह बातचीत कर सके, तो वह अधिक intuitive और efficient होगा
  • एक उपयोगकर्ता ने demo आज़माया, लेकिन बोलने का फ़ैसला नहीं किया। अनुभव अजीब और बेचैन करने वाला लगा, और बनावटी उत्साह खटकने वाला था

    • AI products को उपयोगकर्ता के सामने एक स्पष्ट goal रखना चाहिए
    • सिर्फ बातचीत के लिए बना AI समाज पर नकारात्मक असर डाल सकता है
  • एक दूसरे उपयोगकर्ता ने कहा कि इस मॉडल की responsiveness और personality चौंकाने वाली है। पिछली बातचीत याद रखना और स्वागत करना उन्हें प्रभावशाली लगा

    • demo interactions रिकॉर्ड की जाती हैं, और पिछली बातचीत को मॉडल के context में शामिल किया जाता है
    • mic permission की ज़रूरत होती है, और calls quality review के लिए रिकॉर्ड की जाती हैं, लेकिन 30 दिनों के भीतर हटा दी जाती हैं
  • भावनात्मक voice की ज़रूरत पर सवाल उठाया गया

    • भावनात्मक आवाज़ सिर्फ दोस्त होने का भ्रम देती है, वास्तव में मदद नहीं करती
    • एक smart, neutral voice assistant ज़्यादा उपयोगी हो सकता है
  • एक उपयोगकर्ता ने अपनी 4 साल की बेटी के साथ AI के साथ खेला, और उन्हें चिंता हुई कि उनकी बेटी ने AI के साथ भावनात्मक जुड़ाव बना लिया

  • एक अन्य उपयोगकर्ता को लगा कि आवाज़ इंसान जैसी सुनाई देती है, लेकिन बोलने की rhythm अप्राकृतिक है

  • यह कहा गया कि यह तकनीक इतनी अच्छी है कि लोगों को मोहित कर सकती है। उनका तर्क था कि एक personal model की ज़रूरत है

  • कहा गया कि यह English learning के लिए क्रांतिकारी हो सकता है

    • विकासशील देशों में English teachers की कमी है, और अच्छे शिक्षक महंगे होने के कारण आसानी से उपलब्ध नहीं होते
    • यह मॉडल OpenAI मॉडल के बराबर या उससे बेहतर performance देता है, और लागत भी कम है
  • एक प्रलयकारी अनुमान पेश किया गया कि AI एकदम परफेक्ट आवाज़ में फ़ोन करके लोगों को मोहित कर सकता है

  • एक उपयोगकर्ता ने 13 मिनट तक बात की, फिर यह crash हो गया, लेकिन कुछ मिनट बाद लौटकर उन्होंने 30 मिनट तक बातचीत की, और उन्हें लगा कि यह फ़िल्म 'Her' की Samantha के स्तर के काफ़ी करीब है

    • बातचीत के दौरान उन्होंने 'PROSODY' शब्द सीखा, और AI ने समझाया कि वह tone और content सुनकर अपने responses अपने-आप समायोजित करता है
    • उन्होंने कहा कि ऐसा लगा जैसे भविष्य आ चुका है, बस वह अभी समान रूप से वितरित नहीं हुआ है