2 पॉइंट द्वारा GN⁺ 2024-09-20 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • कम latency वाला उच्च-गुणवत्ता का end-to-end वॉइस इंटरैक्शन मॉडल
  • Llama-3.1-8B-Instruct पर आधारित, जिसका लक्ष्य GPT-4o स्तर की वॉइस क्षमताएँ हासिल करना है
  • 226ms की कम latency
  • टेक्स्ट और वॉइस responses एक साथ जनरेट करता है

GN⁺ की संक्षिप्त整理

  • LLaMA-Omni, Llama-3.1-8B-Instruct पर आधारित एक speech-language मॉडल है, जो कम latency और उच्च-गुणवत्ता वाले वॉइस इंटरैक्शन को सपोर्ट करता है
  • यह टेक्स्ट और वॉइस responses एक साथ जनरेट कर सकता है, इसलिए विभिन्न उपयोग क्षेत्रों में उपयोगी है
  • 4 GPU के साथ 3 दिनों के भीतर training पूरी हो जाती है, इसलिए यह efficient है
  • Gradio demo के ज़रिये आसानी से इंटरैक्ट किया जा सकता है, और local inference भी संभव है
  • समान सुविधाओं वाले प्रोजेक्ट्स में OpenAI का Whisper और Google का Speech-to-Text API शामिल हैं

1 टिप्पणियां

 
GN⁺ 2024-09-20
Hacker News राय
  • यह सवाल कि क्या "ऐसी आवाज़ें चलाई जा सकती हैं जिन्हें टेक्स्ट में व्यक्त नहीं किया जा सकता"
  • शुद्ध टेक्स्ट मॉडल की तुलना में इस मॉडल के फ़ायदे या संभावनाओं पर सवाल
    • उम्मीद कि जैसे-जैसे मॉडल बेहतर होंगे, वे TTS में खो जाने वाले intonation, rhythm और emotion को ठीक से समझ या पैदा कर पाएंगे
  • यह सवाल कि क्या यह सिर्फ़ "STT -> LLM -> TTS" नहीं है
    • यह जिज्ञासा कि अगर Chewbacca की आवाज़ इनपुट की जाए, तो क्या मॉडल उसे अर्थहीन ध्वनि मानेगा, या खराब STT की तरह उसे किसी यादृच्छिक शब्द के रूप में समझेगा
  • यह सवाल कि क्या Ollama, LM Studio, llama.cpp जैसे मॉडल ऑपरेटर इसे सपोर्ट करते हैं
  • डेमो क्लिप की TTS आवाज़ Valve की voice actor Ellen McLain से बहुत मिलती-जुलती है
  • गति बहुत अच्छी है
    • हाल ही में LMStudio + AnythingLLM सेट करके लोकल voice chat आज़माई, लेकिन यह अब भी चाही गई गति से धीमा है
    • PiperTTS की आवाज़ बेहतर है
  • व्यावसायिक उपयोग के लिए voice fine-tuning एक महत्वपूर्ण आवश्यकता लगती है
    • अच्छा होता अगर training या fine-tuning code भी होता
  • यह सवाल कि क्या अतिरिक्त fine-tuning संभव नहीं है
  • यह सवाल कि क्या प्रदर्शन दिखाने वाला कोई डेमो है
  • यह जिज्ञासा कि क्या GitHub repository में star history graph होने पर लोगों को उसकी विश्वसनीयता कम लगती है