- कम latency वाला उच्च-गुणवत्ता का end-to-end वॉइस इंटरैक्शन मॉडल
- Llama-3.1-8B-Instruct पर आधारित, जिसका लक्ष्य GPT-4o स्तर की वॉइस क्षमताएँ हासिल करना है
- 226ms की कम latency
- टेक्स्ट और वॉइस responses एक साथ जनरेट करता है
GN⁺ की संक्षिप्त整理
- LLaMA-Omni, Llama-3.1-8B-Instruct पर आधारित एक speech-language मॉडल है, जो कम latency और उच्च-गुणवत्ता वाले वॉइस इंटरैक्शन को सपोर्ट करता है
- यह टेक्स्ट और वॉइस responses एक साथ जनरेट कर सकता है, इसलिए विभिन्न उपयोग क्षेत्रों में उपयोगी है
- 4 GPU के साथ 3 दिनों के भीतर training पूरी हो जाती है, इसलिए यह efficient है
- Gradio demo के ज़रिये आसानी से इंटरैक्ट किया जा सकता है, और local inference भी संभव है
- समान सुविधाओं वाले प्रोजेक्ट्स में OpenAI का Whisper और Google का Speech-to-Text API शामिल हैं
1 टिप्पणियां
Hacker News राय