- टर्न डिटेक्शन voice AI stack की सबसे महत्वपूर्ण क्षमताओं में से एक है, जो यह तय करने की तकनीक है कि जब कोई व्यक्ति बोल रहा हो तो voice agent को किस समय जवाब देना चाहिए
- अधिकांश voice agents VAD(Voice Activity Detection) आधारित तरीके से ऑडियो को speech और non-speech segments में बांटते हैं, इसलिए ध्वनिक और भाषाई अर्थ परिलक्षित नहीं होते
- मनुष्य व्याकरण, intonation, बोलने की गति जैसे जटिल संकेतों के आधार पर टर्न डिटेक्शन करते हैं
- लक्ष्य: VAD-आधारित approach की तुलना में ऐसा मॉडल बनाना जो मानव अपेक्षाओं के अधिक करीब हो
- ओपन सोर्स आधारित community-driven ऑडियो टर्न डिटेक्शन मॉडल development project
- BSD 2-clause लाइसेंस → कोई भी उपयोग, fork और योगदान कर सकता है
- यह project Pipecat ecosystem में शुरू हुआ
- Pipecat: ओपन सोर्स, vendor-independent voice और multimodal AI framework
- project के लक्ष्य
- high-level लक्ष्य
- कोई भी आसानी से उपयोग कर सके
- production में आसानी से deploy किया जा सके
- specific application के अनुसार आसानी से fine-tune किया जा सके
- मौजूदा मॉडल की सीमाएँ
- केवल English support
- अपेक्षाकृत धीमी inference speed: GPU पर लगभग 150ms, CPU पर लगभग 1500ms
- training data मुख्य रूप से segment के अंत में आने वाले अधूरे utterances (filler words) पर केंद्रित है
- मध्यम अवधि के लक्ष्य
- विभिन्न भाषाओं का समर्थन
- inference time: GPU पर 50ms से कम, CPU पर 500ms से कम
- training data में आवाज़ की अधिक व्यापक बारीकियों को शामिल करना
- पूरी तरह synthetic data generation pipeline बनाना
- text-based conditioning support (उदाहरण: credit card, phone number, address input आदि)
- मॉडल आर्किटेक्चर
- Meta AI के Wav2Vec2-BERT backbone पर आधारित (parameters: 580M)
- 143 भाषाएँ, 45 लाख घंटे के self-supervised audio data का उपयोग
- मौजूदा मॉडल संरचना:
- Wav2Vec2-BERT → 2-layer classifier (classification head)
- Hugging Face का Wav2Vec2BertForSequenceClassification उपयोग
- जिन आर्किटेक्चर पर अभी experiment चल रहे हैं:
- यह परीक्षण किया जा रहा है कि dataset के विस्तार के बाद भी simple classifier प्रभावी रहेगा या नहीं
- अधिक जटिल संरचना अपनाने की संभावना पर विचार किया जा रहा है
1 टिप्पणियां
Hacker News टिप्पणियाँ
मैंने pipecat इस्तेमाल किया है और यह अच्छा था। लेकिन मैं sherpa-onnx पर स्विच कर गया, जिसे native रूप से compile किया जा सकता है और edge devices पर चलाया जा सकता है
आज कुछ दिलचस्प updates थे
README से मुझे ज़्यादातर जवाब मिल गए। यह अच्छी तरह लिखा गया है
सोच रहा हूँ कि क्या आप Wav2Vec2-BERT को fine-tune करने के लिए ज़रूरी resources और मात्रा साझा कर सकते हैं
सोच रहा हूँ कि turn detection क्या है
इस तकनीक को और आगे बढ़ते देख कर खुशी होती है
HF autism diagnosis पाने वाले व्यक्ति के रूप में, मैं इस तकनीक को earpiece में लागू करना चाहूँगा
कुछ turn-based models की समीक्षा करने के बाद, implementation काफ़ी एकसमान लगते हैं। यह तकनीक कैसे विकसित होगी, इसका इंतज़ार है
काश Vedal इस तकनीक को Neuro-sama के model में integrate करे। osu bot से AI Vtuber में बदलने का मामला
सोच रहा हूँ कि क्या यह multiple speakers को support करता है
fork कर रहा हूँ