8 पॉइंट द्वारा GN⁺ 2025-03-10 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • टर्न डिटेक्शन voice AI stack की सबसे महत्वपूर्ण क्षमताओं में से एक है, जो यह तय करने की तकनीक है कि जब कोई व्यक्ति बोल रहा हो तो voice agent को किस समय जवाब देना चाहिए
  • अधिकांश voice agents VAD(Voice Activity Detection) आधारित तरीके से ऑडियो को speech और non-speech segments में बांटते हैं, इसलिए ध्वनिक और भाषाई अर्थ परिलक्षित नहीं होते
  • मनुष्य व्याकरण, intonation, बोलने की गति जैसे जटिल संकेतों के आधार पर टर्न डिटेक्शन करते हैं
    • लक्ष्य: VAD-आधारित approach की तुलना में ऐसा मॉडल बनाना जो मानव अपेक्षाओं के अधिक करीब हो
  • ओपन सोर्स आधारित community-driven ऑडियो टर्न डिटेक्शन मॉडल development project
    • BSD 2-clause लाइसेंस → कोई भी उपयोग, fork और योगदान कर सकता है
    • यह project Pipecat ecosystem में शुरू हुआ
    • Pipecat: ओपन सोर्स, vendor-independent voice और multimodal AI framework
  • project के लक्ष्य
    • high-level लक्ष्य
      • कोई भी आसानी से उपयोग कर सके
      • production में आसानी से deploy किया जा सके
      • specific application के अनुसार आसानी से fine-tune किया जा सके
    • मौजूदा मॉडल की सीमाएँ
      • केवल English support
      • अपेक्षाकृत धीमी inference speed: GPU पर लगभग 150ms, CPU पर लगभग 1500ms
      • training data मुख्य रूप से segment के अंत में आने वाले अधूरे utterances (filler words) पर केंद्रित है
    • मध्यम अवधि के लक्ष्य
      • विभिन्न भाषाओं का समर्थन
      • inference time: GPU पर 50ms से कम, CPU पर 500ms से कम
      • training data में आवाज़ की अधिक व्यापक बारीकियों को शामिल करना
      • पूरी तरह synthetic data generation pipeline बनाना
      • text-based conditioning support (उदाहरण: credit card, phone number, address input आदि)
  • मॉडल आर्किटेक्चर
    • Meta AI के Wav2Vec2-BERT backbone पर आधारित (parameters: 580M)
      • 143 भाषाएँ, 45 लाख घंटे के self-supervised audio data का उपयोग
    • मौजूदा मॉडल संरचना:
      • Wav2Vec2-BERT → 2-layer classifier (classification head)
      • Hugging Face का Wav2Vec2BertForSequenceClassification उपयोग
    • जिन आर्किटेक्चर पर अभी experiment चल रहे हैं:
      • यह परीक्षण किया जा रहा है कि dataset के विस्तार के बाद भी simple classifier प्रभावी रहेगा या नहीं
      • अधिक जटिल संरचना अपनाने की संभावना पर विचार किया जा रहा है

1 टिप्पणियां

 
GN⁺ 2025-03-10
Hacker News टिप्पणियाँ
  • मैंने pipecat इस्तेमाल किया है और यह अच्छा था। लेकिन मैं sherpa-onnx पर स्विच कर गया, जिसे native रूप से compile किया जा सकता है और edge devices पर चलाया जा सकता है

    • Google Translate app इस्तेमाल करते समय, लंबा वाक्य बोलते हुए मैं अक्सर बीच में रुक जाता हूँ या गति धीमी कर देता हूँ, इसलिए conversation mode से बचता हूँ
    • इस समस्या के लिए low-latency turn detection, speech interruption detection, और बहुत तेज़ low-latency LLM की ज़रूरत है
    • एक अच्छी recovery सुविधा चाहिए ताकि सिस्टम पिछले audio को फेंके बिना आख़िरी वाक्य को जारी रख सके
    • i/o latency सुधारने के लिए low-latency audio API, बहुत छोटे audio buffers, और dedicated audio categories व modes का उपयोग ज़रूरी है
    • पक्का नहीं हूँ कि streaming mode में TTS का उपयोग किया जा सकता है या नहीं
    • अच्छी तरह डिज़ाइन किया गया push-to-talk एक अच्छा समाधान हो सकता है
  • आज कुछ दिलचस्प updates थे

    • CoreML का उपयोग करके 100ms inference
    • data के subset पर trained LSTM model
  • README से मुझे ज़्यादातर जवाब मिल गए। यह अच्छी तरह लिखा गया है

  • सोच रहा हूँ कि क्या आप Wav2Vec2-BERT को fine-tune करने के लिए ज़रूरी resources और मात्रा साझा कर सकते हैं

  • सोच रहा हूँ कि turn detection क्या है

  • इस तकनीक को और आगे बढ़ते देख कर खुशी होती है

    • Siri जैसे सबसे खराब voice systems से लेकर ChatGPT voice mode तक, computers यह काम अच्छी तरह नहीं कर पाते
    • यह "agents" के लिए सरल लेकिन उपयोगी काम करने में सबसे बड़ी बाधा हो सकती है
    • अभी भी कई ऐसी स्थितियाँ हैं जहाँ AI संघर्ष करता है, और ये त्रुटियाँ बातचीत की दक्षता को बर्बाद कर सकती हैं या गंभीर functional failures का कारण बन सकती हैं
  • HF autism diagnosis पाने वाले व्यक्ति के रूप में, मैं इस तकनीक को earpiece में लागू करना चाहूँगा

  • कुछ turn-based models की समीक्षा करने के बाद, implementation काफ़ी एकसमान लगते हैं। यह तकनीक कैसे विकसित होगी, इसका इंतज़ार है

  • काश Vedal इस तकनीक को Neuro-sama के model में integrate करे। osu bot से AI Vtuber में बदलने का मामला

  • सोच रहा हूँ कि क्या यह multiple speakers को support करता है

  • fork कर रहा हूँ