- Apple Silicon पर Swift/MLX में इम्प्लीमेंट किया गया PersonaPlex 7B मॉडल रीयल-टाइम दो-तरफ़ा वॉइस संवाद को सपोर्ट करता है
- मौजूदा ASR→LLM→TTS 3-स्टेज वॉइस पाइपलाइन को एक ही मॉडल में एकीकृत किया गया है, जिससे टेक्स्ट कन्वर्ज़न के बिना ऑडियो इनपुट और आउटपुट को सीधे प्रोसेस किया जाता है
- 4-बिट quantization के जरिए मॉडल का आकार 16.7GB से घटाकर 5.3GB किया गया है, और 68ms/step(RTF 0.87) के साथ रीयल-टाइम से भी तेज प्रोसेसिंग स्पीड हासिल की गई है
- Mimi ऑडियो codec और Depformer संरचना का उपयोग करके वॉइस क्वालिटी में गिरावट के बिना कुशल स्ट्रीमिंग इम्प्लीमेंट की गई है
- यह Swift native environment में बिना सर्वर के चलता है, और वॉइस असिस्टेंट·संवादी एजेंट डेवलपमेंट के लिए एक महत्वपूर्ण आधार तकनीक है
qwen3-asr-swift और PersonaPlex 7B का एकीकरण
- qwen3-asr-swift लाइब्रेरी ने Apple Silicon पर NVIDIA PersonaPlex 7B को इंटीग्रेट करके दो-तरफ़ा वॉइस संवाद(full-duplex speech-to-speech) फीचर को सपोर्ट किया है
- यह इनपुट ऑडियो को रीयल-टाइम में प्रोसेस करता है और साथ ही रिस्पॉन्स ऑडियो जनरेट करता है
- इसे ASR, TTS, बहुभाषी synthesis फीचर्स वाली एकीकृत वॉइस प्रोसेसिंग लाइब्रेरी के रूप में विस्तारित किया गया है
- मॉडल 4-बिट quantized 5.3GB वर्ज़न के रूप में Hugging Face के
aufklarer/PersonaPlex-7B-MLX-4bit पर उपलब्ध है
पारंपरिक वॉइस पाइपलाइन का एकीकरण
- पारंपरिक वॉइस असिस्टेंट ASR → LLM → TTS की 3-स्टेज संरचना पर आधारित होते हैं, जहाँ हर स्टेज में latency और भावनात्मक अभिव्यक्ति की हानि होती है
- PersonaPlex इसे एकल मॉडल में एकीकृत करता है और audio tokens को सीधे प्रोसेस करता है
- यह 17 parallel streams(12.5Hz) के जरिए ऑडियो को रीयल-टाइम में कन्वर्ट करता है
- Kyutai की Moshi architecture पर आधारित होकर, यह 18 वॉइस presets और role-based system prompts को सपोर्ट करता है
मॉडल संरचना और रूपांतरण
- मूल 16.7GB PyTorch checkpoint को MLX-optimized safetensors में कन्वर्ट किया गया
- कन्वर्ज़न स्क्रिप्ट(
convert_personaplex.py) weight classification, 4-बिट quantization, preset extraction और Hugging Face upload को ऑटोमैटिकली हैंडल करती है
- Temporal Transformer(7B parameters) और Depformer दोनों को 4-बिट में compress किया गया
- Depformer स्टेप-वाइज़ weight switching(MultiLinear) संरचना का उपयोग करके 2.4GB → 650MB तक घटाया गया
- क्वालिटी में गिरावट के बिना 3.7x storage reduction
वॉइस प्रोसेसिंग पाइपलाइन
- Mimi Encoder/Decoder के जरिए 24kHz ऑडियो को 16 codebook tokens में कन्वर्ट किया जाता है
- Temporal Transformer यूज़र और एजेंट ऑडियो स्ट्रीम को एकीकृत रूप से प्रोसेस करता है
- Depformer 16 स्टेज में एजेंट ऑडियो tokens जनरेट करता है
- Mimi Decoder इन्हें फिर से 24kHz ऑडियो में रिस्टोर करता है
- Mimi codec, KV cache, RoPE, SwiGLU, RMSNorm जैसे मौजूदा TTS मॉडल के कंपोनेंट्स को वैसे ही पुन: उपयोग किया गया है
सिस्टम प्रॉम्प्ट और संवाद नियंत्रण
- PersonaPlex टेक्स्ट-आधारित system prompts के जरिए संवाद शैली को नियंत्रित करता है
- अगर प्रॉम्प्ट न हो, तो मॉडल विषय से भटक सकता है या बहुत लंबा जवाब दे सकता है
- CLI या API में assistant, customer service, teacher जैसे presets चुने जा सकते हैं
- एक ही सवाल पर भी प्रॉम्प्ट की मौजूदगी या अनुपस्थिति के अनुसार रिस्पॉन्स क्वालिटी में बड़ा अंतर आता है
प्रदर्शन और रीयल-टाइम प्रोसेसिंग
- M2 Max(64GB) वातावरण में 68ms/step, RTF 0.87 के साथ रीयल-टाइम से तेज प्रोसेसिंग स्पीड हासिल की गई
- यह 80ms frame budget(12.5Hz) के भीतर स्थिर रूप से चलता है
- ASR, TTS, Speech-to-Speech को एक ही लाइब्रेरी में इंटीग्रेटेड तरीके से टेस्ट किया जा सकता है
- E2E validation में ASR के जरिए रिस्पॉन्स ऑडियो को फिर से टेक्स्ट में बदलकर विषय की सुसंगतता की पुष्टि की जाती है
स्ट्रीमिंग और ऑप्टिमाइज़ेशन
respondStream() API 2-सेकंड ऑडियो chunks को रीयल-टाइम में जनरेट करती है
- इसे AsyncThrowingStream<AudioChunk> के रूप में तुरंत प्ले किया जा सकता है
- चार प्रमुख ऑप्टिमाइज़ेशन:
- eval() एकीकरण से GPU synchronization में कमी
- Bulk audio extraction से decoding efficiency में सुधार
- Prefill batching से शुरुआती स्टेज में parallel processing
- Temporal transformer compilation से 450 से अधिक Metal kernel calls का ऑप्टिमाइज़ेशन
--compile फ्लैग या model.warmUp() से kernel fusion को सक्रिय किया जा सकता है
रन और डिप्लॉयमेंट
- GitHub रिपॉज़िटरी: ivan-digital/qwen3-asr-swift
swift build -c release से build करने के बाद, CLI कमांड के जरिए ASR, TTS, Speech-to-Speech चलाया जा सकता है
- पहली बार चलाने पर लगभग 5.3GB मॉडल डाउनलोड की आवश्यकता होती है
- MLX framework पर आधारित होने के कारण, यह Python या सर्वर के बिना Swift native environment में पूरी तरह चलता है
तकनीकी महत्व
- Apple Silicon की unified memory architecture और Metal acceleration का उपयोग करके हाई-परफॉर्मेंस वॉइस मॉडल के on-device execution को साबित किया गया है
- एकल मॉडल-आधारित रीयल-टाइम वॉइस संवाद के इम्प्लीमेंटेशन से AI असिस्टेंट·कॉल सेंटर·शिक्षा-उन्मुख वॉइस इंटरफेस जैसे कई उपयोग मामलों की संभावना खुलती है
- इसे NVIDIA, Kyutai, Alibaba Qwen, FunAudioLLM, Apple MLX जैसी कई open source ecosystems के एकीकरण की उपलब्धि के रूप में देखा जा रहा है
अभी कोई टिप्पणी नहीं है.