- Google Home से हटकर Home Assistant-आधारित पूरी तरह लोकल वॉइस असिस्टेंट बनाने की प्रक्रिया को चरण-दर-चरण संक्षेप में प्रस्तुत किया गया है
- llama.cpp और local-first कॉन्फ़िगरेशन का उपयोग करके क्लाउड पर निर्भर हुए बिना तेज़ प्रतिक्रिया और प्राइवेसी हासिल की गई
- अलग-अलग GPU·मॉडल·STT·TTS संयोजनों का परीक्षण करते हुए प्रदर्शन और गुणवत्ता की तुलना की गई, और सर्वोत्तम कॉन्फ़िगरेशन निकाला गया
- प्रॉम्प्ट डिज़ाइन और ऑटोमेशन स्क्रिप्ट्स के ज़रिए मौसम, सर्च, म्यूज़िक प्लेबैक जैसी वास्तविक जीवन की सुविधाएँ लागू की गईं
- नतीजे में प्राइवेसी सुनिश्चित करने वाला और उच्च विश्वसनीयता वाला लोकल वॉइस असिस्टेंट वातावरण तैयार हुआ
हार्डवेयर कॉन्फ़िगरेशन
- Home Assistant UnRaid NAS पर चलता है, और वॉइस सर्वर के लिए USB4-सपोर्टेड Beelink MiniPC और eGPU enclosure का उपयोग किया गया
- GPU के रूप में RTX 3050~3090, RX 7900XTX सहित कई मॉडल टेस्ट किए गए
- RTX 3090 और RX 7900XTX में 1~2 सेकंड प्रतिक्रिया, RTX 3050 में लगभग 3 सेकंड प्रतिक्रिया मिली
- वॉइस हार्डवेयर में HA Voice Preview Satellite, Satellite1 Small Squircle Enclosure 2 यूनिट, और Pixel 7a शामिल हैं
मॉडल और प्रदर्शन
- GGML GPT-OSS:20B, Unsloth Qwen3 series, GLM 4.7 Flash (30B) सहित कई मॉडल टेस्ट किए गए
- सभी मॉडलों ने बुनियादी tool calling फीचर को सपोर्ट किया
- मूल्यांकन मानदंडों में मल्टी-डिवाइस कंट्रोल, कॉन्टेक्स्ट समझ, गलत पहचाने गए कमांड्स की हैंडलिंग, गलत इनपुट को नज़रअंदाज़ करने की क्षमता शामिल थी
वॉइस सर्वर सॉफ़्टवेयर
- मॉडल रनर के रूप में llama.cpp की सिफारिश की गई
- वॉइस इनपुट (STT)
- Wyoming ONNX ASR (Nvidia Parakeet V2, OpenVINO branch): CPU inference time लगभग 0.3 सेकंड
- Rhasspy Faster Whisper: ONNX CPU-आधारित, अपेक्षाकृत धीमा
- वॉइस आउटपुट (TTS)
- Kokoro TTS: कई voice combinations संभव, टेक्स्ट प्रोसेसिंग उत्कृष्ट
- Piper (CPU): कई तरह की आवाज़ों का समर्थन, लेकिन numbers और addresses की प्रोसेसिंग में कमज़ोर
- Home Assistant LLM integration
- LLM Conversation: डिफ़ॉल्ट बातचीत की गुणवत्ता में सुधार
- LLM Intents: web search, place search, weather forecast जैसे tools प्रदान करता है
Google Assistant से लोकल असिस्टेंट की ओर बदलाव
- Google Assistant की response accuracy और functionality लगातार घटने से विकल्प की ज़रूरत महसूस हुई
- प्राइवेसी चिंताएँ और क्लाउड आउटेज के समय कंट्रोल न कर पाने की समस्या भी बदलाव के बड़े कारण थे
शुरुआती प्रयास और मॉडल सुधार
- शुरुआत में Ollama के डिफ़ॉल्ट मॉडल इस्तेमाल किए गए, लेकिन tool calling में बार-बार विफलता हुई
- HuggingFace के GGUF high-precision मॉडल इस्तेमाल करने पर प्रदर्शन में बड़ा सुधार आया
- Wi-Fi अस्थिरता के कारण वॉइस आउटपुट को बिना कटे चलाने के लिए streaming settings और dedicated IoT network कॉन्फ़िगर किया गया
फीचर विस्तार और LLM प्रॉम्प्ट डिज़ाइन
- वॉइस असिस्टेंट को मौसम, opening hours, सामान्य ज्ञान, music playback जैसे काम करने के लिए कॉन्फ़िगर किया गया
- llm-intents integration से फीचर्स बढ़े, लेकिन शुरुआती परिणाम सीमित रहे
- प्रॉम्प्ट डिज़ाइन एक अहम तत्व साबित हुआ
- हर service के लिए
# sections और specific instruction lists जोड़कर LLM की tool calling accuracy बेहतर की गई
- गैर-ज़रूरी exclamations और emojis हटाकर TTS-friendly response format तैयार किया गया
- ChatGPT का उपयोग करके प्रॉम्प्ट को बार-बार बेहतर बनाया गया
ऑटोमेशन से समस्या का समाधान
- music playback फीचर LLM सीधे नहीं कर पा रहा था, इसलिए Home Assistant automation scripts से इसे पूरक बनाया गया
- “Play {music}” कमांड को trigger बनाकर अनुरोध करने वाले satellite device के अनुरूप media_player में संगीत चलाया गया
- “Stop playing” कमांड से प्लेबैक रोका जा सकता है
- बाद के अपडेट्स में LLM ने स्वाभाविक रूप से music search और playback करना शुरू कर दिया, फिर भी automation अब भी उपयोगी तरीका है
कस्टम wake word ट्रेनिंग
- डिफ़ॉल्ट wake word की जगह “Hey Robot” का उपयोग किया गया
- microWakeWord-Trainer-Nvidia-Docker से लगभग 30 मिनट तक ट्रेनिंग की गई
- false positive rate Google Home के स्तर का था, और auto mute feature से इसे और बेहतर किया जा सकता है
अंतिम परिणाम
- औसत उपयोगकर्ता के लिए यह कुछ जटिल हो सकता है, लेकिन सूक्ष्म स्तर पर ट्यून किया जा सकने वाला लोकल वॉइस असिस्टेंट वातावरण तैयार हो गया
- प्राइवेसी सुरक्षा, स्थिर कंट्रोल, और यूज़र-विशिष्ट प्रदर्शन ट्यूनिंग संभव है
- पूरी तरह क्लाउड-स्वतंत्र वॉइस असिस्टेंट के रूप में विश्वसनीयता और आनंद दोनों हासिल किए गए
अभी कोई टिप्पणी नहीं है.