विश्वसनीय और आनंददायक लोकल-होस्टेड वॉइस असिस्टेंट बनाने की यात्रा (2025)

(community.home-assistant.io)

1 पॉइंट द्वारा GN⁺ 2026-03-18 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

Google Home से हटकर Home Assistant-आधारित पूरी तरह लोकल वॉइस असिस्टेंट बनाने की प्रक्रिया को चरण-दर-चरण संक्षेप में प्रस्तुत किया गया है
llama.cpp और local-first कॉन्फ़िगरेशन का उपयोग करके क्लाउड पर निर्भर हुए बिना तेज़ प्रतिक्रिया और प्राइवेसी हासिल की गई
अलग-अलग GPU·मॉडल·STT·TTS संयोजनों का परीक्षण करते हुए प्रदर्शन और गुणवत्ता की तुलना की गई, और सर्वोत्तम कॉन्फ़िगरेशन निकाला गया
प्रॉम्प्ट डिज़ाइन और ऑटोमेशन स्क्रिप्ट्स के ज़रिए मौसम, सर्च, म्यूज़िक प्लेबैक जैसी वास्तविक जीवन की सुविधाएँ लागू की गईं
नतीजे में प्राइवेसी सुनिश्चित करने वाला और उच्च विश्वसनीयता वाला लोकल वॉइस असिस्टेंट वातावरण तैयार हुआ

हार्डवेयर कॉन्फ़िगरेशन

Home Assistant UnRaid NAS पर चलता है, और वॉइस सर्वर के लिए USB4-सपोर्टेड Beelink MiniPC और eGPU enclosure का उपयोग किया गया
- GPU के रूप में RTX 3050~3090, RX 7900XTX सहित कई मॉडल टेस्ट किए गए
- RTX 3090 और RX 7900XTX में 1~2 सेकंड प्रतिक्रिया, RTX 3050 में लगभग 3 सेकंड प्रतिक्रिया मिली
वॉइस हार्डवेयर में HA Voice Preview Satellite, Satellite1 Small Squircle Enclosure 2 यूनिट, और Pixel 7a शामिल हैं

मॉडल और प्रदर्शन

GGML GPT-OSS:20B, Unsloth Qwen3 series, GLM 4.7 Flash (30B) सहित कई मॉडल टेस्ट किए गए
सभी मॉडलों ने बुनियादी tool calling फीचर को सपोर्ट किया
मूल्यांकन मानदंडों में मल्टी-डिवाइस कंट्रोल, कॉन्टेक्स्ट समझ, गलत पहचाने गए कमांड्स की हैंडलिंग, गलत इनपुट को नज़रअंदाज़ करने की क्षमता शामिल थी

वॉइस सर्वर सॉफ़्टवेयर

मॉडल रनर के रूप में llama.cpp की सिफारिश की गई
वॉइस इनपुट (STT)
- Wyoming ONNX ASR (Nvidia Parakeet V2, OpenVINO branch): CPU inference time लगभग 0.3 सेकंड
- Rhasspy Faster Whisper: ONNX CPU-आधारित, अपेक्षाकृत धीमा
वॉइस आउटपुट (TTS)
- Kokoro TTS: कई voice combinations संभव, टेक्स्ट प्रोसेसिंग उत्कृष्ट
- Piper (CPU): कई तरह की आवाज़ों का समर्थन, लेकिन numbers और addresses की प्रोसेसिंग में कमज़ोर
Home Assistant LLM integration
- LLM Conversation: डिफ़ॉल्ट बातचीत की गुणवत्ता में सुधार
- LLM Intents: web search, place search, weather forecast जैसे tools प्रदान करता है

Google Assistant से लोकल असिस्टेंट की ओर बदलाव

Google Assistant की response accuracy और functionality लगातार घटने से विकल्प की ज़रूरत महसूस हुई
प्राइवेसी चिंताएँ और क्लाउड आउटेज के समय कंट्रोल न कर पाने की समस्या भी बदलाव के बड़े कारण थे

शुरुआती प्रयास और मॉडल सुधार

शुरुआत में Ollama के डिफ़ॉल्ट मॉडल इस्तेमाल किए गए, लेकिन tool calling में बार-बार विफलता हुई
HuggingFace के GGUF high-precision मॉडल इस्तेमाल करने पर प्रदर्शन में बड़ा सुधार आया
Wi-Fi अस्थिरता के कारण वॉइस आउटपुट को बिना कटे चलाने के लिए streaming settings और dedicated IoT network कॉन्फ़िगर किया गया

फीचर विस्तार और LLM प्रॉम्प्ट डिज़ाइन

वॉइस असिस्टेंट को मौसम, opening hours, सामान्य ज्ञान, music playback जैसे काम करने के लिए कॉन्फ़िगर किया गया
llm-intents integration से फीचर्स बढ़े, लेकिन शुरुआती परिणाम सीमित रहे
प्रॉम्प्ट डिज़ाइन एक अहम तत्व साबित हुआ
- हर service के लिए # sections और specific instruction lists जोड़कर LLM की tool calling accuracy बेहतर की गई
- गैर-ज़रूरी exclamations और emojis हटाकर TTS-friendly response format तैयार किया गया
- ChatGPT का उपयोग करके प्रॉम्प्ट को बार-बार बेहतर बनाया गया

ऑटोमेशन से समस्या का समाधान

music playback फीचर LLM सीधे नहीं कर पा रहा था, इसलिए Home Assistant automation scripts से इसे पूरक बनाया गया
- “Play {music}” कमांड को trigger बनाकर अनुरोध करने वाले satellite device के अनुरूप media_player में संगीत चलाया गया
- “Stop playing” कमांड से प्लेबैक रोका जा सकता है
बाद के अपडेट्स में LLM ने स्वाभाविक रूप से music search और playback करना शुरू कर दिया, फिर भी automation अब भी उपयोगी तरीका है

कस्टम wake word ट्रेनिंग

डिफ़ॉल्ट wake word की जगह “Hey Robot” का उपयोग किया गया
microWakeWord-Trainer-Nvidia-Docker से लगभग 30 मिनट तक ट्रेनिंग की गई
false positive rate Google Home के स्तर का था, और auto mute feature से इसे और बेहतर किया जा सकता है

अंतिम परिणाम

औसत उपयोगकर्ता के लिए यह कुछ जटिल हो सकता है, लेकिन सूक्ष्म स्तर पर ट्यून किया जा सकने वाला लोकल वॉइस असिस्टेंट वातावरण तैयार हो गया
प्राइवेसी सुरक्षा, स्थिर कंट्रोल, और यूज़र-विशिष्ट प्रदर्शन ट्यूनिंग संभव है
पूरी तरह क्लाउड-स्वतंत्र वॉइस असिस्टेंट के रूप में विश्वसनीयता और आनंद दोनों हासिल किए गए

विश्वसनीय और आनंददायक लोकल-होस्टेड वॉइस असिस्टेंट बनाने की यात्रा (2025)

हार्डवेयर कॉन्फ़िगरेशन

मॉडल और प्रदर्शन

वॉइस सर्वर सॉफ़्टवेयर

Google Assistant से लोकल असिस्टेंट की ओर बदलाव

शुरुआती प्रयास और मॉडल सुधार

फीचर विस्तार और LLM प्रॉम्प्ट डिज़ाइन

ऑटोमेशन से समस्या का समाधान

कस्टम wake word ट्रेनिंग

अंतिम परिणाम

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.