• Google Home से हटकर Home Assistant-आधारित पूरी तरह लोकल वॉइस असिस्टेंट बनाने की प्रक्रिया को चरण-दर-चरण संक्षेप में प्रस्तुत किया गया है
  • llama.cpp और local-first कॉन्फ़िगरेशन का उपयोग करके क्लाउड पर निर्भर हुए बिना तेज़ प्रतिक्रिया और प्राइवेसी हासिल की गई
  • अलग-अलग GPU·मॉडल·STT·TTS संयोजनों का परीक्षण करते हुए प्रदर्शन और गुणवत्ता की तुलना की गई, और सर्वोत्तम कॉन्फ़िगरेशन निकाला गया
  • प्रॉम्प्ट डिज़ाइन और ऑटोमेशन स्क्रिप्ट्स के ज़रिए मौसम, सर्च, म्यूज़िक प्लेबैक जैसी वास्तविक जीवन की सुविधाएँ लागू की गईं
  • नतीजे में प्राइवेसी सुनिश्चित करने वाला और उच्च विश्वसनीयता वाला लोकल वॉइस असिस्टेंट वातावरण तैयार हुआ

हार्डवेयर कॉन्फ़िगरेशन

  • Home Assistant UnRaid NAS पर चलता है, और वॉइस सर्वर के लिए USB4-सपोर्टेड Beelink MiniPC और eGPU enclosure का उपयोग किया गया
    • GPU के रूप में RTX 3050~3090, RX 7900XTX सहित कई मॉडल टेस्ट किए गए
    • RTX 3090 और RX 7900XTX में 1~2 सेकंड प्रतिक्रिया, RTX 3050 में लगभग 3 सेकंड प्रतिक्रिया मिली
  • वॉइस हार्डवेयर में HA Voice Preview Satellite, Satellite1 Small Squircle Enclosure 2 यूनिट, और Pixel 7a शामिल हैं

मॉडल और प्रदर्शन

  • GGML GPT-OSS:20B, Unsloth Qwen3 series, GLM 4.7 Flash (30B) सहित कई मॉडल टेस्ट किए गए
  • सभी मॉडलों ने बुनियादी tool calling फीचर को सपोर्ट किया
  • मूल्यांकन मानदंडों में मल्टी-डिवाइस कंट्रोल, कॉन्टेक्स्ट समझ, गलत पहचाने गए कमांड्स की हैंडलिंग, गलत इनपुट को नज़रअंदाज़ करने की क्षमता शामिल थी

वॉइस सर्वर सॉफ़्टवेयर

  • मॉडल रनर के रूप में llama.cpp की सिफारिश की गई
  • वॉइस इनपुट (STT)
    • Wyoming ONNX ASR (Nvidia Parakeet V2, OpenVINO branch): CPU inference time लगभग 0.3 सेकंड
    • Rhasspy Faster Whisper: ONNX CPU-आधारित, अपेक्षाकृत धीमा
  • वॉइस आउटपुट (TTS)
    • Kokoro TTS: कई voice combinations संभव, टेक्स्ट प्रोसेसिंग उत्कृष्ट
    • Piper (CPU): कई तरह की आवाज़ों का समर्थन, लेकिन numbers और addresses की प्रोसेसिंग में कमज़ोर
  • Home Assistant LLM integration
    • LLM Conversation: डिफ़ॉल्ट बातचीत की गुणवत्ता में सुधार
    • LLM Intents: web search, place search, weather forecast जैसे tools प्रदान करता है

Google Assistant से लोकल असिस्टेंट की ओर बदलाव

  • Google Assistant की response accuracy और functionality लगातार घटने से विकल्प की ज़रूरत महसूस हुई
  • प्राइवेसी चिंताएँ और क्लाउड आउटेज के समय कंट्रोल न कर पाने की समस्या भी बदलाव के बड़े कारण थे

शुरुआती प्रयास और मॉडल सुधार

  • शुरुआत में Ollama के डिफ़ॉल्ट मॉडल इस्तेमाल किए गए, लेकिन tool calling में बार-बार विफलता हुई
  • HuggingFace के GGUF high-precision मॉडल इस्तेमाल करने पर प्रदर्शन में बड़ा सुधार आया
  • Wi-Fi अस्थिरता के कारण वॉइस आउटपुट को बिना कटे चलाने के लिए streaming settings और dedicated IoT network कॉन्फ़िगर किया गया

फीचर विस्तार और LLM प्रॉम्प्ट डिज़ाइन

  • वॉइस असिस्टेंट को मौसम, opening hours, सामान्य ज्ञान, music playback जैसे काम करने के लिए कॉन्फ़िगर किया गया
  • llm-intents integration से फीचर्स बढ़े, लेकिन शुरुआती परिणाम सीमित रहे
  • प्रॉम्प्ट डिज़ाइन एक अहम तत्व साबित हुआ
    • हर service के लिए # sections और specific instruction lists जोड़कर LLM की tool calling accuracy बेहतर की गई
    • गैर-ज़रूरी exclamations और emojis हटाकर TTS-friendly response format तैयार किया गया
    • ChatGPT का उपयोग करके प्रॉम्प्ट को बार-बार बेहतर बनाया गया

ऑटोमेशन से समस्या का समाधान

  • music playback फीचर LLM सीधे नहीं कर पा रहा था, इसलिए Home Assistant automation scripts से इसे पूरक बनाया गया
    • “Play {music}” कमांड को trigger बनाकर अनुरोध करने वाले satellite device के अनुरूप media_player में संगीत चलाया गया
    • “Stop playing” कमांड से प्लेबैक रोका जा सकता है
  • बाद के अपडेट्स में LLM ने स्वाभाविक रूप से music search और playback करना शुरू कर दिया, फिर भी automation अब भी उपयोगी तरीका है

कस्टम wake word ट्रेनिंग

  • डिफ़ॉल्ट wake word की जगह “Hey Robot” का उपयोग किया गया
  • microWakeWord-Trainer-Nvidia-Docker से लगभग 30 मिनट तक ट्रेनिंग की गई
  • false positive rate Google Home के स्तर का था, और auto mute feature से इसे और बेहतर किया जा सकता है

अंतिम परिणाम

  • औसत उपयोगकर्ता के लिए यह कुछ जटिल हो सकता है, लेकिन सूक्ष्म स्तर पर ट्यून किया जा सकने वाला लोकल वॉइस असिस्टेंट वातावरण तैयार हो गया
  • प्राइवेसी सुरक्षा, स्थिर कंट्रोल, और यूज़र-विशिष्ट प्रदर्शन ट्यूनिंग संभव है
  • पूरी तरह क्लाउड-स्वतंत्र वॉइस असिस्टेंट के रूप में विश्वसनीयता और आनंद दोनों हासिल किए गए

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.