क्लाउड के बिना, लोकल और on-device पर अपना खुद का Siri बनाना

(thehyperplane.substack.com)

24 पॉइंट द्वारा GN⁺ 2025-05-14 | 2 टिप्पणियां | WhatsApp पर शेयर करें

LLM API और क्लाउड पर निर्भर हुए बिना, on-device चलने वाला personal voice assistant खुद बनाने का तरीका
यह assistant natural language को समझता है, personal function calling करता है, और सिर्फ लोकल पर काम करता है, इसलिए पूरी privacy की गारंटी संभव है
इसके लिए LLaMA 3.1 मॉडल को LoRA तरीके से fine-tune किया जाता है, Whisper की मदद से speech को text में बदला जाता है, फिर उसे command के रूप में समझकर device पर सीधे चलाया जाता है
प्रोजेक्ट dataset generation → fine-tuning → voice interface integration → testing और deployment से बना है, और इसे कवर करने वाली 5-भाग की free mini course के रूप में उपलब्ध है
“on-device execution = simple” जैसी गलतफहमी से सावधान रहने और इस बात पर ज़ोर कि लोकल में भी MLOps सोच और सख्त quality control ज़रूरी है

अभी लोकल voice assistant क्यों बनाना चाहिए?

ChatGPT से बातचीत उपयोगी है, लेकिन क्या साधारण commands भी क्लाउड पर भेजनी चाहिए?
अगर मॉडल सीधे मेरे device पर installed हो, तो speed, privacy, और control तीनों हासिल किए जा सकते हैं
खासकर medical, legal, internal tools जैसे sensitive environments में यह उपयोगी है

पूरे architecture का overview

प्रोजेक्ट के components

speech recognition (Whisper) → text में conversion
LLM (LLaMA 3.1) → command interpretation
function executor → lock_screen() जैसी असली functionality को execute करना

Part 1: architecture और MLOps mindset

लोकल में भी MLOps क्यों ज़रूरी है

model drift, prompt changes, dataset reliability, debugging logging की कमी जैसी समस्याएँ मौजूद हैं
“सिर्फ लोकल ही काफ़ी है” जैसी सोच जोखिम भरी है, और इसके लिए systematic approach चाहिए

online development vs offline execution

development (fine-tuning, data generation) क्लाउड में किया जाता है, execution लोकल में चलता है
इस process को स्पष्ट रूप से अलग करके व्यवस्थित ढंग से manage करना ही MLOps का core है

dataset generation (Dataset Generation Flow)

सिर्फ prompts इकट्ठा करना नहीं, बल्कि structured function-calling patterns और conversational request structure की design
विविध expressions, intents, और failure cases को कवर करने वाला high-quality dataset बनाना

मुख्य बिंदु

lock_screen() → “स्क्रीन लॉक कर दो” जैसे कई natural language expressions शामिल
automated validation engine के ज़रिए यह जाँचना कि output इच्छित format में है या नहीं

fine-tuning (Instruction Tuning for Function Calling)

सटीक command mapping के लिए small model का fine-tuning (SFT method)
Unsloth, W&B, GGUF format export जैसे practical tools का उपयोग

लक्ष्य

LLaMA 3.1 8B को लोकल में चल सकने वाले 4bit मॉडल में बदलना
Raspberry Pi तक target किए जा सकने वाली lightweight optimization का लक्ष्य

मॉडल integration और वास्तविक execution

Whisper से voice input को text में बदलना
fine-tuned LLM command को समझता है
लोकल API function executor (lock_screen(), get_battery_status() आदि) से जोड़ना

परिणाम

real-time voice assistant चलाना संभव
network की ज़रूरत नहीं, personal data leak नहीं, पूरी user control संभव

offline stage में risk management

अलग-अलग devices और OS पर testing ज़रूरी
logging system बनाना अनिवार्य (opt-in के रूप में manual submission)
औपचारिक deployment से पहले stress testing और user feedback से समस्याएँ जल्दी पकड़ना

आगे की योजना

अगली course में function calling के लिए dataset generation का hands-on अभ्यास किया जाएगा
natural language command → API call mapping सीखने वाला dedicated dataset संरचित रूप से बनाया जाएगा
scraping निषिद्ध, सिर्फ prompt-based simulation और automated validation data का उपयोग

निष्कर्ष

लोकल AI systems सरल लग सकते हैं, लेकिन stability और quality के लिए और ऊँचे स्तर के management की ज़रूरत होती है
क्लाउड logs और hotfixes पर निर्भर न रहने की वजह से, अधिक reliability और responsibility की आवश्यकता होती है
इसके लिए MLOps mindset और structured design को शुरुआत से लागू करना चाहिए

> “privacy-first, local-first असली AI assistant बनाने का समय आ गया है”
> अगले भाग में वास्तविक command-function mapping dataset generation का hands-on अभ्यास शुरू होगा।

2 टिप्पणियां

asheswook 2025-05-15

3.1 गैर-अंग्रेज़ी उपयोगकर्ताओं के लिए इस्तेमाल करना मुश्किल है, और अगर 3.3 या 4 हो तो शायद कोरियाई भी संभव हो, लेकिन अगर इसे on-device चलाना है तो गैर-अंग्रेज़ी के लिए कम से कम 32b से ऊपर जाना पड़ेगा तभी उसका मतलब होगा, यह देखते हुए अभी यह मुश्किल लगता है...

GN⁺ 2025-05-14

Hacker News राय

यह आइडिया इतना पसंद आया कि मैं खुद इसे बनाकर देखना चाहता हूँ, लेकिन whisper के छोटे models को local में चलाने का मेरा अनुभव उम्मीद से कमज़ोर रहा, सोच रहा हूँ क्या किसी को इस तरह के use case के लिए काफ़ी अच्छे नतीजे मिले हैं, हो सकता है मेरा mic अच्छा न रहा हो
- mic की स्थिति ज़रूर फिर से जाँचनी चाहिए, हमारी कंपनी में हम Whisper का इस्तेमाल पूरी meetings को real-time में transcribe और translate करने के लिए कर रहे हैं और इसका performance बहुत शानदार है
- जानना चाहूँगा कि आप कौन-सा model इस्तेमाल कर रहे हैं, मैं आम तौर पर GPU पर large model चलाता हूँ, यह तेज़ भी है और सच में बहुत अच्छा काम करता है, लेकिन ध्यान रहे कि यह एक समय में सिर्फ़ एक भाषा पहचान सकता है, अगर भाषा तय न करें तो auto-detect पर चलता है, छोटे models में उतनी क्षमता नहीं होती और कई बार वे मुख्य रूप से सिर्फ़ English के लिए ही होते हैं, मेरे लिए large सबसे अच्छा performance देता है, लेकिन वास्तव में उपयोगी speed पाने के लिए GPU hardware ज़रूरी है, faster-whisper या insanely-fast-whisper के साथ भी यही बात लागू होती है
अगर यह कोई ऐसा product या app होता जिसे बस install करके इस्तेमाल किया जा सकता, तो सच में बहुत अच्छा होता, मैं UI के ज़रिए आसानी से इसे configure और train करना चाहता हूँ, फिर भी इस guide की वजह से लगता है कि मैं अपनी मनचाही चीज़ बना सकूँगा, इसके लिए सच में बहुत आभारी हूँ
यह सच में शानदार सामग्री है, बस धन्यवाद कहना चाहता हूँ, अभी तक मैंने सब follow नहीं किया है, लेकिन जानना चाहता हूँ कि क्या यह model iPhone पर वास्तव में अच्छी तरह चलता है, हमारे घर में 9 साल के बच्चे ने ollama के साथ Qwen 0.6B model ठीक से चलाया, लेकिन बाकी models इतने धीमे थे कि user experience उपयोगी नहीं लगा
- ओह, मतलब 9 साल पुराने फ़ोन की बात थी, मैं तो चौंक गया था कि कोई प्राथमिक स्कूल का बच्चा खुद model deploy कर रहा है, उस उम्र में तो मैं अभी पहाड़े ही सीख रहा था
- MLC के materials के मुताबिक 8B आकार तक के models भी iOS पर चल सकते हैं, लेकिन 1-3B अधिक व्यावहारिक लगते हैं, संदर्भ के लिए: https://llm.mlc.ai/docs/deploy/ios.html#bring-your-own-model
यह LLM द्वारा लिखा हुआ क्यों होना चाहिए? यही सवाल है
- इस तरह की summary style, यानी बहुत ज़्यादा formatting और (!) हर paragraph का bullet list में होना, काफ़ी उलझन पैदा करता है, ख़ासकर लंबे लेखों में स्क्रीन बिखरी हुई और सपाट लगती है, जिससे readability कम होती है
हाल ही में (हो सकता है मैंने announcement मिस कर दी हो) मैंने देखा कि Siri कम-से-कम कुछ commands के लिए local में काम कर रही है, उदाहरण के लिए Apple Watch को airplane mode में रखकर timer या reminder माँगकर देखिए
- Siri में कम-से-कम iOS 15 से सीमित offline functionality रही है, लेकिन ज़्यादातर users को यह बात पता नहीं चली, क्योंकि Siri की अधिकतर commands को network connection चाहिए होता है
समझ नहीं आता कि Apple ने data का analysis करके लगभग top 1000 use cases के लिए hardcoded handlers क्यों नहीं बनाए
- दरअसल वे यह काम पहले से कर रहे हैं, लेकिन रफ़्तार बहुत धीमी है, वे brightness और power से जुड़े features जोड़ते तो हैं, लेकिन यह ठीक से नहीं बताते कि offline क्या इस्तेमाल किया जा सकता है, इसे जानने के लिए user को airplane mode on करके खुद अलग-अलग चीज़ें आज़मानी पड़ती हैं, user experience बहुत खराब है
बढ़िया project और अच्छी प्रस्तुति
समझ नहीं आता कि क्या Apple Siri को किसी दूसरे assistant से replace करने की अनुमति देता है, Android पर Google के अलावा दूसरे assistants को लंबे समय तक background listening, hard keys, gestures, और shortcuts के इस्तेमाल में पाबंदियों का सामना करना पड़ा है, पक्का नहीं कि Google Assistant अब भी विशेषाधिकार बनाए हुए है या नहीं, लेकिन अगर है भी तो इसमें हैरानी नहीं होगी
- समस्या का एक हिस्सा अलग coprocessor (AOP) में है जो “hey siri” wake word को संभालता है, model भी firmware में compile किया हुआ होता है, तकनीकी रूप से यह असंभव नहीं है, लेकिन सिर्फ़ Google app को background में चलने देना काफ़ी नहीं होगा, क्योंकि gestures तब होते हैं जब AP सो रहा होता है, side के action button वगैरह से assistant app को चलाया जा सकता है, लेकिन अनुभव संतोषजनक नहीं होगा (जैसे app खुला न हो), अधिक जानकारी के लिए यह लिंक देखें: https://machinelearning.apple.com/research/hey-siri
- नए जोड़े गए action button का इस्तेमाल करके custom shortcut के ज़रिए किसी वैकल्पिक assistant app को खोलना काफ़ी आसान है
- Perplexity भी इसी तरह काम करता है
डेढ़ साल से मैं iPhone पर chatGPT को लगातार इस्तेमाल कर रहा हूँ, Siri की झुंझलाहट इतनी ज़्यादा है कि उससे चिढ़ बढ़ती जा रही है, सोचता हूँ OpenAI Microsoft की मदद से iPhone को टक्कर देने वाला GPT phone आखिर कब निकालेगा, मैं इस उबाऊ iPhone से थक चुका हूँ, मुझे ऐसा GPT phone चाहिए जो lock screen से ही सब कुछ संभाल ले, उसके आने का बेसब्री से इंतज़ार है, उम्मीद है कि यह शायद गुप्त रूप से विकास में होगा