- M4 MacBook Pro 24GB पर भी बुनियादी काम, रिसर्च और प्लानिंग के लिए लोकल मॉडल सेटअप संभव है
- Qwen 3.5-9B Q4 लगभग 40 टोकन/सेकंड, thinking mode, tool use, और 128K context को पूरा करता है
- यह top-tier models की तरह जटिल समस्याओं को लंबे समय तक अपने दम पर हल नहीं कर पाता, इसलिए step-by-step निर्देश ज़रूरी हैं
- इसने Elixir Credo warnings ठीक कर दीं, लेकिन rebase conflict को file edit किए बिना सुलझाने में असफल रहा
- लोकल मॉडल का फायदा offline उपयोग और बिना subscription के होना है, लेकिन performance और setup में बड़े trade-offs हैं
लोकल मॉडल चलाने का वातावरण और चयन मानदंड
- M4 MacBook Pro 24GB मेमोरी वाले वातावरण में लोकल मॉडल चलाने की सेटिंग्स का प्रयोग किया गया, और भले ही आउटपुट top-tier models (SOTA) जैसा नहीं था, फिर भी ऐसा सेटअप संभव था जो इंटरनेट कनेक्शन के बिना बुनियादी काम, रिसर्च और प्लानिंग संभाल सके
- लोकल रनिंग टूल्स में Ollama, llama.cpp, और LM Studio शामिल हैं, और हर एक की अपनी सीमाएँ और उपलब्ध मॉडल अलग हैं
- मॉडल चुनते समय यह ज़रूरी था कि वह मेमोरी में फिट हो और साथ में सामान्य Electron apps चलाने लायक जगह भी छोड़े, साथ ही कम से कम 64K और आदर्श रूप से 128K या उससे बड़ी context window हो
- हाल में आज़माए गए Qwen 3.6 Q3, GPT-OSS 20B, और Devstral Small 24B मेमोरी में तो फिट हुए, लेकिन व्यावहारिक उपयोग कठिन था, जबकि Gemma 4B अच्छी तरह चला पर tool use में दिक्कत दिखी
- सेटिंग विकल्प temperature जैसे जाने-पहचाने मानों से लेकर K Cache Quantization Type जैसे विशेष विकल्पों तक फैले हुए हैं, और thinking को सक्षम किया गया है या नहीं, इसके अनुसार उपयुक्त मान बदल सकते हैं
Qwen 3.5-9B 4-बिट quantization कॉन्फ़िगरेशन
- qwen3.5-9b@q4_k_s LM Studio में चलाने पर लगभग 40 टोकन/सेकंड, thinking enabled, सफल tool use, और 128K context window—इन सभी शर्तों को एक साथ पूरा करने वाला सबसे अच्छा मॉडल था
- यह top-tier models की तुलना में जल्दी भटक जाता है, कभी-कभी loop में फँसता है, और कुछ अनुरोधों को गलत समझता है, लेकिन 24GB MacBook Pro पर दूसरे कामों के लिए workspace छोड़े रखते हुए चलने वाले मॉडल के रूप में यह काफ़ी अच्छा था
- thinking mode और coding काम के लिए सुझाई गई सेटिंग्स इस प्रकार थीं
temperature=0.6, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0
- thinking सक्षम करने के लिए LM Studio में मॉडल चुनने के बाद configuration में जाएँ, और Inference टैब के नीचे Prompt Template में यह मान जोड़ें
{%- set enable_thinking = true %}
- इस मॉडल का उपयोग pi और OpenCode दोनों में किया गया; pi ज़्यादा तेज़-तर्रार लगा, लेकिन अपना harness सीधे बनाकर customize कर पाने के फायदे के बावजूद उसमें उचित default values की कमी थी
- pi की सेटिंग्स ठीक करने में वास्तविक प्रोजेक्ट से ज़्यादा समय लग सकता था
pi सेटिंग
~/.pi/agent/models.json में LM Studio के OpenAI-compatible endpoint और qwen3.5-9b@q4_k_s मॉडल को रजिस्टर किया गया
{
"providers": {
"lmstudio": {
"baseUrl": "http://localhost:1234/v1",
"api": "openai-completions",
"apiKey": "lm-studio",
"models": [
{
"id": "qwen3.5-9b@q4_k_s",
"reasoning": true,
"compat": { "thinkingFormat": "qwen-chat-template" }
}
]
}
}
}
- बिखरे हुए thinking blocks छिपाने के लिए
~/.pi/agent/settings.json में "hideThinkingBlock": true जोड़ा गया
OpenCode सेटिंग
~/.config/opencode/opencode.json में LM Studio को लोकल OpenAI-compatible provider के रूप में रजिस्टर किया गया, और tool use, 131072 context length, तथा 32768 max tokens सेट किए गए
{
"$schema": "https://opencode.ai/config.json",
"provider": {
"lmstudio": {
"npm": "@ai-sdk/openai-compatible",
"name": "LM Studio (local)",
"options": {
"baseURL": "http://127.0.0.1:1234/v1"
},
"models": {
"qwen3.5-9b@q4_k_s": {
"name": "Qwen 3.5 9B Q4_K_S",
"tools": true,
"context_length": 131072,
"max_tokens": 32768
}
}
}
},
"model": "lmstudio/qwen3.5-9b@q4_k_s"
}
top-tier models से अंतर
- Qwen 3.5 9B Q4 जैसे मॉडल top-tier models की तरह लंबे समय तक जटिल समस्याओं को स्वतंत्र रूप से हल करने के स्तर तक नहीं पहुँचे
- पूरे app को एक ही बार में बनाकर देने वाला अनुरोध इनके लिए उपयुक्त नहीं था, और संभव है कि नतीजे के बिना सिर्फ़ laptop गर्म हो जाए
- इससे बेहतर तरीका step-by-step, स्पष्ट संचार और भरपूर निर्देशों वाला interactive workflow था
- लोकल मॉडल का उपयोग करते समय यूज़र को ज़्यादा सोच-विचार और योजना खुद करनी पड़ती है और अधिक विशिष्ट निर्देश देने होते हैं, लेकिन यह रिसर्च assistant, rubber duck, और programming language की बारीकियाँ या command-line calls तुरंत याद दिलाने वाले सहायक के रूप में उपयोगी था
- बड़ी AI कंपनियों द्वारा प्रचारित 10x productivity जैसी बात नहीं है, लेकिन यह सार्थक मदद और दिलचस्प उपयोग अनुभव देता है
जो काम चले और जो असफल रहे
-
Elixir Credo warnings ठीक करना
- Elixir linter
credo को नवीनतम version पर अपडेट करने के बाद कोड में warnings आने लगीं, और Qwen से mix credo --strict चलाकर समाधान सुझाने को कहा गया, लेकिन edit न करने के लिए कहा गया
- Qwen ने test files में 4 जगहों पर list खाली नहीं है यह जाँचने के लिए
length/1 के उपयोग की समस्या पकड़ी, और length(list) > 0 की जगह list != [] इस्तेमाल करने का सुझाव दिया
- बाद में edit करने को कहने पर Qwen ने 4 parallel edits साफ़-सुथरे ढंग से कर दिए
- यह काम ऐसा साधारण काम था जिसे terminal और editor के बीच जाकर हाथ से भी किया जा सकता था, लेकिन इसने सुविधाजनक सहायक की भूमिका निभाई
-
Dependabot PR के rebase conflict को संभालना
- dependency update के बाद Dependabot PR में git conflict था, और Dependabot ने rebase करने से मना कर दिया, इसलिए उसे manually fetch करके rebase किया गया और फिर Qwen से जाँचने को कहा गया
- conflict साधारण प्रकार का था जहाँ हर dependency के लिए नया version चुनना था, और Qwen ने
sentry के लिए 13.0.1 तथा tailwind के लिए 0.4.1 बनाए रखने की सलाह दी
- लेकिन जब वास्तविक बदलाव करने को कहा गया, तो Qwen ने files बदले बिना conflict markers छोड़े हुए ही
git add mix.lock && git rebase --continue चलाने की कोशिश की
- यह
git rebase --continue के editor खोलने वाले व्यवहार को भी नहीं समझ पाया, OpenCode रुक गया, हालाँकि संभव है कि यह एक बार की समस्या रही हो
लोकल मॉडल के फायदे और सीमाएँ
- लोकल मॉडल में बड़े trade-offs हैं, लेकिन इनका फायदा यह है कि इंटरनेट कनेक्शन के बिना, यहाँ तक कि विमान में भी काम किया जा सकता है
- अगर मान लिया जाए कि कंप्यूटर तो वैसे भी खरीदा जाना था, तो लागत मूलतः सिर्फ़ बिजली की खपत तक सीमित रहती है, और किसी subscription की ज़रूरत नहीं होती
- मॉडल training में अब भी बड़ा पर्यावरणीय खर्च है, लेकिन open models बनाने वाली कंपनियाँ पर्यावरणीय प्रभाव की सबसे ऊँची श्रेणी में नहीं आतीं, और निजी हार्डवेयर इस्तेमाल करने पर datacenter पर निर्भरता कम होती है
- खुद tuning और experimentation करने में मज़ा है
- LLM पहले ही बड़ा प्रभाव डाल चुके हैं और इनके नकारात्मक पहलू भी काफ़ी हैं, लेकिन यह तकनीक आगे भी बनी रहने वाली लगती है, और लोकल मॉडल पर प्रयोग करना इस तकनीक के साथ ज़्यादा टिकाऊ और सकारात्मक तरीके से जुड़ने जैसा लगा
1 टिप्पणियां
Hacker News की राय
लोकल में LLM चलाना मज़ेदार और शक्तिशाली है, लेकिन असल में काम पूरा करना काफ़ी झंझटभरा होता है
आपको पहले से योजना बनानी, स्पेसिफिकेशन बनानी और तैयारी करनी पड़ती है, जबकि OpenAI या Claude के बड़े मॉडल अक्सर कुछ ही वाक्य देकर तुरंत समझ जाते हैं
अगर आप पहले से बड़े मॉडल के साथ गंभीर काम कर रहे हैं, तो बस वही इस्तेमाल करते रहिए
लेकिन vision/OCR काम अलग मामला है। छोटे और मध्यम open weight मॉडल भी आधुनिक स्तर के काफ़ी करीब हैं, और बड़े batch कामों में prefill token cost काफ़ी खलती है
और लोग अक्सर भूल जाते हैं कि छोटे LLM को भी अगर स्थिर निजी सेवा की तरह इस्तेमाल करना है, तो 16~24GB RAM/VRAM अलग से खाली रखकर उसे लगातार चलाना पड़ता है
असली समस्या आख़िरकार पैसे की ही है
मुझे लगता है कि अब यह लगभग उपयोगी स्तर तक पहुँच गया है
Gemma 4 31B लोकल मॉडल के लिए एक नई baseline जैसा लगता है। frontier model से तो स्वाभाविक रूप से कमज़ोर है, लेकिन अब तक चलाए गए लोकल मॉडल, GPT OSS 120B या Nemotron Super 120B की तुलना में यह कम वैज्ञानिक प्रयोग जैसा लगता है
M5 Max 128GB RAM पर 256K पूरा context window इस्तेमाल करने पर RAM उपयोग लगभग 70GB तक चला जाता है, और system overhead लगभग 14GB दिखता है
64GB Panther Lake में फुल Arc B390 लगा हुआ सिस्टम या 48GB Snapdragon X2 Elite मशीन पर यह 128K~256K context window के साथ चल सकता है, और 32GB में शायद 32K context window के साथ किसी तरह संभव हो
पिछले साल तक इस तरह की performance को mainstream के क़रीब किसी high-end configuration पर देखना बेकार सपना लगता था
आख़िरकार असली पैमाना यह है: “आप इस मॉडल को भरोसे से क्या सौंप सकते हैं?” Opus ज़्यादा चीज़ें जानता है और ज़्यादा जटिल काम भी कर सकता है, लेकिन अगर आप context अच्छी तरह दें, तो Gemma हैरान करने जितना अच्छा है
इन दोनों मॉडलों को सौंपे जा सकने वाले कामों के दायरे में फ़र्क उम्मीद से कम है। इसने निजी टूल्स और कई प्रोजेक्ट्स में हाल में बहुत अच्छे नतीजे दिए हैं, और यह पहला लोकल मॉडल है जिस पर मैं किसी गैर-तुच्छ प्रोजेक्ट में agent mode में feature implementation भरोसे से छोड़ सका
https://thot-experiment.github.io/gradient-gemma4-31b/
यह अपेक्षाकृत जटिल टूल है जिसे OpenCode के अंदर Gemma 4 ने लगभग पूरा बनाया, और कई घंटों में सिर्फ़ लगभग 4 बार manual intervention की ज़रूरत पड़ी
Q6_K_XL, 128K context @ q8 पर read लगभग 800tok/s, write लगभग 16tok/s
llama.cpp के turboquant और MTP का इंतज़ार है; अगर अफ़वाहें सही हैं, तो शायद 256K और 25~30tok/s तक पहुँचा जा सके
रिलीज़ के तुरंत बाद benchmark performance प्रभावशाली लगी थी, इसलिए मैंने इस पर एक लेख भी लिखा था [0]। लेकिन लंबे context वाले agent coding environment में चलाने के बाद ranking में इसकी जगह बाद में थोड़ी नीचे आई
[0] https://gertlabs.com/blog/gemma-4-economics
workflow यह है कि planning नए मॉडल से कराते हैं और execution छोटे मॉडल से। अगर planning ठीक से हो और छोटे मॉडल के लिए समझने की कोई ambiguity न छोड़ी जाए, तो यह अच्छी तरह काम करता है
काश मैंने यह पोस्ट उस नतीजे पर पहुँचने से पहले देख ली होती, जिस पर मैं पूरे वीकेंड के बाद पहुँचा
मैंने उसी laptop पर एक बनावटी टेस्ट किया, जिसमें एक छोटे vibe-coding C++ repository में लगभग 50 lint errors ठीक करवाने थे। उम्मीद थी कि यह बहुत सारे छोटे काम निपटा देगा और बहुत ज़्यादा बार अटकेगा नहीं
GPT OSS 20B इस्तेमाल करने लायक था, लेकिन धीमा था, बेकार के वाक्य जोड़ता या दोहराता था, और अक्सर यह गलती करता था कि बिना code बदले भी दावा कर देता था कि उसने ठीक कर दिया
Opencode के साथ इस्तेमाल किया गया Qwen 3.5 9B काफ़ी तेज़ था, compression के दौरान भी ज़्यादातर lint warnings बिना अटके संभाल गया, और सभी warnings को सही fixes के साथ ठीक किया
मैंने Qwen 3.5 9B की 4-bit MLX quantization भी आज़माई, लेकिन आख़िरकार memory shortage से crash हो गया, और GGUF पर llama.cpp से चलाने पर बिना crash के चला
frontier model से इसकी बिल्कुल तुलना नहीं की जा सकती। यह बहुत धीमा है, बुनियादी जानकारी भी ग़लत देता है, और किसी गैर-तुच्छ काम को एक बार में संभाल नहीं पाता
जब मैंने इसे project architecture का सार बताने को कहा, तो इसने दावा किया कि repository में ऐसी libraries इस्तेमाल हो रही हैं जो वहाँ हैं ही नहीं। यह हर व्यक्ति के लिए अलग हो सकता है, लेकिन फिर भी इसमें कुछ उपयोगिता है, और उम्मीद है कि समय के साथ उचित hardware पर लोकल LLM वातावरण बहुत बेहतर होगा
लोकल LLM शानदार हैं, लेकिन इन पर बहुत कुछ पढ़ने के बाद ऐसा लग सकता है कि ये Opus 4.7 के काफ़ी क़रीब पहुँच गए हैं
HN पर लोकल LLM की क्षमता को बहुत बढ़ा-चढ़ाकर बताने वाला बहुत छोटा, बहुत शोर मचाने वाला और बहुत उत्साही समूह है
समान आकार के मॉडलों में यह उन सबसे तेज़ मॉडलों में था जिन्हें मैंने local GPU पर चलाया है, हालाँकि मैंने सिर्फ़ Nvidia cards पर परीक्षण किया था
बाद में देखा कि यह MoE है और इसके active parameters सिर्फ़ 3.6B हैं, जिससे बहुत कुछ समझ आता है
लोकल मॉडल, खासकर लेखक द्वारा इस्तेमाल किए जा रहे 9B जैसे छोटे मॉडल, असल में क्या कर सकते हैं, इसे यथार्थवादी नज़र से देखना उपयोगी है
9B मॉडल लगभग Sonnet 3.6 स्तर के हैं, इसलिए autocomplete और छोटे functions तो कर लेते हैं, लेकिन बड़े मसले को समझने लगते ही धागा खो देते हैं
फिर भी यह दिलचस्प है और इनके साथ खेलना मज़ेदार है। मैं मुख्यतः मज़े के लिए लोकल agent harness जैसी चीज़ें काफ़ी बनाता रहता हूँ
मौजूदा प्रोजेक्ट एक no-install agent है: https://gemma-agent-explainer.nicklothian.com/
Python, SQL, React — सब कुछ browser के अंदर पूरी तरह चलता है। सबसे अच्छे अनुभव के लिए मैं Gemma E4B की सिफ़ारिश करता हूँ
यह अभी भी सक्रिय development में है, और HTML5 Filesystem API तथा LiteRT support की वजह से Chrome चाहिए। हालांकि ज़्यादातर Chromium-आधारित browsers पर भी इसे चलाया जा सकता है
ज़्यादातर agents से इसका फ़र्क यह है कि यह no-install है। मॉडल browser के अंदर LiteRT/LiteLLM से चलते हैं, और performance Transformers.js से बेहतर है। Filesystem API से वैकल्पिक sandbox directory read access भी मिल सकता है
यह self-documenting है, इसलिए अगर आप live help panel में पूछें कि “system prompt कैसे इस्तेमाल होता है”, तो यह अपने source code तक पहुँचकर जवाब दे सकता है
“Tour” पर क्लिक करें, तो पूरा देख सकते हैं, और अगले हफ़्ते इसे open source करने की योजना है
हालाँकि लोग मॉडलों को आँकने के लिए जो benchmark इस्तेमाल करते हैं, वे बहुत बार बदलते रहते हैं, इसलिए अच्छी तुलना ढूँढना मुश्किल है। और ध्यान रहे, Sonnet 3.6, GPT-3.5 के लगभग 1 साल बाद आया था
आलोचनात्मक नज़र से देखें तो यह सही है कि ये मॉडल जटिल coding tasks में नवीनतम सर्वोच्च स्तर के बराबर नहीं हैं
लेकिन white-collar काम का बड़ा हिस्सा Excel प्रोसेसिंग, files इधर-उधर करना, सख़्त क़ानूनी दस्तावेज़ों का अनुवाद, email drafts, PPT से जुड़े छोटे-मोटे काम जैसे कार्यों का होता है
ऐसे काम 30~35B या उससे बड़े मॉडल से पर्याप्त रूप से किए जा सकते हैं, और कंपनी के data को निजी बनाए रखने का फ़ायदा भी मिलता है
लोकल मॉडल की बात करने वाले लोग जिस स्तर की उम्मीद कर रहे हैं, वे इस साल अप्रैल में आए मॉडल हैं। Qwen 3.6 27B और कमज़ोर GPU के लिए qwen 35b a3b मुख्य विकल्प हैं
ये मॉडल गंभीरता से नवीनतम स्तर के मॉडलों से तुलना करने लायक हैं
उदाहरण के लिए JPMorgan के London Whale मामले में Excel error की वजह से 6 अरब डॉलर का नुकसान हुआ था
मैं M5 Pro 18/20-core MacBook 64GB RAM लेने पर विचार कर रहा हूँ, लेकिन वास्तविक model benchmarks ढूँढना बहुत मुश्किल है
उदाहरण के लिए, अगर कोई Qwen 3.6 35B/A3B की Q4 और Q6 quantization में tokens per second बता सके तो अच्छा होगा
लोकल inference की दुनिया MoE मॉडलों की ओर झुक रही है, और उनमें से काफ़ी मॉडलों का tokens per second तो ठीक होता है, लेकिन first token आने में भयानक देरी होती है
32GB M2 Studio पर इस्तेमाल होने वाली कुछ मनमानी settings मैंने Bluesky पर लिखी हैं, और feedback चाहिए
मैं उन लोगों में हूँ जिन्हें ख़ुद देखे बिना चीज़ें ठीक से समझ नहीं आतीं, इसलिए मदद की उम्मीद में साझा कर रहा हूँ
https://bsky.app/profile/mooresolutions.io/post/3mliilyf2i22...
मैं M4 Pro 48GB पर qwen 3.6 9b quantized model चला रहा हूँ, और यह बुनियादी pi.dev/cc-आधारित development के लिए बस किसी तरह उपयोगी है
असल में कुछ मायने रखने वाला काम करने के लिए 128GB desktop शायद sweet spot लगता है। बस अभी ऐसी मशीनें मिलना मुश्किल है
लोकल रनिंग मज़ेदार है, लेकिन यह नहीं भूलना चाहिए कि आपका अपना समय भी मुफ़्त नहीं है
personal projects में मैं धीरे-धीरे OpenRouter की ओर जा रहा हूँ, और सबसे बड़े qwen model को भी गंभीर इस्तेमाल में दिन का 2~3 डॉलर से कम ख़र्च में चला लेता हूँ
M4 Pro 48GB पर आप बड़े मॉडल भी चला सकते हैं, इसलिए अगर model intelligence ही उपयोगिता बढ़ाने की कुंजी है, तो बड़ा मॉडल चुनना ज़्यादा सही हो सकता है
इस बात से सहमत हूँ कि dense 9B ज़्यादा प्रभावशाली नहीं है
मैंने नवीनतम M5 MacBook Pro के top spec के साथ लोकल मॉडल भी आज़माए हैं, और वे लगभग बस किसी तरह ही चलते हैं
4090 24GB पर हाल की turboquant/rotorquant activation-value memory optimization का इस्तेमाल करके qwen3.6:27B को लगभग 128K context पर चला रहा हूँ
मैं ज़ोरदार सलाह दूँगा कि आप कम से कम उस स्तर का मॉडल आज़माएँ। q4_xl+rotorquant का संयोजन काफ़ी अच्छा है
agent को देने लायक कुछ reference code भी है
https://github.com/rapatel0/rq-models
API subscription से बेहतर है कि Mac पर हज़ारों डॉलर ख़र्च किए जाएँ
लोकल मॉडल आपको privacy leak की चिंता के बिना, कभी भी और कहीं भी काम करने देते हैं