क्या आप लोकल में open LLM और coding assistant इस्तेमाल करते हैं? अपना environment साझा करें
(news.ycombinator.com)- Hacker News उपयोगकर्ताओं से पूछने वाला एक Ask HN थ्रेड कि वे लोकल में open LLM और coding assistant किस laptop hardware पर और कैसे इस्तेमाल करते हैं
- कौन-से मॉडल (जैसे: Ollama, LM Studio आदि) इस्तेमाल करते हैं, और कौन-से open source coding assistant/integration solutions (जैसे: VS Code plugins) उपयोग में हैं
- कौन-सा laptop hardware (CPU, GPU/NPU, memory, discrete GPU या integrated GPU, OS) इस्तेमाल हो रहा है, और workflow में कैसी performance मिल रही है
- इन्हें किस काम में इस्तेमाल किया जाता है (code completion, refactoring, debugging, code review)? और reliability कितनी है (क्या अच्छा चलता है और कहाँ कमी रह जाती है)?
-
1) MacBook Pro / Mac Studio (M2~M4 Max, 64~128GB) + LM Studio/Ollama + VS Code Continue
- फायदे
- Mac की unified memory की वजह से Qwen3-Coder-30B-A3B, gpt-oss-20b, Gemma 27B तक सीधे लोकल में चल जाते हैं, इसलिए “code पढ़ो → summary बनाओ → छोटे edits” वाला workflow संभव हो जाता है
- बस LM Studio API या Ollama serve चालू हो, तो VS Code Continue.dev, Zed, JetBrains तुरंत connect हो जाते हैं, और लगभग Claude Code जैसी UX मिल सकती है
- Mac की low-latency nature के कारण 50~80 tok/s के स्तर पर code completion और comments generation बहुत सुस्त महसूस नहीं होते
- flight/train/offline माहौल में भी काम हो जाता है, इसलिए “company code मशीन से बाहर न जाए” जैसे उपयोग के लिए यह उपयुक्त है
- कमियाँ
- 20B से बड़े मॉडल पर heat और fan noise की समस्या आती है, और M4 Max 128GB पर भी 120B धीमा पड़ता है या सीमाएँ दिखती हैं
- “Claude 4.5 Sonnet की तरह bash-in-a-loop चलाकर आखिर तक काम निकालने” वाले agent scenarios में अभी कमी है
- 24GB, 32GB वाले MacBook में VRAM allocation कम पड़ती है, इसलिए अंततः 7B~12B स्तर तक उतरना पड़ता है, और context बढ़ाते ही performance गिर जाती है
- फायदे
-
2) Desktop/workstation में RTX 3090·4090·Pro 6000, और laptop सिर्फ एक पतला client
- फायदे
- llama.cpp / vLLM / Ollama सब आज़माए जा सकते हैं, और gpt-oss-120B भी “धीमा सही, लेकिन सचमुच” चलाया जा सकता है
- VS Code में Continue या llama-vscode laptop पर चलाकर, model inference घर में रखे box पर कराया जाए तो laptop की battery और heat पर लगभग कोई दबाव नहीं पड़ता
- RTX 3090 24GB के हिसाब से gpt-oss-20B, Qwen2.5/3 Coder 14~30B इतनी token speed देते हैं कि autocomplete + छोटे refactoring के लिए पर्याप्त हैं
- घर पर Open WebUI + Ollama चलाकर VPN/Tailscale से जुड़ने का पैटर्न आम है, इसलिए remote use में भी private environment बनाए रखा जा सकता है
- कमियाँ
- GPU VRAM 24GB से कम हो तो 120B के लिए काफ़ी aggressive quantization करनी पड़ती है, जिससे quality साफ़ तौर पर गिरती है
- vLLM की performance अच्छी है, लेकिन install/build झंझट वाला है, इसलिए “updated runner के साथ फिर चलाकर देखो” जैसी बात तक आती है और maintenance cost बढ़ती है
- portability लगभग नहीं के बराबर है, इसलिए अगर लक्ष्य “सिर्फ एक laptop पर सब कुछ” है, तो यह setup उपयुक्त नहीं
- फायदे
-
3) gpt-oss-120B केंद्रित setup (Aider, Codex, लोकल agents)
- फायदे
- कई लोगों ने कहा कि “लोकल में जो इस्तेमाल किया, उसमें यह GPT-5 के सबसे करीब लगा”, यानी coding task accuracy काफ़ी ऊँची दिखी
- Aider, Codex, roocode जैसे open coding assistants से जोड़कर review → modify → test → commit तक एक साथ करवाने के प्रयोग सचमुच चल रहे हैं
- llama.cpp में CPU+GPU mixed load के साथ 8GB VRAM पर भी किसी तरह चलाने के टिप्स साझा किए गए, इसलिए hardware requirement अपेक्षा से अधिक flexible है
- कमियाँ
- सबसे बड़ी समस्या speed है। जहाँ ChatGPT वही 50 प्रश्न 6 मिनट में कर दे, 120B को 1 घंटे से ज़्यादा लग सकता है, इसलिए यह “इंतज़ार सहने वालों” के लिए है
- Codex जैसे tools में inference parameters को hardcode करना पड़ता है ताकि यह रुके नहीं, और AGENTS.md भी काफ़ी विस्तार से लिखना पड़ता है, तभी यह इंसान जैसी workflow देता है
- सिर्फ laptop पर लंबे समय तक चलाना heat, power और memory की वजह से मुश्किल है; व्यवहार में इसे “laptop से remote GPU से जुड़ना” ही मानना चाहिए
- फायदे
-
4) AMD Strix Halo / Ryzen AI / Framework 128GB जैसे high-RAM laptops + llama.cpp/Continue.dev
- फायदे
- 128GB RAM होने पर Qwen3 Coder 30B भी व्यावहारिक रूप से इस्तेमाल हो सकता है, और सिर्फ ज़रूरी layers को GPU/NPU पर रखकर बाकी RAM में चलाने वाला hybrid तरीका काम करता है
- लोगों के अनुसार, “code कंपनी के बाहर नहीं जाना चाहिए” या “AMD है, इसलिए cloud drivers अभी अच्छे नहीं हैं” जैसी स्थितियों में यह एक व्यावहारिक विकल्प है
- lemonade-server जैसे सरल llama.cpp server को boot पर auto-run कराकर editor को network से जोड़ने वाला ढाँचा अच्छा काम करता है
- कमियाँ
- Linux पर power saving/camera/drivers अभी भी पूरी तरह smooth नहीं हैं, और कुछ मामलों में 6.18 kernel का इंतज़ार करना पड़ता है
- NPU performance NVIDIA स्तर की नहीं है, इसलिए “frontier-level agents” की उम्मीद नहीं की जा सकती; अंततः यह 20~30B के ‘assistant’ use पर ही रुक जाता है
- AMD से जुड़ी जानकारी अक्सर GitHub repos और forums में ढूँढनी पड़ती है, इसलिए Mac और NVIDIA की तुलना में information density कम है
- फायदे
-
5) 16~32GB के सामान्य laptops (MacBook Air, कम RAM वाले M2/M3 Pro) + 7B~12B models के साथ सिर्फ FIM autocomplete
- फायदे
- qwen2.5-coder:7b, mistral 7b instruct, gemma3:12b जैसे मॉडल भी “यह अगली लाइन लिख दो”, “SQL का वह syntax क्या था” जैसे काम तुरंत कर देते हैं
- llama-vscode plugin या Continue.dev लगाने पर internet बंद होने पर भी autocomplete चलता रहता है, इसलिए काम की rhythm नहीं टूटती
- hardware load कम होने से heat और fan noise लगभग नहीं के बराबर रहते हैं, और battery भी जल्दी खत्म नहीं होती
- कमियाँ
- context थोड़ा भी लंबा हो जाए तो hallucination बढ़ने लगती है, और refactoring या test code generation जैसे “एक साथ कई files को समझने” वाले काम लगभग असंभव हो जाते हैं
- ज़्यादातर लोगों ने साफ़ कहा कि “यह cloud model का replacement नहीं, बल्कि autocomplete-only setup है”
- models को अक्सर 4-bit तक ज़ोर से compress करना पड़ता है, इसलिए model choice सीमित हो जाती है
- फायदे
-
6) पूरी तरह offline/privacy-first setup (Ollama + Open WebUI + VPN)
- फायदे
- घर में Mac Studio M4 Max 128GB या कोई desktop रखकर सिर्फ Ollama + Open WebUI चला दें, तो बाहर से laptop या phone पर VPN के ज़रिए जुड़ने पर भी सब कुछ लोकल ही रहता है
- इस setup का इस्तेमाल करने वालों ने “अब ChatGPT लगभग नहीं इस्तेमाल करते” और “version बदलता नहीं, इसलिए tuned prompts खराब नहीं होते” को बड़ी ताकत बताया
- कंपनी के भीतर “कोई भी code training data नहीं बन सकता” जैसी नीति समझाने के लिए यह सबसे आसान architecture है
- कमियाँ
- model upgrades/replacements खुद करने पड़ते हैं, इसलिए cloud की तरह “अपने-आप और smarter हो जाना” यहाँ नहीं होता
- GPU कमज़ोर हो तो 20B से ऊपर के मॉडल तुरंत धीमे पड़ जाते हैं, इसलिए अंततः hardware बढ़ाना पड़ता है, और उसी समय मन में आता है: “यह cloud पर ही क्यों नहीं किया?”
- फायदे
-
7) कुल मिलाकर निकली साझा समझ
- सिर्फ laptop अभी Claude Code / GPT-5 + agents का विकल्प बनना मुश्किल है, और लोकल setup छोटे code generation, help, summary, autocomplete में सबसे अच्छा बैठता है
- इसलिए सबसे आम pattern या तो “laptop ↔ घर का बड़ा box” था, या “Mac 128GB पर 20~30B को तेज़ी से चलाना”
- फिर भी सबकी बात एक जैसी थी: अगर privacy, लगभग शून्य latency, और version stability — ये तीनों चाहिए, तो आज भी लोकल setup ही जवाब है
6 टिप्पणियां
VPN इस्तेमाल करने से बेहतर होगा कि bearer token सेट किया जाए और SSH tunneling का इस्तेमाल किया जाए।
मुझे लगता है कि LLM self-hosting शुरू करने में अगले 5 साल तक शुरुआती निवेश लागत इतनी ज़्यादा रहेगी कि यह आर्थिक रूप से व्यावहारिक नहीं होगा। 3~5 साल बाद, जब सिर्फ code auto-completion तक सीमित उपयोग के लिए पर्याप्त तेज़ hardware आएगा और कीमत का फायदा दिखेगा, तब मैं इस पर फिर से विचार करने वाला हूँ।
जिन configurations पर मैंने विचार किया
Hacker News राय
AI को खुद हाथों-हाथ आज़माना चाहते थे, इसलिए Dell Precision 3620 Tower i7-7700 सेकंड हैंड खरीदा
RAM अपग्रेड किया, और GPU के रूप में RTX 3060 लगाने के लिए पावर सप्लाई भी बदली
Ubuntu Server इंस्टॉल किया और इसे घर के k3s क्लस्टर नोड के रूप में सेट किया, जहाँ Ollama और OpenWebUI चला रहे हैं
मुख्य रूप से Karakeep की AI tagging और summary के लिए इस्तेमाल करते हैं, लेकिन Python कोड से डिलिवरी वाहनों को पहचानने वाले driveway camera analysis में भी उपयोग कर रहे हैं
GPU के बिना Dell Precision T710 (Xeon E6320, 120GB RAM, RAID5 SSD 240TB) पर Ollama को CPU आधारित तरीके से चला रहे हैं
50 राज्यों के चुनावी कानूनों को RAG से इंडेक्स करके terminology mismatch और hallucination समस्याओं को विज़ुअलाइज़ करने वाला प्रोजेक्ट कर रहे हैं
लक्ष्य चुनावी प्रक्रियाओं में integrity gap को पहचानना है
संबंधित mindmap Election Frauds v1.4 Mindmap PDF में देखा जा सकता है
लोकल LLM से coding तो करते हैं, लेकिन laptop पर इसकी कल्पना भी नहीं कर सकते
GPU server पर llama.cpp + llama-swap से मॉडल बदलते हुए इस्तेमाल कर रहे हैं
सबसे संतोषजनक सेटअप Aider + gpt-oss-120b का है
Ryzen AI Max+ 128GB RAM पर भी संभव हो सकता है, लेकिन non-NVIDIA hardware बहुत धीमा है
OpenRouter के जरिए सिर्फ data retention न रखने वाले providers भी चुने जा सकते हैं
लेकिन GPT5 या Claude लोकल की तुलना में कहीं तेज़ और सस्ते हैं
ChatGPT ने 6 मिनट में 46/50, जबकि gpt-oss-120b ने 1 घंटे में 47/50 स्कोर किया
यह i7 + 64GB RAM + 8GB VRAM GPU वातावरण में चलाया गया
अगर Mac पर लोकल code agent चलाना है, तो ऐसे करें
npm install -g @openai/codexbrew install ollama; ollama serveollama pull gpt-oss:20bcodex --oss -m gpt-oss:20bयह इंटरनेट के बिना चलता है, और M1 या उससे ऊपर का Mac + 24GB GPU memory चाहिए
120b मॉडल, 20b से 1.5 गुना बेहतर है, लेकिन इसकी requirements 5 गुना हैं
MacBook Pro 64GB पर Qwen3-Coder-30B-A3B Q4 quant को llama.cpp से चला रहे हैं
VSCode में continue.dev का इस्तेमाल कर system prompt छोटा रखते हैं
50 tokens प्रति सेकंड generation, और 550 tokens processing speed मिलती है
छोटे और स्पष्ट कामों में frontier models जैसी quality दिखती है
ऑफलाइन वातावरण में भी तेज़ और स्थिर होने से संतुष्ट हैं
ज़्यादा जटिल कामों के लिए Claude या Deepseek API इस्तेमाल करते हैं
अगर Mac खरीदना हो तो Pro मॉडल या उससे ऊपर की सिफारिश है
Air में fan नहीं होता, इसलिए thermal management नहीं हो पाता, और Mac mini से Studio बेहतर लगता है
TG Pro ऐप से fan को और ज़्यादा संवेदनशील तरीके से ट्यून किया जा सकता है (लगभग $20)
M4 Pro + 24GB RAM MacBook Pro पर GPT OSS 20B मॉडल चलाते हैं, लेकिन context window छोटी है
128GB मॉडल हो तो शायद पूरे दिन ऑफलाइन coding भी संभव हो
Apple M4 Max 128GB और GPD Win 4 (Ubuntu 24.04) को USB-C से जोड़कर इस्तेमाल कर रहे हैं
Claude Code, RA.Aid, और llama.cpp को मिलाकर Agent Organizer से काम बाँटते हैं
Claude, architecture design से code review तक automation करता है
अगर LLM workstation देखना हो तो Alex Ziskind का YouTube चैनल(@AZisk) सुझाया गया
वहाँ लोकल LLM के लिए workstation reviews की विविध सामग्री मिलती है
प्रस्तुति भी साफ़-सुथरी है और सलाह व्यावहारिक है
MacBook Pro M4 Max 128GB पर मुख्य रूप से LMStudio और Ollama इस्तेमाल करते हैं
मॉडल हैं qwen3-coder-30b A3B Instruct 8-bit MLX और gpt-oss-120b-MXFP4-Q8
बड़े पैमाने के code generation में सीमाएँ हैं, लेकिन लोकल repo summary और documentation के लिए यह पर्याप्त है
संबंधित कम्युनिटी भी काफ़ी सक्रिय है
README बनाने के लिए gemma3-27b-it-qat और gpt-oss-120b पसंद हैं
MacBook Pro M1 Pro 32GB + Asahi Linux पर Qwen3:32b को CLI से चला रहे हैं
ARMv8 assembly या SoC से जुड़े कामों में मदद लेते हैं
speed पढ़ने की रफ़्तार से बस थोड़ा धीमी है, यानी काफ़ी उपयोगी है
सुना है Qwen3-coder और तेज़ है, इसलिए रुचि बनी है
cloud या agent integration के बिना पूरी तरह लोकल environment पसंद है
Ollama अब offline-first दिशा से हट रहा है, इसलिए अब llama.cpp पर जाने का सोच रहे हैं
model format अलग होने के कारण यह सोच रहे हैं कि Ollama model वैसे ही इस्तेमाल हो पाएँगे या नहीं
[ध्यान दें] Linux पर power consumption ज़्यादा है, इसलिए इसे बिजली से जोड़कर ही इस्तेमाल करना चाहिए
सामान्य कामों में कम स्मार्ट हो सकता है, लेकिन coding-केंद्रित कामों में काफ़ी कुशल है
पढ़ते-पढ़ते..... मुझे लगा, उम्मीद से ज़्यादा DGX SPARK की मांग हो सकती है? शुरू में तो मैंने सोचा था, उसकी cost-effectiveness इतनी बेकार है, उसे खरीदेगा कौन! लेकिन,
कंपनी की आंतरिक सुरक्षा नीति की वजह से हम बाहरी LLM API बिल्कुल भी इस्तेमाल नहीं करते, और फिलहाल कंपनी के cloud management विभाग द्वारा vllm-आधारित gpt oss उपलब्ध कराया जा रहा है, उसी का उपयोग कर रहे हैं.
इसे पूरी तरह local कहना थोड़ा अस्पष्ट-सा लगता है।