16 पॉइंट द्वारा GN⁺ 2025-11-01 | 6 टिप्पणियां | WhatsApp पर शेयर करें
  • Hacker News उपयोगकर्ताओं से पूछने वाला एक Ask HN थ्रेड कि वे लोकल में open LLM और coding assistant किस laptop hardware पर और कैसे इस्तेमाल करते हैं
  • कौन-से मॉडल (जैसे: Ollama, LM Studio आदि) इस्तेमाल करते हैं, और कौन-से open source coding assistant/integration solutions (जैसे: VS Code plugins) उपयोग में हैं
  • कौन-सा laptop hardware (CPU, GPU/NPU, memory, discrete GPU या integrated GPU, OS) इस्तेमाल हो रहा है, और workflow में कैसी performance मिल रही है
  • इन्हें किस काम में इस्तेमाल किया जाता है (code completion, refactoring, debugging, code review)? और reliability कितनी है (क्या अच्छा चलता है और कहाँ कमी रह जाती है)?

  • 1) MacBook Pro / Mac Studio (M2~M4 Max, 64~128GB) + LM Studio/Ollama + VS Code Continue

    • फायदे
      • Mac की unified memory की वजह से Qwen3-Coder-30B-A3B, gpt-oss-20b, Gemma 27B तक सीधे लोकल में चल जाते हैं, इसलिए “code पढ़ो → summary बनाओ → छोटे edits” वाला workflow संभव हो जाता है
      • बस LM Studio API या Ollama serve चालू हो, तो VS Code Continue.dev, Zed, JetBrains तुरंत connect हो जाते हैं, और लगभग Claude Code जैसी UX मिल सकती है
      • Mac की low-latency nature के कारण 50~80 tok/s के स्तर पर code completion और comments generation बहुत सुस्त महसूस नहीं होते
      • flight/train/offline माहौल में भी काम हो जाता है, इसलिए “company code मशीन से बाहर न जाए” जैसे उपयोग के लिए यह उपयुक्त है
    • कमियाँ
      • 20B से बड़े मॉडल पर heat और fan noise की समस्या आती है, और M4 Max 128GB पर भी 120B धीमा पड़ता है या सीमाएँ दिखती हैं
      • “Claude 4.5 Sonnet की तरह bash-in-a-loop चलाकर आखिर तक काम निकालने” वाले agent scenarios में अभी कमी है
      • 24GB, 32GB वाले MacBook में VRAM allocation कम पड़ती है, इसलिए अंततः 7B~12B स्तर तक उतरना पड़ता है, और context बढ़ाते ही performance गिर जाती है
  • 2) Desktop/workstation में RTX 3090·4090·Pro 6000, और laptop सिर्फ एक पतला client

    • फायदे
      • llama.cpp / vLLM / Ollama सब आज़माए जा सकते हैं, और gpt-oss-120B भी “धीमा सही, लेकिन सचमुच” चलाया जा सकता है
      • VS Code में Continue या llama-vscode laptop पर चलाकर, model inference घर में रखे box पर कराया जाए तो laptop की battery और heat पर लगभग कोई दबाव नहीं पड़ता
      • RTX 3090 24GB के हिसाब से gpt-oss-20B, Qwen2.5/3 Coder 14~30B इतनी token speed देते हैं कि autocomplete + छोटे refactoring के लिए पर्याप्त हैं
      • घर पर Open WebUI + Ollama चलाकर VPN/Tailscale से जुड़ने का पैटर्न आम है, इसलिए remote use में भी private environment बनाए रखा जा सकता है
    • कमियाँ
      • GPU VRAM 24GB से कम हो तो 120B के लिए काफ़ी aggressive quantization करनी पड़ती है, जिससे quality साफ़ तौर पर गिरती है
      • vLLM की performance अच्छी है, लेकिन install/build झंझट वाला है, इसलिए “updated runner के साथ फिर चलाकर देखो” जैसी बात तक आती है और maintenance cost बढ़ती है
      • portability लगभग नहीं के बराबर है, इसलिए अगर लक्ष्य “सिर्फ एक laptop पर सब कुछ” है, तो यह setup उपयुक्त नहीं
  • 3) gpt-oss-120B केंद्रित setup (Aider, Codex, लोकल agents)

    • फायदे
      • कई लोगों ने कहा कि “लोकल में जो इस्तेमाल किया, उसमें यह GPT-5 के सबसे करीब लगा”, यानी coding task accuracy काफ़ी ऊँची दिखी
      • Aider, Codex, roocode जैसे open coding assistants से जोड़कर review → modify → test → commit तक एक साथ करवाने के प्रयोग सचमुच चल रहे हैं
      • llama.cpp में CPU+GPU mixed load के साथ 8GB VRAM पर भी किसी तरह चलाने के टिप्स साझा किए गए, इसलिए hardware requirement अपेक्षा से अधिक flexible है
    • कमियाँ
      • सबसे बड़ी समस्या speed है। जहाँ ChatGPT वही 50 प्रश्न 6 मिनट में कर दे, 120B को 1 घंटे से ज़्यादा लग सकता है, इसलिए यह “इंतज़ार सहने वालों” के लिए है
      • Codex जैसे tools में inference parameters को hardcode करना पड़ता है ताकि यह रुके नहीं, और AGENTS.md भी काफ़ी विस्तार से लिखना पड़ता है, तभी यह इंसान जैसी workflow देता है
      • सिर्फ laptop पर लंबे समय तक चलाना heat, power और memory की वजह से मुश्किल है; व्यवहार में इसे “laptop से remote GPU से जुड़ना” ही मानना चाहिए
  • 4) AMD Strix Halo / Ryzen AI / Framework 128GB जैसे high-RAM laptops + llama.cpp/Continue.dev

    • फायदे
      • 128GB RAM होने पर Qwen3 Coder 30B भी व्यावहारिक रूप से इस्तेमाल हो सकता है, और सिर्फ ज़रूरी layers को GPU/NPU पर रखकर बाकी RAM में चलाने वाला hybrid तरीका काम करता है
      • लोगों के अनुसार, “code कंपनी के बाहर नहीं जाना चाहिए” या “AMD है, इसलिए cloud drivers अभी अच्छे नहीं हैं” जैसी स्थितियों में यह एक व्यावहारिक विकल्प है
      • lemonade-server जैसे सरल llama.cpp server को boot पर auto-run कराकर editor को network से जोड़ने वाला ढाँचा अच्छा काम करता है
    • कमियाँ
      • Linux पर power saving/camera/drivers अभी भी पूरी तरह smooth नहीं हैं, और कुछ मामलों में 6.18 kernel का इंतज़ार करना पड़ता है
      • NPU performance NVIDIA स्तर की नहीं है, इसलिए “frontier-level agents” की उम्मीद नहीं की जा सकती; अंततः यह 20~30B के ‘assistant’ use पर ही रुक जाता है
      • AMD से जुड़ी जानकारी अक्सर GitHub repos और forums में ढूँढनी पड़ती है, इसलिए Mac और NVIDIA की तुलना में information density कम है
  • 5) 16~32GB के सामान्य laptops (MacBook Air, कम RAM वाले M2/M3 Pro) + 7B~12B models के साथ सिर्फ FIM autocomplete

    • फायदे
      • qwen2.5-coder:7b, mistral 7b instruct, gemma3:12b जैसे मॉडल भी “यह अगली लाइन लिख दो”, “SQL का वह syntax क्या था” जैसे काम तुरंत कर देते हैं
      • llama-vscode plugin या Continue.dev लगाने पर internet बंद होने पर भी autocomplete चलता रहता है, इसलिए काम की rhythm नहीं टूटती
      • hardware load कम होने से heat और fan noise लगभग नहीं के बराबर रहते हैं, और battery भी जल्दी खत्म नहीं होती
    • कमियाँ
      • context थोड़ा भी लंबा हो जाए तो hallucination बढ़ने लगती है, और refactoring या test code generation जैसे “एक साथ कई files को समझने” वाले काम लगभग असंभव हो जाते हैं
      • ज़्यादातर लोगों ने साफ़ कहा कि “यह cloud model का replacement नहीं, बल्कि autocomplete-only setup है”
      • models को अक्सर 4-bit तक ज़ोर से compress करना पड़ता है, इसलिए model choice सीमित हो जाती है
  • 6) पूरी तरह offline/privacy-first setup (Ollama + Open WebUI + VPN)

    • फायदे
      • घर में Mac Studio M4 Max 128GB या कोई desktop रखकर सिर्फ Ollama + Open WebUI चला दें, तो बाहर से laptop या phone पर VPN के ज़रिए जुड़ने पर भी सब कुछ लोकल ही रहता है
      • इस setup का इस्तेमाल करने वालों ने “अब ChatGPT लगभग नहीं इस्तेमाल करते” और “version बदलता नहीं, इसलिए tuned prompts खराब नहीं होते” को बड़ी ताकत बताया
      • कंपनी के भीतर “कोई भी code training data नहीं बन सकता” जैसी नीति समझाने के लिए यह सबसे आसान architecture है
    • कमियाँ
      • model upgrades/replacements खुद करने पड़ते हैं, इसलिए cloud की तरह “अपने-आप और smarter हो जाना” यहाँ नहीं होता
      • GPU कमज़ोर हो तो 20B से ऊपर के मॉडल तुरंत धीमे पड़ जाते हैं, इसलिए अंततः hardware बढ़ाना पड़ता है, और उसी समय मन में आता है: “यह cloud पर ही क्यों नहीं किया?”
  • 7) कुल मिलाकर निकली साझा समझ

    • सिर्फ laptop अभी Claude Code / GPT-5 + agents का विकल्प बनना मुश्किल है, और लोकल setup छोटे code generation, help, summary, autocomplete में सबसे अच्छा बैठता है
    • इसलिए सबसे आम pattern या तो “laptop ↔ घर का बड़ा box” था, या “Mac 128GB पर 20~30B को तेज़ी से चलाना”
    • फिर भी सबकी बात एक जैसी थी: अगर privacy, लगभग शून्य latency, और version stability — ये तीनों चाहिए, तो आज भी लोकल setup ही जवाब है

6 टिप्पणियां

 
kaydash 2025-11-02

VPN इस्तेमाल करने से बेहतर होगा कि bearer token सेट किया जाए और SSH tunneling का इस्तेमाल किया जाए।

 
savvykang 2025-11-02

मुझे लगता है कि LLM self-hosting शुरू करने में अगले 5 साल तक शुरुआती निवेश लागत इतनी ज़्यादा रहेगी कि यह आर्थिक रूप से व्यावहारिक नहीं होगा। 3~5 साल बाद, जब सिर्फ code auto-completion तक सीमित उपयोग के लिए पर्याप्त तेज़ hardware आएगा और कीमत का फायदा दिखेगा, तब मैं इस पर फिर से विचार करने वाला हूँ।

जिन configurations पर मैंने विचार किया

  1. all-in-one configuration: काम के डिवाइस पर LLM चलाना संभव नहीं है। development tools और browser-आधारित apps चलाने के लिए भी RAM कम पड़ती है
  2. LLM-समर्पित machine configuration: कंपनी में graphics card नहीं है, इसलिए इसे चलाना संभव नहीं है। निजी PC के लिए भी specs पर शुरुआती निवेश करना आसान नहीं है
 
GN⁺ 2025-11-01
Hacker News राय
  • AI को खुद हाथों-हाथ आज़माना चाहते थे, इसलिए Dell Precision 3620 Tower i7-7700 सेकंड हैंड खरीदा
    RAM अपग्रेड किया, और GPU के रूप में RTX 3060 लगाने के लिए पावर सप्लाई भी बदली
    Ubuntu Server इंस्टॉल किया और इसे घर के k3s क्लस्टर नोड के रूप में सेट किया, जहाँ Ollama और OpenWebUI चला रहे हैं
    मुख्य रूप से Karakeep की AI tagging और summary के लिए इस्तेमाल करते हैं, लेकिन Python कोड से डिलिवरी वाहनों को पहचानने वाले driveway camera analysis में भी उपयोग कर रहे हैं

  • GPU के बिना Dell Precision T710 (Xeon E6320, 120GB RAM, RAID5 SSD 240TB) पर Ollama को CPU आधारित तरीके से चला रहे हैं
    50 राज्यों के चुनावी कानूनों को RAG से इंडेक्स करके terminology mismatch और hallucination समस्याओं को विज़ुअलाइज़ करने वाला प्रोजेक्ट कर रहे हैं
    लक्ष्य चुनावी प्रक्रियाओं में integrity gap को पहचानना है
    संबंधित mindmap Election Frauds v1.4 Mindmap PDF में देखा जा सकता है

    • ऐसे सामाजिक प्रोजेक्ट में अपनी प्रतिभा लगाना वाकई शानदार है
  • लोकल LLM से coding तो करते हैं, लेकिन laptop पर इसकी कल्पना भी नहीं कर सकते
    GPU server पर llama.cpp + llama-swap से मॉडल बदलते हुए इस्तेमाल कर रहे हैं
    सबसे संतोषजनक सेटअप Aider + gpt-oss-120b का है
    Ryzen AI Max+ 128GB RAM पर भी संभव हो सकता है, लेकिन non-NVIDIA hardware बहुत धीमा है
    OpenRouter के जरिए सिर्फ data retention न रखने वाले providers भी चुने जा सकते हैं
    लेकिन GPT5 या Claude लोकल की तुलना में कहीं तेज़ और सस्ते हैं

    • gpt-oss-120b से RAG agent बनाकर GCP docs को सिखाया गया
      ChatGPT ने 6 मिनट में 46/50, जबकि gpt-oss-120b ने 1 घंटे में 47/50 स्कोर किया
      यह i7 + 64GB RAM + 8GB VRAM GPU वातावरण में चलाया गया
    • llama-swap GitHub लिंक
  • अगर Mac पर लोकल code agent चलाना है, तो ऐसे करें

    1. npm install -g @openai/codex
    2. brew install ollama; ollama serve
    3. ollama pull gpt-oss:20b
    4. codex --oss -m gpt-oss:20b
      यह इंटरनेट के बिना चलता है, और M1 या उससे ऊपर का Mac + 24GB GPU memory चाहिए
      120b मॉडल, 20b से 1.5 गुना बेहतर है, लेकिन इसकी requirements 5 गुना हैं
    • LM Studio ज़्यादा आसान है और JetBrains IDE या Zed के साथ भी इंटीग्रेट हो जाता है
    • यह जानने की जिज्ञासा है कि 20b मॉडल से सच में उपयोगी कोड बनाया जा सका या नहीं
  • MacBook Pro 64GB पर Qwen3-Coder-30B-A3B Q4 quant को llama.cpp से चला रहे हैं
    VSCode में continue.dev का इस्तेमाल कर system prompt छोटा रखते हैं
    50 tokens प्रति सेकंड generation, और 550 tokens processing speed मिलती है
    छोटे और स्पष्ट कामों में frontier models जैसी quality दिखती है
    ऑफलाइन वातावरण में भी तेज़ और स्थिर होने से संतुष्ट हैं
    ज़्यादा जटिल कामों के लिए Claude या Deepseek API इस्तेमाल करते हैं

    • continue.dev के Instinct मॉडल को आज़माया है या नहीं, और Qwen से तुलना कैसी है—यह पूछा गया
    • 128GB मशीन हो तो कोई और quant बेहतर होगा क्या, और Hugging Face download link साझा करने का अनुरोध भी था
    • Qwen3 को llama-vscode में कैसे चलाएँ, यह पूछने वाली टिप्पणी भी थी (issue लिंक)
  • अगर Mac खरीदना हो तो Pro मॉडल या उससे ऊपर की सिफारिश है
    Air में fan नहीं होता, इसलिए thermal management नहीं हो पाता, और Mac mini से Studio बेहतर लगता है
    TG Pro ऐप से fan को और ज़्यादा संवेदनशील तरीके से ट्यून किया जा सकता है (लगभग $20)
    M4 Pro + 24GB RAM MacBook Pro पर GPT OSS 20B मॉडल चलाते हैं, लेकिन context window छोटी है
    128GB मॉडल हो तो शायद पूरे दिन ऑफलाइन coding भी संभव हो

    • Mac mini में भी fan होता है, Studio सिर्फ ज़्यादा शक्तिशाली chip वाला version है
    • अगर Mac लेना हो तो Max या Ultra chip + maximum memory कॉन्फ़िगरेशन आदर्श है
    • 128GB MacBook Pro में context cache performance जबरदस्त है
    • default context window छोटी है, लेकिन gpt-oss-20b में इसे 4 गुना तक बढ़ाया जा सकता है
    • M3/M4 + 128GB पर भी लंबे prompt की processing speed धीमी होने की राय थी
  • Apple M4 Max 128GB और GPD Win 4 (Ubuntu 24.04) को USB-C से जोड़कर इस्तेमाल कर रहे हैं
    Claude Code, RA.Aid, और llama.cpp को मिलाकर Agent Organizer से काम बाँटते हैं
    Claude, architecture design से code review तक automation करता है

    • GPD Win 4 की भूमिका क्या है, क्या छोटे मॉडलों से distributed processing कर रहे हैं—ऐसा सवाल था
    • हर मॉडल की token processing speed पूछने वाली टिप्पणी भी थी
    • इस्तेमाल किए जा रहे Agent Organizer के बारे में भी जिज्ञासा जताई गई
  • अगर LLM workstation देखना हो तो Alex Ziskind का YouTube चैनल(@AZisk) सुझाया गया
    वहाँ लोकल LLM के लिए workstation reviews की विविध सामग्री मिलती है
    प्रस्तुति भी साफ़-सुथरी है और सलाह व्यावहारिक है

    • sponsor support हो सकता है, लेकिन उपकरण खुद खरीदकर review करने का risk लेना प्रभावशाली है
    • एक टिप्पणी में इसे “बिना फालतू बात के सीधा मुद्दे पर आने वाला चैनल” कहा गया
  • MacBook Pro M4 Max 128GB पर मुख्य रूप से LMStudio और Ollama इस्तेमाल करते हैं
    मॉडल हैं qwen3-coder-30b A3B Instruct 8-bit MLX और gpt-oss-120b-MXFP4-Q8
    बड़े पैमाने के code generation में सीमाएँ हैं, लेकिन लोकल repo summary और documentation के लिए यह पर्याप्त है
    संबंधित कम्युनिटी भी काफ़ी सक्रिय है

    • r/LocalLLM
    • r/LocalLLaMA
    • Mac पर Coderunner(GitHub लिंक) इस्तेमाल करने से LLM द्वारा बनाए गए code को सुरक्षित sandbox execution में चलाया जा सकता है
    • LM Studio API और qwen CLI को जोड़ने पर Claude Code जैसा environment बनाया जा सकता है
      README बनाने के लिए gemma3-27b-it-qat और gpt-oss-120b पसंद हैं
  • MacBook Pro M1 Pro 32GB + Asahi Linux पर Qwen3:32b को CLI से चला रहे हैं
    ARMv8 assembly या SoC से जुड़े कामों में मदद लेते हैं
    speed पढ़ने की रफ़्तार से बस थोड़ा धीमी है, यानी काफ़ी उपयोगी है
    सुना है Qwen3-coder और तेज़ है, इसलिए रुचि बनी है
    cloud या agent integration के बिना पूरी तरह लोकल environment पसंद है
    Ollama अब offline-first दिशा से हट रहा है, इसलिए अब llama.cpp पर जाने का सोच रहे हैं
    model format अलग होने के कारण यह सोच रहे हैं कि Ollama model वैसे ही इस्तेमाल हो पाएँगे या नहीं
    [ध्यान दें] Linux पर power consumption ज़्यादा है, इसलिए इसे बिजली से जोड़कर ही इस्तेमाल करना चाहिए

    • Qwen3 Coder, MoE architecture (30B में से 3B active) होने के कारण बहुत तेज़ है
      सामान्य कामों में कम स्मार्ट हो सकता है, लेकिन coding-केंद्रित कामों में काफ़ी कुशल है
 
chcv0313 2025-11-02

पढ़ते-पढ़ते..... मुझे लगा, उम्मीद से ज़्यादा DGX SPARK की मांग हो सकती है? शुरू में तो मैंने सोचा था, उसकी cost-effectiveness इतनी बेकार है, उसे खरीदेगा कौन! लेकिन,

 
aer0700 2025-11-02

कंपनी की आंतरिक सुरक्षा नीति की वजह से हम बाहरी LLM API बिल्कुल भी इस्तेमाल नहीं करते, और फिलहाल कंपनी के cloud management विभाग द्वारा vllm-आधारित gpt oss उपलब्ध कराया जा रहा है, उसी का उपयोग कर रहे हैं.

 
aer0700 2025-11-02

इसे पूरी तरह local कहना थोड़ा अस्पष्ट-सा लगता है।