10 पॉइंट द्वारा GN⁺ 3 시간 전 | 3 टिप्पणियां | WhatsApp पर शेयर करें
  • cloud flagship models की कीमतों में तेज़ बढ़ोतरी के बीच, बिना अतिरिक्त लागत के coding काम जारी रखने के लिए local models इस्तेमाल करने के तरीके संक्षेप में बताए गए हैं
  • local models, SOTA models के प्रदर्शन तक नहीं पहुँचते, लेकिन price-to-performance और deterministic harness के सहारे उनकी गुणवत्ता को 6 गुना तक बढ़ाया जा सकता है
  • coding के लिए Gemma 4 सामान्य कार्य और code generation के बीच अच्छा संतुलन देता है, और Tools Use·Vision·Reasoning सपोर्ट के कारण VS Code integration के लिए उपयुक्त है
  • LM Studio से model server चलाकर उसे VS Code Copilot·Pi के custom endpoint से जोड़ने की पूरी setup प्रक्रिया दी गई है
  • अगर hardware कमज़ोर हो तो OpenRouter free models विकल्प हो सकते हैं, लेकिन offline और privacy के मामले में local models अब भी बेहतर हैं

कीमत बढ़ने की पृष्ठभूमि

  • GitHub Copilot, credit model से usage-based billing पर चला गया है, और पहले के free models भी अब free नहीं रहे
  • GitHub token reseller होने के कारण कीमत बढ़ने का असर और ज़्यादा महसूस होता है। flagship models बेहतर तो हुए हैं, लेकिन उनकी performance बढ़त उनकी कीमत बढ़त के साथ तालमेल नहीं रख सकी
    • Google Flash 3.5, Flash 2.5 की तुलना में 3 गुना महँगा है
    • GPT 5.5, GPT 5 की तुलना में 3 गुना महँगा है
    • Claude पहले से ही बहुत महँगा था, इसलिए उसकी कीमत उलटे कम की गई

local models की वास्तविकता और ताकत

  • local models, Claude·GPT·Gemini जैसे SOTA models के स्तर तक नहीं पहुँचते, लेकिन इसमें कुछ nuance हैं
    • कीमत/प्रदर्शन अनुपात: cloud models में performance gains के साथ लागत बहुत तेज़ी से बढ़ती है
    • deterministic harness: बेहतर tooling और instructions के ज़रिए कमज़ोर models की गुणवत्ता को 6 गुना तक सुधारा जा सकता है
    • benchmark का भ्रम: किसी model को एक ही संख्या में समेटना मुश्किल है, और हर AI lab अपने पक्ष के benchmark पर ज़ोर देती है, इसलिए अपने workload पर खुद परीक्षण ज़रूरी है
    • भू-राजनीतिक प्रभाव: अमेरिकी labs जो free में जारी करते हैं, वह सर्वोच्च स्तर का नहीं होता। gpt-oss-20b बहुत पुराना है और Anthropic ने open weights जारी नहीं किए हैं। Gemma 4 ही एकमात्र गंभीर विकल्प है, जबकि Qwen·Kimi·GLM जैसे चीनी labs के सक्षम models पर ध्यान देना चाहिए
  • "brain rot" के नज़रिए से देखें तो कमज़ोर models में user को ज़्यादा दखल देना पड़ता है, इसलिए यह दिमागी स्वास्थ्य के लिए अच्छा हो सकता है
    • यह साइकिल चलाने जैसा है: धीमा है, लेकिन सेहत के लिए अच्छा। knowledge work में "slow is fast"
    • लक्ष्य यह नहीं होना चाहिए कि सोचने का काम पूरी तरह मशीन को सौंप दिया जाए। थोड़ी तात्कालिक रफ़्तार के लिए अपने भविष्य के स्व-मूल्य (relevance) की कुर्बानी न दें
    • कमज़ोर models को संभालने की तकनीकें बड़े models पर भी लागू होती हैं। कमज़ोर model के साथ काम करना hard mode में खेलने जैसा है, जो सीख लेने पर बड़े tools को और प्रभावी बना देता है

model चयन — Gemma 4

  • coding के लिए चीनी models, Huggingface leaderboard में ऊपर दिखाई देते हैं, जिनमें Qwen·DeepSeek·Kimi·Llama·Gemma आदि शामिल हैं
  • Gemma 4 कई versions में उपलब्ध है
    • E2B: यहाँ "E" का मतलब edge है। 2B parameters होने के कारण यह ज़्यादातर hardware पर चल जाता है, लेकिन hallucination या task अधूरा छोड़ने का जोखिम अधिक है
    • E4B: E2B से दोगुना बड़ा। download और setup सस्ता होने के कारण शुरुआत के लिए अनुशंसित
    • 12B: decoder के बिना images को native रूप से समझता है, इसलिए frontend और visual coding में तेज़ है। audio भी native रूप से support करता है, लेकिन coding workload में इसकी अहमियत कम है
    • 26B A4B: 26B parameters में से केवल 4B सक्रिय होने वाला MoE(mixture of experts) architecture। E4B से ज़्यादा smart, और 8~12GB VRAM वाले graphics cards के लिए उपयुक्त (लेखक की पसंद)
    • 31B: Google का सबसे बड़ा open weights model। यह MoE नहीं है, इसलिए इसे बहुत अधिक VRAM चाहिए। AMD APU पर इसकी गति 1~2 TPS तक गिर जाती है, जो व्यावहारिक रूप से अनुपयोगी है
    • QAT variants (जैसे E4B QAT) कम memory में लगभग वही गुणवत्ता बनाए रखते हैं। Unsloth इस पर अतिरिक्त optimization कर रहा है

local models चलाने के लिए ज़रूरी घटक

  • local model चलाने के लिए harness·model·runtime·model manager की ज़रूरत होती है
    • Harness: VS Code Copilot, Copilot CLI, Pi आदि। यह model (probabilistic हिस्सा) के चारों ओर मौजूद deterministic component (traditional code) है
    • Model: deep neural network weight files। quantization(Q8, Q4 आदि) की अवधारणा image resolution जैसी है, और formats GGUF·MLX आदि होते हैं
  • Runtime (inference engine)

    • Llama.cpp: सबसे लोकप्रिय open source runtime, जो GGUF·MLX load कर सकता है। इसका Meta के Llama model से सीधा संबंध नहीं है, और LM Studio इसे अंदरूनी तौर पर इस्तेमाल करता है
    • MLX: Apple runtime। M1·M2 जैसे Mac systems पर उपयोग होता है
    • ONNX Runtime: transformers.js आधारित, जो WebGPU के ज़रिए browser में चल सकता है, और iOS·Android mobile भी support करता है
    • vLLM: UC Berkeley से आया open source runtime, मुख्यतः high-performance servers के लिए, लेकिन setup काफ़ी जटिल है
  • Model manager

    • Ollama: terminal CLI से शुरू हुआ और बाद में हल्का GUI जोड़ा गया। यह Llama.cpp के ऊपर बना Go wrapper है। open source है
    • LM Studio: free है लेकिन open source नहीं। SDK(Python/TypeScript) और REST API देता है, और local model की खास क्षमताओं (जैसे dynamic loading) को नियंत्रित कर सकता है
    • Jan: free और open source, LM Studio जैसा विकल्प, लेकिन features कम हैं
    • OpenAI-compatible API support इसका मुख्य बिंदु है, क्योंकि बहुत-सी AI applications इसी de facto standard पर काम करती हैं

LM Studio server setup

  • "Developer" बटन में toggle से server शुरू करें। अगर इसे दूसरी मशीन या container से चलाना है तो Serve on Local Network, और web app access के लिए Enable CORS चालू करें
  • LM Studio, request के समय model load करने के लिए JIT(Just In Time) loading का उपयोग करता है। TTL setting से memory में model कितनी देर रहे, यह नियंत्रित किया जा सकता है
    • Cold start: model पहले से load न होने पर पहली request में लगभग 10~30 सेकंड अतिरिक्त लगते हैं, जो AWS Lambda cold start जैसा है। इसका असर TTFT(Time To First Token) metric पर पड़ता है
    • छोटी context window: default setting में context window केवल 4k हो सकती है, इसलिए इसे हाथ से बढ़ाना पड़ सकता है। VS Code Copilot के ज़्यादातर models में 200~400k context होता है
  • context length और memory settings

    • अलग-अलग context lengths पर VRAM आवश्यकताएँ: 262144(अधिकतम) = 25.74GB, 4096(डिफ़ॉल्ट) = 18.16GB, 150000(लेखक की पसंद) = 22.45GB
    • coding के लिए system prompt ही 20~40k tokens ले सकता है, इसलिए कम से कम 100k tokens लोड करना ज़रूरी है
    • context बहुत बड़ा होने पर token generation की गति घटती है। सबसे अच्छा बिंदु वह है जहाँ harness context को अपने आप compress कर दे
    • आदर्श स्थिति में model की सभी layers GPU पर चलनी चाहिए, इसलिए "GPU Offload" slider को अधिकतम करने की सिफारिश है। CPU layers चलाने पर Apple Silicon(UMA) को छोड़कर CPU-GPU data copy की अतिरिक्त लागत आती है
  • KV cache quantization trick

    • K Cache Quantization Type को Q8_0, और V Cache Quantization Type को Q4_0 पर सेट करें
    • इसमें key को value से अधिक resolution पर रखा जाता है। इस setting से GPU memory आवश्यकता default 28.75GB से घटकर 22.45GB हो जाती है
    • setting को save करना अनिवार्य है। save न करने पर अगली model load में यह default पर लौट जाएगी
    • VS Code Copilot में custom context window request का अलग concept नहीं है, इसलिए LM Studio को REST API call के समय यह setting याद रखनी चाहिए
  • अगर TPS 10 से कम है, तो coding के लिए इसे सहना मुश्किल होगा। model के इंतज़ार में अधिक समय जाएगा

Copilot custom endpoint कनेक्ट करना

  • नवीनतम VS Code (लेखन के समय 1.122.1) चाहिए। model selector → gear icon → "Add Models" → "Custom Endpoint" पथ से जोड़ें
    • एक नाम दें (जैसे "Local LM Studio"), API Key भरें (सेट न हो तो Enter), और inference API प्रकार चुनें
    • तीन API प्रकारों में से केवल Chat Completions सहज रूप से काम करता है
  • JSON config में url, maxInputTokens, maxOutputTokens आदि हाथ से सेट करें
    • thinking option सही तरह सेट करें (Gemma 4 support करता है)
    • supportsReasoningEffort array हर model के लिए अलग होती है, और 26B version, E4B की तुलना में अधिक सूक्ष्म नियंत्रण देता है
    • 4B के लिए maxInputTokens 64000/maxOutputTokens 16000, और 26B MoE के लिए 100000/50000 सेट करें
  • पहली prompt पर Copilot बहुत बड़ा system prompt और tool definitions भेजता है, इसलिए पहली interaction में 2~5 मिनट की देरी हो सकती है
    • इसमें model load होने के 30 सेकंड और prompt input process होने के लगभग 5 मिनट लग सकते हैं
    • यह हर session में सिर्फ एक बार होता है, क्योंकि LM Studio prompt caching लागू करता है। Pi में यह समस्या नहीं है, क्योंकि उसका system prompt छोटा है
  • तेज़ test और environment

    • AGENTS.md या SKILL के बिना one-shot prompt से Snake game बनवाकर Gemma 4 26B A4B की क्षमता दिखाई गई
    • उपयोग environment: Lenovo Thinkpad L16 Gen 2, AMD Ryzen 7 PRO 250 APU, 64GB DDR5(5,600MT/s), Aurora Linux। लेखक के अनुसार 32GB भी काफ़ी है

Pi setup

  • local LM Studio server से कनेक्ट करना आसान है, और contextWindow setting, LM Studio की configuration शैली से बेहतर मेल खाती है
  • baseUrl को http://host.containers.internal:1234/v1 और api को openai-completions पर सेट करें
    • 4B के लिए contextWindow 64000/maxTokens 16000, और 26B MoE के लिए 150000/50000 सेट करें, साथ में thinkingLevelMap mapping भी दें

local models के फायदे और नुकसान

  • फायदे: offline operation, बेहतर privacy, और hardware·workflow·model·settings के आधार पर तेज़ response speed
  • नुकसान
    • open weights models, flagship proprietary models जितने smart नहीं होते, लेकिन उपयुक्त guardrails (lint·tests·AGENTS.md) वाले harness से coding accuracy को काफ़ी सुधारा जा सकता है
    • उसी मशीन पर LLM चलाने से hardware load बढ़ता है और speed कम हो सकती है
    • cold start, पहली prompt processing (cache miss), और शुरुआती hardware investment की ऊँची लागत
  • LM Studio की आदत हो जाने पर GUI के बिना सीधे Llama.cpp इस्तेमाल किया जा सकता है। ज़्यादातर harnesses custom endpoints support करते हैं, इसलिए local LLM integration संभव है

OpenRouter free model विकल्प

  • OpenRouter एक integrated API और routing service है, जो एक ही endpoint और account से सैकड़ों models उपलब्ध कराती है
  • Copilot·Zed·Pi तीनों OpenRouter को native support करते हैं, इसलिए सिर्फ API token जारी करके इसे जोड़ा जा सकता है
    • लागत अनियंत्रित न हो, इसके लिए $1/माह की सीमा वाला custom guardrail बनाएँ और केवल free models को allowlist में जोड़ें
    • नई API key बनाते समय max credit को 0 पर सेट करने की सिफारिश है
  • नुकसान: prompt और data training में इस्तेमाल हो सकते हैं (हालाँकि ZDR setting मौजूद है), internet connection चाहिए, और OpenRouter भविष्य में free models देना बंद कर सकता है
  • फायदे: local download और setup की ज़रूरत नहीं, और इस्तेमाल के दौरान कंप्यूटर धीमा नहीं पड़ता
  • 2026-06-09 update

    • Deepseek V4 Pro अपनाया गया। यह Claude Opus 4.8 के लगभग बराबर प्रदर्शन देता है, 5 गुना context window के साथ, और कीमत लगभग 17~86 गुना कम है
    • Pi और OpenRouter की कीमत में लगभग 3 गुना अंतर था, जिसका कारण यह निकला कि OpenRouter requests को महँगे endpoint (GMICloud) पर भेज रहा था
    • जटिल कामों के लिए सीधे Deepseek account खोला गया। लेकिन साधारण कार्य, behavior समझने, और privacy को प्राथमिकता देने की स्थिति में local models अब भी पहली पसंद हैं

3 टिप्पणियां

 
click 3 시간 전

आखिरकार निष्कर्ष यही निकला कि लोकल मॉडल इस्तेमाल करते-करते DeepSeek V4 Pro पर जाना पड़ा।
हर बार काम करते समय मॉडल बदल-बदलकर इस्तेमाल करना भी आसान नहीं था, इसलिए साधारण कामों के लिए लोकल इस्तेमाल करने की नीति भी निभाना मुश्किल था

 
kirinonakar 1 시간 전

ज़रूरी नहीं कि वह local ही हो; opencode, ollama, cursor आदि जैसे सस्ते subscription विकल्प भी बहुत हैं.

 
kurthong 2 시간 전

LLM के युग के हिसाब से मैं एक plugin बनाकर इस्तेमाल कर रहा हूँ। GN SHOW में भी इसे एक बार प्रस्तुत किया था, और लगता है कि इस तरह अपनी ज़रूरत के मुताबिक बनाकर इस्तेमाल करना भी एक तरीका है.

https://github.com/hang-in/tunaLlama