लोकल मॉडल चलाना अब सच में बेहतर हो गया है

(vickiboykis.com)

20 पॉइंट द्वारा GN⁺ 2026-06-17 | 7 टिप्पणियां | WhatsApp पर शेयर करें

2022 के M2 Mac वातावरण में भी लोकल LLM का प्रदर्शन इतना बेहतर हो गया है कि उसे डेवलपमेंट सवालों, कोड कार्यों और दस्तावेज़ जाँच में व्यावहारिक रूप से इस्तेमाल किया जा सकता है
शुरुआती लोकल मॉडल धीमे थे, इस्तेमाल में कठिन थे, और प्रोग्रामिंग कार्यों में उनकी सटीकता भी कम थी, लेकिन GPT-OSS के बाद API मॉडल से दोबारा पुष्टि करने की ज़रूरत कम हो गई
Gemma 4 परिवार की नवीनतम रिलीज़ के साथ लोकल agent coding loop frontier models की तुलना में लगभग 75% सटीकता और गति पर काम कर रहा है
Pi और LM Studio का संयोजन लोकल inference endpoint, model artifact, और Docker isolation कॉन्फ़िगरेशन के ज़रिए agent workflow चलाता है
लोकल मॉडल में अभी भी inference latency, छोटा context window, और hardware constraints जैसी सीमाएँ हैं, लेकिन token processing, system prompt, quantization, और harness को सीधे देखा और बदला जा सकता है

लोकल मॉडल की वर्तमान स्थिति

शुरुआती लोकल मॉडल अधिकांश प्रोग्रामिंग कार्यों में धीमे, उपयोग में कठिन, और सटीक नहीं थे
यह आकलन कि लोकल मॉडल काफी पीछे हैं, व्यक्तिगत उपयोग के मानदंड पर GPT-OSS के आने से पहले तक काफी हद तक सही था
“काफ़ी अच्छा मॉडल” का व्यक्तिगत मानदंड यह था कि क्या उसे API मॉडल से फिर जाँचना पड़ता है, और GPT-OSS पहला मॉडल था जिसने इस पुनर्पुष्टि की आवृत्ति को काफी कम किया
हाल तक लोकल मॉडल मुख्यतः उन डेवलपमेंट सवालों के लिए एक तेज़ और व्यक्तिगत Google की तरह इस्तेमाल होते थे जिनमें ताज़ा जानकारी ज़रूरी नहीं होती थी
Gemma 4 परिवार की नवीनतम रिलीज़ के बाद लोकल में agent coding loop frontier models की तुलना में लगभग 75% सटीकता और गति से चलने लगा है {p:75}

इस्तेमाल किए गए मॉडल और रनटाइम वातावरण

2022 के M2 Mac, 64GB RAM, और 1TB स्टोरेज वाले वातावरण में कई लोकल मॉडल चलाए गए
- इस्तेमाल किए गए मॉडल थे Mistral 7B, Gemma 3, OpenAI OSS-20B, Qwen 3 MOE, Qwen 2.5 Coder आदि
रन कॉन्फ़िगरेशन raw llama.cpp, Open WebUI, llama-cpp-python, Ollama, llamafiles, और LM Studio से होकर गुज़रा
डिफ़ॉल्ट लोकल मॉडल के रूप में LM Studio की gemma-4-26b-a4b implementation का उपयोग किया गया

वास्तविक लोकल agent कार्यों के उदाहरण

एक notebook-आधारित Python script को 5–6 modules वाले repository में refactor किया गया
उन modules को PEP 585 मानक के अनुसार generic type hints इस्तेमाल करने के लिए lint किया गया
ब्लॉग पोस्ट प्रूफ़रीडिंग, unit test लिखने, और recommendation के लिए two-tower model repository की शुरुआती संरचना बनाने में भी लोकल सेटअप इस्तेमाल किया गया
खाली स्थिति से agent द्वारा बनाई गई two-tower model repository बुनियादी थी, लेकिन यह पिछले साल संभव मानी जाने वाली सीमा से आगे थी
सभी agent workflows सीमित execution access वाले Docker container के अंदर चलाए गए

संसाधन उपयोग और नवीनतम छोटे मॉडल

किए गए कार्य क्रांतिकारी कम और व्यक्तिगत Google या दस्तावेज़ lookup के अधिक क़रीब थे
कार्यों के दौरान GPU और RAM उपयोग बढ़ा, और K-V cache 64GB RAM तक पहुँच गया
साधारण कार्य भी इस तरह के लोकल मॉडल सेटअप पर सिर्फ़ 6 महीने पहले तक संभव नहीं थे
Gemma-4-12b-qat रिलीज़ होते ही अपने आकार के मुकाबले प्रभावशाली प्रदर्शन दिखाता था
मॉडल आर्किटेक्चर यह सवाल खड़ा करता है कि प्रदर्शन और लागत सीमाओं के बीच किस तरह के आर्किटेक्चरल समझौते ज़रूरी होते हैं

लोकल agent मॉडल रन कॉन्फ़िगरेशन

लोकल agent flow चलाने के लिए लोकल model inference engine, agent harness, और लोकल model artifacts की ज़रूरत होती है
harness को लोकल inference endpoint की ओर सेट करना होता है, और डाउनलोड किए गए model artifacts को inference engine के माध्यम से serve करना होता है
वर्तमान लोकल सेटअप में Pi को agent harness और LM Studio को inference server के रूप में इस्तेमाल किया गया है
Pi और LM Studio के साथ Gemma 4 agent coding सेट करने वाली पोस्ट का अनुसरण किया गया, लेकिन कुछ सेटिंग्स बदली गईं
- पोस्ट के Gemma 26B A4B की जगह अधिक नया, छोटा, और तेज़ gemma-4-12b-qat मॉडल इस्तेमाल किया गया, और सटीकता में बड़ा नुकसान नहीं हुआ
- सुरक्षा के लिए सभी Pi sessions को Docker container में चलाया गया और केवल bash permissions दी गईं, ताकि Python code execution और web browsing रोकी जा सके
- research कार्यों के लिए अलग image में curl अनुमति देने की योजना है
- Docker के भीतर चलने के कारण Pi के models.json को संशोधित किया गया ताकि Pi मॉडल के साथ संचार कर सके

Docker-आधारित isolation तरीका

Pi कॉन्फ़िगरेशन में baseUrl को http://host.docker.internal:1234/v1 और API को openai-completions पर सेट किया गया
Docker Compose कॉन्फ़िगरेशन models.json, working directory, Pi settings, और session directory को container में mount करता है
रन स्क्रिप्ट वर्तमान working directory को container workspace से जोड़ती है, और ज़रूरत पड़ने पर अधिक सुरक्षित sandbox Compose file भी जोड़ी जा सकती है
Pi जिस repository पर काम कर रहा होता है, उसी से Docker चलाता है, इसलिए वह physical disk की files या directories को सीधे delete नहीं कर सकता
custom model json कॉन्फ़िगरेशन को container के भीतर भेजा जा सकता है, इसलिए यह experimental environment में काफ़ी अच्छा चला

बची हुई सीमाएँ

लोकल मॉडल में अभी भी inference धीमा हो सकता है, context window छोटा होता है, और उपलब्ध context आपके hardware से सीमित होता है
ecosystem अब LM Studio और Hugging Face के Use This Model button जैसे टूल्स की वजह से कहीं अधिक आसान हो गया है
शुरुआती रिलीज़ में prompt template mismatch जैसी समस्याएँ आती हैं, लेकिन ऐसे मुद्दे आमतौर पर बहुत जल्दी patch हो जाते हैं
यह कहना अभी भी मुश्किल है कि यह सीधे production software development में इस्तेमाल के लिए पूरी तरह तैयार है

लोकल मॉडल के फायदे और प्रयोग की संभावनाएँ

लोकल मॉडल में लगभग हर चीज़ को अंदर तक देखा जा सकता है, और token inference प्रक्रिया को real time में देखा जा सकता है
input और output token flow को सीधे जाँचा जा सकता है
लोकल context window बदलते हुए प्रदर्शन के बेहतर या बदतर होने की प्रक्रिया देखी जा सकती है
यह भी समझा जा सकता है कि tokens GPU पर कैसे process होते हैं, और system prompt व quantization settings को भी बदला जा सकता है
मॉडलों को एक-दूसरे के खिलाफ़ चलाया जा सकता है, harness-side settings बदली जा सकती हैं, और उनके असर को देखा जा सकता है, इसलिए प्रयोग की संभावनाएँ लगातार बढ़ रही हैं

7 टिप्पणियां

syate 2026-06-18

"काम के स्वाभाविक chunk size और इस तथ्य की वजह से कि छोटे models स्पष्ट निर्देशों को पसंद करते हैं, उपयोगकर्ता code को कहीं अधिक विस्तार से समझने लगते हैं।
इसका यह मतलब नहीं है कि local models project structure का सार नहीं बता सकते या bugs नहीं ढूंढ सकते, बल्कि इसका मतलब यह है कि वे कहीं अधिक hands-on काम करने के तरीके को पुरस्कृत करते हैं।"

Comments में यह हिस्सा प्रभावशाली लगा।
मैं इससे सहमत हूँ।

emptybynature 2026-06-17

अगर यह कहना है कि local model अब इस्तेमाल लायक हो गए हैं, तो फिर ChatGPT को superintelligent कहना पड़ेगा... local model अभी उस स्तर से बहुत दूर हैं। मेरे हिसाब से local model को इस्तेमाल लायक कहने के लिए कम से कम 4 RTX 5090 जोड़कर 100B से बड़े मॉडल चलाने चाहिए, तभी वे "किसी हद तक" इस्तेमाल लायक लगेंगे।

GN⁺ 2026-06-17

Lobste.rs की राय

अभी के workflow में मैं ऐसे tools का खास इस्तेमाल नहीं करना चाहूँगा, लेकिन मेरी सबसे बड़ी शिकायत centralization से है, और मुझे लगता है कि इसका असर environment, privacy, power distribution जैसे क्षेत्रों तक फैलता है
इसलिए locally host किए जा सकने वाले models का सचमुच बेहतर होना स्वागतयोग्य है
- आगे चलकर चीज़ें उसी दिशा में जाएँगी, ऐसा लगता है। कोई भी अपना सारा data किसी service provider को भेजना नहीं चाहता, और price increase या model उपलब्ध रहेगा या नहीं, यह पूरी तरह provider की मर्ज़ी पर निर्भर है
  Anthropic के Fable मामले में जैसा देखा गया, खुद को digital serf बना लेना एक वास्तविक जोखिम है
  अगर local models और coding harness लगातार बेहतर होते रहे, तो provider से model किराये पर लेने की वजह कम होती जाएगी, भले ही local model की कुल performance कुछ कम हो। उदाहरण के लिए, बहुत से लोग Claude की जगह DeepSeek इसलिए इस्तेमाल करते हैं क्योंकि वह काफ़ी काम का है और बहुत सस्ता भी। Local के मामले में भी एक बिंदु के बाद यह ज़्यादा अहम हो जाएगा कि local model काम कर पा रहा है या नहीं, बजाय इसके कि आप कोई बेहतर model किराये पर ले सकते हैं या नहीं
  tools को customize और tune करने की संभावना भी काफ़ी है। किसी खास भाषा के लिए LoRA बनाने के उदाहरण मैंने ज़्यादा नहीं देखे, लेकिन सीमित domain में models को कहीं अधिक प्रभावी बनाया जा सकता है, और उस स्तर पर वे किसी विशाल general-purpose model से बेहतर भी हो सकते हैं
- Local models दिलचस्प तरीके से अलग हैं, और उनमें से कुछ बातें फायदे की हो सकती हैं। Inference power लगभग high-end gaming GPU के स्तर की होती है, और वह भी सिर्फ token generate करते समय इस्तेमाल होती है; आम तौर पर इसे लगभग 300W तक सीमित किया जा सकता है। अगर आप code पढ़ते हुए लिख रहे हैं, तो workday का लगभग 25% ही token generation में जाता है, इसलिए sustained power लगभग 75W मानी जा सकती है
  साल में कुछ local-size models को train करने की बिजली-खपत शायद industrial civilization के background noise में समा जाने लायक हो। Data पूरा local रहता है, और बिचौलियों को बढ़ावा भी कम देना पड़ता है
  Local models अपेक्षाकृत कम समझदार होते हैं, और यही बात आपको काम के ज़्यादा करीब बनाए रखती है। Fable को अगर कहा जाए “इस सड़क पर घर भर दो”, तो वह ढेर सारे भद्दे McMansion उगल सकता है, लेकिन Qwen3.6 27B से “इन चार कमरों को रंग दो” कहना ज़्यादा स्वाभाविक लगता है। काम के natural chunk size और छोटे models की specific instructions पसंद करने वाली प्रवृत्ति की वजह से user को code बहुत अधिक विस्तार से समझना पड़ता है
  इसका मतलब यह नहीं कि local models project structure का सार नहीं बता सकते या bugs नहीं ढूँढ सकते; मतलब सिर्फ इतना है कि वे कहीं अधिक hands-on working style को reward करते हैं। Fable वह model है जिसने सचमुच हमें यक़ीन दिलाया कि हम बर्बाद हैं, और वह वाकई पूरे project को झट से उगल सकता है। वे “McMansion” देखने में ठीक लगते हैं, लेकिन उनकी छत टपकती है, नींव डगमगाती है, और कारीगरी बस बिकने लायक भर होती है। बेशक, market में उसके बहुत सफल होने की संभावना है, और Fable का सबसे खराब दिन भी कई enterprise SaaS से बेहतर है। हाँ, compliance और security को छोड़कर
  इसलिए मुझे local models एक दिलचस्प tool लगते हैं, लेकिन अगली frontier models जो अफरातफरी पैदा करेंगे, उसका मुझे बिल्कुल इंतज़ार नहीं है
अकादमिक क्षेत्र के लोग local models का इस्तेमाल कहाँ करते हैं, यह जानने की जिज्ञासा है। qwen3-coder:30b LaTeX editing और OCR-प्रोसेस किए गए papers पर queries चलाने के लिए ठीक लगा, लेकिन सोच रहा हूँ और क्या उपयोग हैं
- मैं academia में हूँ। agentic coding का इस्तेमाल नहीं करता, और writing के लिए LLM बिल्कुल नहीं इस्तेमाल करता। लगता भी है कि ज़्यादातर editors इसे मना करते होंगे
  जब भी कोशिश की, बहुत निराशा हुई, और local inference pipeline सेट करने की झंझट और उसकी fragility भी काफ़ी है। Laptop GPU बहुत छोटा है, इसलिए shared computing cluster इस्तेमाल करना पड़ता है
  कभी-कभी ollama/qwen3-coder या duck.ai इस्तेमाल करता हूँ। जब किसी अनजान language या library में कुछ करने के लिए खोजने लायक keywords ही दिमाग़ में नहीं आते, या regex/SQL जैसे बहुत specific काम में, जहाँ मेरी पकड़ कमज़ोर है, तब थोड़ी मदद ले लेता हूँ
- इसका इस्तेमाल translation के draft बनाने में करता हूँ। उन translations को edit करते हुए मैंने course materials की काफ़ी गलतियाँ सुधारीं, जिन्हें शायद बिना translation के भी पकड़ सकता था, लेकिन व्यवहार में नहीं पकड़ पाया था। यह खास तौर पर तब प्रासंगिक है जब आप single-language environment में नहीं पढ़ा रहे होते
  इसे personal छोटे scripts या mini tools का पहला draft एक ही बार में बनाने के लिए भी इस्तेमाल करता हूँ। जैसे translation request से TikZ को exclude करने वाला harness। बाद में debugging की ज़रूरत पड़ती है, लेकिन जो उबाऊ हिस्से LLM किसी तरह सही कर देता है, उन्हें खुद लिखने से debugging कहीं ज़्यादा मज़ेदार है। Verification strategy हाथ से लिखे code की तुलना में भी ज़्यादा महत्वपूर्ण हो जाती है, और आदर्श रूप में वह ऐसी होनी चाहिए जहाँ “बचे हुए bugs tool चलाते समय काफ़ी साफ़ नज़र आ जाएँ”
  सच कहूँ तो Qwen3.6 standard proof-writing exercises के sample solution drafts बनाने में जितना ठीक निकला, उससे मैं हैरान था। अपनी मनचाही style में edit करते-करते वह कभी-कभी axe porridge/stone soup जैसी चीज़ बन सकती है, लेकिन कुछ formulas अंत तक बची रह सकती हैं। आखिरकार यह इस बात पर निर्भर करता है कि काम कितना उबाऊ है
- मूल रूप से इसका इस्तेमाल proofreading के लिए करता हूँ, जो spelling/grammar check से एक कदम आगे है। या फिर data analysis के लिए तेज़ scripts लिखने में, लेकिन final analysis के लिए नहीं, बल्कि pilot experiments जैसी exploratory उपयोग के लिए

kaboom45 2026-06-17

मैं DDR3+i5 integrated graphics PC पर qwen3.6 27b को 1 token प्रति सेकंड की रफ्तार से चला रहा हूँ.
पहले ऐसे इंतज़ार के बाद सिर्फ बेतुके नतीजे मिलते थे, लेकिन अब कम से कम इस्तेमाल लायक output तो आ ही जाता है.
6 महीने पहले जिस performance के लिए 80~120B class का size चाहिए था, अब उसके लिए 30B class ही काफ़ी लगती है, और मुझे लगता है कि करीब 1 साल बाद opus4.8, gpt5.5 class की code performance भी 30B में देखने को मिल सकती है.
तब इस तरह दिन भर में 50~70 हज़ार token निकालने वाले local model भी secondary option के तौर पर चुनने लायक काफ़ी अच्छे विकल्प बन जाएंगे, ऐसा मुझे भरोसा है.

beoks 2026-06-17

लोकल मॉडल को ठीक से इस्तेमाल करने के लिए उसके अनुरूप हार्डवेयर का सपोर्ट होना चाहिए, लेकिन हार्डवेयर भी बहुत महंगा है, इसलिए security जैसी कोई खास वजह न हो तो अभी के लिए subscription या API calls ज़्यादा cost-effective लगते हैं।

kaydash 2026-06-17

एजेंट के लिए तो जैसे-तैसे चल जाता है, लेकिन coding agent के लिए तो थोड़ा...