15 पॉइंट द्वारा GN⁺ 2026-05-11 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • 24GB मेमोरी वाले M4 MacBook Pro पर लोकल LLM चलाकर बुनियादी coding काम, research, planning आदि बिना इंटरनेट कनेक्शन के करने के लिए एक व्यावहारिक सेटअप साझा किया गया है
  • फिलहाल सबसे अच्छा काम करने वाला मॉडल Qwen 3.5-9B (Q4 quantization) है, जो LM Studio में लगभग 40 tokens/second की गति, thinking mode, tool use और 128K context window सपोर्ट देता है
  • Ollama, llama.cpp, LM Studio जैसे run tools के चयन से लेकर model और setting options तक पूरा setup process जटिल है, और हर tool की अपनी सीमाएँ हैं
  • यह SOTA models की तरह जटिल समस्याएँ अपने-आप हल नहीं कर सकता, लेकिन step-by-step interactive workflow में research assistant या rubber duck debugging के लिए पर्याप्त उपयोगी है
  • subscription fee के बिना केवल बिजली के खर्च पर इसे चलाया जा सकता है, और यह Big Tech पर निर्भरता कम करने वाले टिकाऊ AI उपयोग का एक तरीका हो सकता है, हालांकि performance और setup में trade-off बड़े हैं

लोकल मॉडल चलाने का वातावरण और चयन के मानदंड

  • M4 MacBook Pro 24GB मेमोरी वाले वातावरण में लोकल मॉडल चलाने की सेटिंग्स का परीक्षण किया गया, और भले ही यह top-tier मॉडल (SOTA) आउटपुट जैसा नहीं था, फिर भी इंटरनेट के बिना बुनियादी काम, research और planning संभाल सकने वाला setup संभव था
  • लोकल execution tools के रूप में Ollama, llama.cpp, LM Studio उपलब्ध हैं, और हर एक की सीमाएँ व उपलब्ध models अलग हैं
  • मॉडल चुनते समय यह ज़रूरी था कि वह मेमोरी में फिट हो और साथ में सामान्य Electron apps चलाने की भी गुंजाइश छोड़े, साथ ही कम-से-कम 64K, और आदर्श रूप से 128K या उससे बड़ा context window चाहिए था
  • हाल में आज़माए गए Qwen 3.6 Q3, GPT-OSS 20B, Devstral Small 24B मेमोरी में तो फिट हो गए, लेकिन व्यावहारिक उपयोग कठिन रहा; Gemma 4B अच्छी तरह चला, लेकिन tool use में दिक्कत दिखी
  • settings में temperature जैसे जाने-पहचाने मानों से लेकर K Cache Quantization Type जैसे विशेष options तक शामिल हैं, और thinking सक्षम है या नहीं, इसके अनुसार उपयुक्त मान बदल सकते हैं

Qwen 3.5-9B 4-bit quantization कॉन्फ़िगरेशन

  • qwen3.5-9b@q4_k_s LM Studio में चलाने पर लगभग 40 tokens/second, thinking सक्षम, सफल tool use और 128K context window—इन सबको एक साथ पूरा करने वाला सबसे अच्छा मॉडल था
  • यह top-tier models की तुलना में आसानी से भटक जाता है, कभी-कभी loop में फँस जाता है, और कुछ requests को गलत समझ लेता है, लेकिन 24GB MacBook Pro पर दूसरे कामों के लिए जगह छोड़ते हुए चलने वाले मॉडल के रूप में यह काफ़ी अच्छा था
  • thinking mode और coding कामों के लिए सुझाई गई settings इस प्रकार थीं
temperature=0.6, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0  
  • thinking सक्षम करने के लिए LM Studio में मॉडल चुनने के बाद configuration में जाएँ, फिर Inference टैब के नीचे Prompt Template में यह मान जोड़ें
{%- set enable_thinking = true %}  
  • इस मॉडल का उपयोग pi और OpenCode दोनों में किया गया; pi ज़्यादा responsive लगा, लेकिन harness को खुद बनाकर customize करने की सुविधा के बावजूद इसमें समझदार defaults की कमी थी
  • pi की settings मिलाने में वास्तविक project से भी ज़्यादा समय लग सकता था

pi सेटिंग

  • ~/.pi/agent/models.json में LM Studio के OpenAI-compatible endpoint और qwen3.5-9b@q4_k_s मॉडल को रजिस्टर किया गया
{  
  "providers": {  
    "lmstudio": {  
      "baseUrl": "http://localhost:1234/v1";,  
      "api": "openai-completions",  
      "apiKey": "lm-studio",  
      "models": [  
        {  
          "id": "qwen3.5-9b@q4_k_s",  
          "reasoning": true,  
          "compat": { "thinkingFormat": "qwen-chat-template" }  
        }  
      ]  
    }  
  }  
}  
  • बिखरे हुए thinking blocks छिपाने के लिए ~/.pi/agent/settings.json में "hideThinkingBlock": true जोड़ा गया

OpenCode सेटिंग

  • ~/.config/opencode/opencode.json में LM Studio को लोकल OpenAI-compatible provider के रूप में रजिस्टर किया गया, और tool use, 131072 context length तथा 32768 max tokens सेट किए गए
{  
  "$schema": "https://opencode.ai/config.json";,  
  "provider": {  
    "lmstudio": {  
      "npm": "@ai-sdk/openai-compatible",  
      "name": "LM Studio (local)",  
      "options": {  
        "baseURL": "http://127.0.0.1:1234/v1";  
      },  
      "models": {  
        "qwen3.5-9b@q4_k_s": {  
          "name": "Qwen 3.5 9B Q4_K_S",  
          "tools": true,  
          "context_length": 131072,  
          "max_tokens": 32768  
        }  
      }  
    }  
  },  
  "model": "lmstudio/qwen3.5-9b@q4_k_s"  
}  

top-tier models से अंतर

  • Qwen 3.5 9B Q4 जैसे models, top-tier models की तरह लंबे समय तक जटिल समस्याओं को स्वतंत्र रूप से हल करने के स्तर तक नहीं थे
  • पूरे app को एक बार में बनाने के लिए कहना उपयुक्त नहीं था, और ऐसा करने पर कोई परिणाम आए बिना सिर्फ laptop गर्म हो सकता था
  • बेहतर तरीका step-by-step स्पष्ट संवाद और बहुत सारे निर्देशों वाला interactive workflow था
  • लोकल मॉडल इस्तेमाल करते समय user को ज़्यादा सोच-विचार और planning खुद करनी पड़ती है और ज़्यादा specific निर्देश देने होते हैं, लेकिन research assistant, rubber duck, और programming language details व command-line invocations तुरंत याद दिलाने वाले सहायक के रूप में यह उपयोगी था
  • यह बड़े AI vendors द्वारा प्रचारित 10x productivity जैसा नहीं है, लेकिन meaningful मदद और दिलचस्प उपयोग अनुभव देता है

कौन से काम चले और कौन से विफल रहे

  • Elixir Credo warnings ठीक करना

    • Elixir linter credo को latest version पर अपग्रेड करने के बाद code में warnings आने लगीं, और Qwen से mix credo --strict चलाकर समाधान सुझाने, लेकिन edit न करने के लिए कहा गया
    • Qwen ने 4 test files में length/1 का उपयोग कर list खाली नहीं है यह जाँचने की समस्या पहचानी, और length(list) > 0 की जगह list != [] इस्तेमाल करने का सुझाव दिया
    • बाद में edit करने को कहने पर Qwen ने 4 parallel edits साफ़-सुथरे तरीके से कर दिए
    • यह ऐसा सरल काम था जिसे terminal और editor के बीच जाकर हाथ से भी किया जा सकता था, लेकिन इसने एक सुविधाजनक सहायक की भूमिका निभाई
  • Dependabot PR के rebase conflict संभालना

    • dependency update के बाद Dependabot PR में git conflict था, और Dependabot ने rebase से मना कर दिया, इसलिए उसे खुद fetch करके rebase किया गया और फिर Qwen से जाँच करने को कहा गया
    • conflict साधारण था: हर dependency के लिए नया version चुनना था, और Qwen ने sentry के लिए 13.0.1 तथा tailwind के लिए 0.4.1 बनाए रखने की सिफारिश की
    • लेकिन वास्तविक बदलाव करने को कहने पर Qwen ने file बदले बिना conflict markers छोड़े रखे और git add mix.lock && git rebase --continue चलाने की कोशिश की
    • वह git rebase --continue के editor खोलने वाले व्यवहार को भी नहीं पहचान सका, OpenCode रुक गया, हालांकि यह संभव है कि यह एक बार की समस्या रही हो

लोकल मॉडल के फायदे और सीमाएँ

  • लोकल models में बड़े trade-offs हैं, लेकिन इनका फ़ायदा यह है कि इंटरनेट के बिना, यहाँ तक कि flight में भी काम किया जा सकता है
  • अगर मान लिया जाए कि कंप्यूटर तो वैसे भी खरीदना है, तो लागत केवल बिजली की खपत तक सीमित रहती है और subscription की ज़रूरत नहीं पड़ती
  • मॉडल training में अब भी बड़ा पर्यावरणीय खर्च है, लेकिन open models बनाने वाली कंपनियाँ पर्यावरणीय प्रभाव की सबसे ऊपरी श्रेणी में नहीं आतीं, और व्यक्तिगत hardware के उपयोग से datacenter पर निर्भरता घटती है
  • इसमें खुद tuning और experimentation करने का मज़ा है
  • LLM पहले ही बड़ा प्रभाव डाल चुके हैं और इनके नकारात्मक पहलू भी बहुत हैं, लेकिन यह तकनीक बनी रहने वाली लगती है; लोकल मॉडल्स के साथ प्रयोग करना इस तकनीक के साथ ज़्यादा टिकाऊ और सकारात्मक तरीके से जुड़ने जैसा लगा

1 टिप्पणियां

 
GN⁺ 2026-05-11
Hacker News की राय
  • लोकल में LLM चलाना मज़ेदार और शक्तिशाली है, लेकिन असल में काम पूरा करना काफ़ी झंझटभरा होता है
    आपको पहले से योजना बनानी, स्पेसिफिकेशन बनानी और तैयारी करनी पड़ती है, जबकि OpenAI या Claude के बड़े मॉडल अक्सर कुछ ही वाक्य देकर तुरंत समझ जाते हैं

    • सही बात। खासकर पिछले 6 महीनों में बहुत से लोगों के लिए frontier model subscription fee काम का ख़र्च बन चुकी है
      अगर आप पहले से बड़े मॉडल के साथ गंभीर काम कर रहे हैं, तो बस वही इस्तेमाल करते रहिए
      लेकिन vision/OCR काम अलग मामला है। छोटे और मध्यम open weight मॉडल भी आधुनिक स्तर के काफ़ी करीब हैं, और बड़े batch कामों में prefill token cost काफ़ी खलती है
      और लोग अक्सर भूल जाते हैं कि छोटे LLM को भी अगर स्थिर निजी सेवा की तरह इस्तेमाल करना है, तो 16~24GB RAM/VRAM अलग से खाली रखकर उसे लगातार चलाना पड़ता है
    • अब offline उपयोग के लिए घर पर बड़े मॉडल चलाना तकनीकी रूप से आसान हो गया है। इसमें टॉप-टियर मॉडल खुले में जारी करने वाली चीनी कंपनियों का बड़ा हाथ है
      असली समस्या आख़िरकार पैसे की ही है
  • मुझे लगता है कि अब यह लगभग उपयोगी स्तर तक पहुँच गया है
    Gemma 4 31B लोकल मॉडल के लिए एक नई baseline जैसा लगता है। frontier model से तो स्वाभाविक रूप से कमज़ोर है, लेकिन अब तक चलाए गए लोकल मॉडल, GPT OSS 120B या Nemotron Super 120B की तुलना में यह कम वैज्ञानिक प्रयोग जैसा लगता है
    M5 Max 128GB RAM पर 256K पूरा context window इस्तेमाल करने पर RAM उपयोग लगभग 70GB तक चला जाता है, और system overhead लगभग 14GB दिखता है
    64GB Panther Lake में फुल Arc B390 लगा हुआ सिस्टम या 48GB Snapdragon X2 Elite मशीन पर यह 128K~256K context window के साथ चल सकता है, और 32GB में शायद 32K context window के साथ किसी तरह संभव हो
    पिछले साल तक इस तरह की performance को mainstream के क़रीब किसी high-end configuration पर देखना बेकार सपना लगता था

    • Gemma 4 सच में बहुत अच्छा है। इसने Opus 4.7 से छूटी चीज़ें भी पकड़ी हैं, और भले इसमें कुछ खुरदरे हिस्से हों, फिर भी मैं लगातार ऐसे उपयोग ढूँढ रहा हूँ जहाँ इसे लगभग बराबरी से इस्तेमाल किया जा सके
      आख़िरकार असली पैमाना यह है: “आप इस मॉडल को भरोसे से क्या सौंप सकते हैं?” Opus ज़्यादा चीज़ें जानता है और ज़्यादा जटिल काम भी कर सकता है, लेकिन अगर आप context अच्छी तरह दें, तो Gemma हैरान करने जितना अच्छा है
      इन दोनों मॉडलों को सौंपे जा सकने वाले कामों के दायरे में फ़र्क उम्मीद से कम है। इसने निजी टूल्स और कई प्रोजेक्ट्स में हाल में बहुत अच्छे नतीजे दिए हैं, और यह पहला लोकल मॉडल है जिस पर मैं किसी गैर-तुच्छ प्रोजेक्ट में agent mode में feature implementation भरोसे से छोड़ सका
      https://thot-experiment.github.io/gradient-gemma4-31b/
      यह अपेक्षाकृत जटिल टूल है जिसे OpenCode के अंदर Gemma 4 ने लगभग पूरा बनाया, और कई घंटों में सिर्फ़ लगभग 4 बार manual intervention की ज़रूरत पड़ी
      Q6_K_XL, 128K context @ q8 पर read लगभग 800tok/s, write लगभग 16tok/s
      llama.cpp के turboquant और MTP का इंतज़ार है; अगर अफ़वाहें सही हैं, तो शायद 256K और 25~30tok/s तक पहुँचा जा सके
    • छोटे Qwen 3.6 मॉडल context handling में Gemma 4 से थोड़े बेहतर हैं, लेकिन खासकर Gemma 4 26B अपनी श्रेणी में बहुत छोटा और efficient समाधान देने के मामले में काफ़ी समझदारी दिखाता है
      रिलीज़ के तुरंत बाद benchmark performance प्रभावशाली लगी थी, इसलिए मैंने इस पर एक लेख भी लिखा था [0]। लेकिन लंबे context वाले agent coding environment में चलाने के बाद ranking में इसकी जगह बाद में थोड़ी नीचे आई
      [0] https://gertlabs.com/blog/gemma-4-economics
    • ज़्यादातर editing कामों के लिए मैं छोटा Gemma E2B इस्तेमाल करता हूँ, और हैरानी की बात है कि यह काफ़ी अच्छा काम करता है
      workflow यह है कि planning नए मॉडल से कराते हैं और execution छोटे मॉडल से। अगर planning ठीक से हो और छोटे मॉडल के लिए समझने की कोई ambiguity न छोड़ी जाए, तो यह अच्छी तरह काम करता है
    • अगर आप time to first token और tokens per second भी साझा करें तो अच्छा रहेगा
    • अनुभव के हिसाब से क्या Gemma, qwen3 से बेहतर काम करता है, यह जानने की जिज्ञासा है
  • काश मैंने यह पोस्ट उस नतीजे पर पहुँचने से पहले देख ली होती, जिस पर मैं पूरे वीकेंड के बाद पहुँचा
    मैंने उसी laptop पर एक बनावटी टेस्ट किया, जिसमें एक छोटे vibe-coding C++ repository में लगभग 50 lint errors ठीक करवाने थे। उम्मीद थी कि यह बहुत सारे छोटे काम निपटा देगा और बहुत ज़्यादा बार अटकेगा नहीं
    GPT OSS 20B इस्तेमाल करने लायक था, लेकिन धीमा था, बेकार के वाक्य जोड़ता या दोहराता था, और अक्सर यह गलती करता था कि बिना code बदले भी दावा कर देता था कि उसने ठीक कर दिया
    Opencode के साथ इस्तेमाल किया गया Qwen 3.5 9B काफ़ी तेज़ था, compression के दौरान भी ज़्यादातर lint warnings बिना अटके संभाल गया, और सभी warnings को सही fixes के साथ ठीक किया
    मैंने Qwen 3.5 9B की 4-bit MLX quantization भी आज़माई, लेकिन आख़िरकार memory shortage से crash हो गया, और GGUF पर llama.cpp से चलाने पर बिना crash के चला
    frontier model से इसकी बिल्कुल तुलना नहीं की जा सकती। यह बहुत धीमा है, बुनियादी जानकारी भी ग़लत देता है, और किसी गैर-तुच्छ काम को एक बार में संभाल नहीं पाता
    जब मैंने इसे project architecture का सार बताने को कहा, तो इसने दावा किया कि repository में ऐसी libraries इस्तेमाल हो रही हैं जो वहाँ हैं ही नहीं। यह हर व्यक्ति के लिए अलग हो सकता है, लेकिन फिर भी इसमें कुछ उपयोगिता है, और उम्मीद है कि समय के साथ उचित hardware पर लोकल LLM वातावरण बहुत बेहतर होगा

    • “frontier model से इसकी बिल्कुल तुलना नहीं की जा सकती” — यह बात उतनी बार नहीं कही जाती जितनी कही जानी चाहिए
      लोकल LLM शानदार हैं, लेकिन इन पर बहुत कुछ पढ़ने के बाद ऐसा लग सकता है कि ये Opus 4.7 के काफ़ी क़रीब पहुँच गए हैं
      HN पर लोकल LLM की क्षमता को बहुत बढ़ा-चढ़ाकर बताने वाला बहुत छोटा, बहुत शोर मचाने वाला और बहुत उत्साही समूह है
    • qwen3.5 9b की जगह qwen3.6.35 a3b आज़माइए। यह पूरी तरह अलग है
    • यह काफ़ी हैरानी की बात है कि GPT OSS 20B Mac hardware पर धीमा चलता है
      समान आकार के मॉडलों में यह उन सबसे तेज़ मॉडलों में था जिन्हें मैंने local GPU पर चलाया है, हालाँकि मैंने सिर्फ़ Nvidia cards पर परीक्षण किया था
      बाद में देखा कि यह MoE है और इसके active parameters सिर्फ़ 3.6B हैं, जिससे बहुत कुछ समझ आता है
  • लोकल मॉडल, खासकर लेखक द्वारा इस्तेमाल किए जा रहे 9B जैसे छोटे मॉडल, असल में क्या कर सकते हैं, इसे यथार्थवादी नज़र से देखना उपयोगी है
    9B मॉडल लगभग Sonnet 3.6 स्तर के हैं, इसलिए autocomplete और छोटे functions तो कर लेते हैं, लेकिन बड़े मसले को समझने लगते ही धागा खो देते हैं
    फिर भी यह दिलचस्प है और इनके साथ खेलना मज़ेदार है। मैं मुख्यतः मज़े के लिए लोकल agent harness जैसी चीज़ें काफ़ी बनाता रहता हूँ
    मौजूदा प्रोजेक्ट एक no-install agent है: https://gemma-agent-explainer.nicklothian.com/
    Python, SQL, React — सब कुछ browser के अंदर पूरी तरह चलता है। सबसे अच्छे अनुभव के लिए मैं Gemma E4B की सिफ़ारिश करता हूँ
    यह अभी भी सक्रिय development में है, और HTML5 Filesystem API तथा LiteRT support की वजह से Chrome चाहिए। हालांकि ज़्यादातर Chromium-आधारित browsers पर भी इसे चलाया जा सकता है
    ज़्यादातर agents से इसका फ़र्क यह है कि यह no-install है। मॉडल browser के अंदर LiteRT/LiteLLM से चलते हैं, और performance Transformers.js से बेहतर है। Filesystem API से वैकल्पिक sandbox directory read access भी मिल सकता है
    यह self-documenting है, इसलिए अगर आप live help panel में पूछें कि “system prompt कैसे इस्तेमाल होता है”, तो यह अपने source code तक पहुँचकर जवाब दे सकता है
    “Tour” पर क्लिक करें, तो पूरा देख सकते हैं, और अगले हफ़्ते इसे open source करने की योजना है

    • Sonnet 3.5 के साथ मैं autocomplete और छोटे functions से कहीं ज़्यादा काम कर रहा था
    • टोकना नहीं चाहता, लेकिन बहुत से 4~12B मॉडल GPT-3.5 और GPT-4o-mini के बीच कहीं आते हैं
      हालाँकि लोग मॉडलों को आँकने के लिए जो benchmark इस्तेमाल करते हैं, वे बहुत बार बदलते रहते हैं, इसलिए अच्छी तुलना ढूँढना मुश्किल है। और ध्यान रहे, Sonnet 3.6, GPT-3.5 के लगभग 1 साल बाद आया था
  • आलोचनात्मक नज़र से देखें तो यह सही है कि ये मॉडल जटिल coding tasks में नवीनतम सर्वोच्च स्तर के बराबर नहीं हैं
    लेकिन white-collar काम का बड़ा हिस्सा Excel प्रोसेसिंग, files इधर-उधर करना, सख़्त क़ानूनी दस्तावेज़ों का अनुवाद, email drafts, PPT से जुड़े छोटे-मोटे काम जैसे कार्यों का होता है
    ऐसे काम 30~35B या उससे बड़े मॉडल से पर्याप्त रूप से किए जा सकते हैं, और कंपनी के data को निजी बनाए रखने का फ़ायदा भी मिलता है

    • मुझे लगता है कि निष्कर्ष थोड़ा ग़लत है। qwen3.5 9b का नवीनतम मॉडलों से दूर होना स्वाभाविक है। यह 9B है, और क्या यह 1 साल पुराना मॉडल नहीं है?
      लोकल मॉडल की बात करने वाले लोग जिस स्तर की उम्मीद कर रहे हैं, वे इस साल अप्रैल में आए मॉडल हैं। Qwen 3.6 27B और कमज़ोर GPU के लिए qwen 35b a3b मुख्य विकल्प हैं
      ये मॉडल गंभीरता से नवीनतम स्तर के मॉडलों से तुलना करने लायक हैं
    • बल्कि Excel और legal काम code से भी बदतर हो सकते हैं, क्योंकि उनमें ग़लतियाँ पकड़ना और मुश्किल हो सकता है
      उदाहरण के लिए JPMorgan के London Whale मामले में Excel error की वजह से 6 अरब डॉलर का नुकसान हुआ था
  • मैं M5 Pro 18/20-core MacBook 64GB RAM लेने पर विचार कर रहा हूँ, लेकिन वास्तविक model benchmarks ढूँढना बहुत मुश्किल है
    उदाहरण के लिए, अगर कोई Qwen 3.6 35B/A3B की Q4 और Q6 quantization में tokens per second बता सके तो अच्छा होगा

    • सिर्फ़ tokens per second मत देखिए, time to first token भी देखना चाहिए
      लोकल inference की दुनिया MoE मॉडलों की ओर झुक रही है, और उनमें से काफ़ी मॉडलों का tokens per second तो ठीक होता है, लेकिन first token आने में भयानक देरी होती है
  • 32GB M2 Studio पर इस्तेमाल होने वाली कुछ मनमानी settings मैंने Bluesky पर लिखी हैं, और feedback चाहिए
    मैं उन लोगों में हूँ जिन्हें ख़ुद देखे बिना चीज़ें ठीक से समझ नहीं आतीं, इसलिए मदद की उम्मीद में साझा कर रहा हूँ
    https://bsky.app/profile/mooresolutions.io/post/3mliilyf2i22...

  • मैं M4 Pro 48GB पर qwen 3.6 9b quantized model चला रहा हूँ, और यह बुनियादी pi.dev/cc-आधारित development के लिए बस किसी तरह उपयोगी है
    असल में कुछ मायने रखने वाला काम करने के लिए 128GB desktop शायद sweet spot लगता है। बस अभी ऐसी मशीनें मिलना मुश्किल है
    लोकल रनिंग मज़ेदार है, लेकिन यह नहीं भूलना चाहिए कि आपका अपना समय भी मुफ़्त नहीं है
    personal projects में मैं धीरे-धीरे OpenRouter की ओर जा रहा हूँ, और सबसे बड़े qwen model को भी गंभीर इस्तेमाल में दिन का 2~3 डॉलर से कम ख़र्च में चला लेता हूँ

    • क्या आपने इतना छोटा मॉडल ज़्यादा tokens per second के लिए चुना था?
      M4 Pro 48GB पर आप बड़े मॉडल भी चला सकते हैं, इसलिए अगर model intelligence ही उपयोगिता बढ़ाने की कुंजी है, तो बड़ा मॉडल चुनना ज़्यादा सही हो सकता है
    • मैं उसी स्पेक पर 30B MoE model को 65K tokens के साथ tools वाले sub-agent की तरह इस्तेमाल कर रहा हूँ, और यह काफ़ी अच्छा code लिखता है
      इस बात से सहमत हूँ कि dense 9B ज़्यादा प्रभावशाली नहीं है
    • ऑनलाइन ऐसी बहुत बकवास है कि लोकल मॉडल Opus 4.7 जैसी चीज़ों से बेहतर हैं। आम उपयोगकर्ताओं के लिए यह सच नहीं है
      मैंने नवीनतम M5 MacBook Pro के top spec के साथ लोकल मॉडल भी आज़माए हैं, और वे लगभग बस किसी तरह ही चलते हैं
    • यह जानने की जिज्ञासा है कि OpenRouter version, ChatGPT 5.5 या Claude Opus 4.6 की तुलना में कैसा है
  • 4090 24GB पर हाल की turboquant/rotorquant activation-value memory optimization का इस्तेमाल करके qwen3.6:27B को लगभग 128K context पर चला रहा हूँ
    मैं ज़ोरदार सलाह दूँगा कि आप कम से कम उस स्तर का मॉडल आज़माएँ। q4_xl+rotorquant का संयोजन काफ़ी अच्छा है
    agent को देने लायक कुछ reference code भी है
    https://github.com/rapatel0/rq-models

  • API subscription से बेहतर है कि Mac पर हज़ारों डॉलर ख़र्च किए जाएँ
    लोकल मॉडल आपको privacy leak की चिंता के बिना, कभी भी और कहीं भी काम करने देते हैं