1 पॉइंट द्वारा GN⁺ 2 시간 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • M4 MacBook Pro 24GB पर भी बुनियादी काम, रिसर्च और प्लानिंग के लिए लोकल मॉडल सेटअप संभव है
  • Qwen 3.5-9B Q4 लगभग 40 टोकन/सेकंड, thinking mode, tool use, और 128K context को पूरा करता है
  • यह top-tier models की तरह जटिल समस्याओं को लंबे समय तक अपने दम पर हल नहीं कर पाता, इसलिए step-by-step निर्देश ज़रूरी हैं
  • इसने Elixir Credo warnings ठीक कर दीं, लेकिन rebase conflict को file edit किए बिना सुलझाने में असफल रहा
  • लोकल मॉडल का फायदा offline उपयोग और बिना subscription के होना है, लेकिन performance और setup में बड़े trade-offs हैं

लोकल मॉडल चलाने का वातावरण और चयन मानदंड

  • M4 MacBook Pro 24GB मेमोरी वाले वातावरण में लोकल मॉडल चलाने की सेटिंग्स का प्रयोग किया गया, और भले ही आउटपुट top-tier models (SOTA) जैसा नहीं था, फिर भी ऐसा सेटअप संभव था जो इंटरनेट कनेक्शन के बिना बुनियादी काम, रिसर्च और प्लानिंग संभाल सके
  • लोकल रनिंग टूल्स में Ollama, llama.cpp, और LM Studio शामिल हैं, और हर एक की अपनी सीमाएँ और उपलब्ध मॉडल अलग हैं
  • मॉडल चुनते समय यह ज़रूरी था कि वह मेमोरी में फिट हो और साथ में सामान्य Electron apps चलाने लायक जगह भी छोड़े, साथ ही कम से कम 64K और आदर्श रूप से 128K या उससे बड़ी context window हो
  • हाल में आज़माए गए Qwen 3.6 Q3, GPT-OSS 20B, और Devstral Small 24B मेमोरी में तो फिट हुए, लेकिन व्यावहारिक उपयोग कठिन था, जबकि Gemma 4B अच्छी तरह चला पर tool use में दिक्कत दिखी
  • सेटिंग विकल्प temperature जैसे जाने-पहचाने मानों से लेकर K Cache Quantization Type जैसे विशेष विकल्पों तक फैले हुए हैं, और thinking को सक्षम किया गया है या नहीं, इसके अनुसार उपयुक्त मान बदल सकते हैं

Qwen 3.5-9B 4-बिट quantization कॉन्फ़िगरेशन

  • qwen3.5-9b@q4_k_s LM Studio में चलाने पर लगभग 40 टोकन/सेकंड, thinking enabled, सफल tool use, और 128K context window—इन सभी शर्तों को एक साथ पूरा करने वाला सबसे अच्छा मॉडल था
  • यह top-tier models की तुलना में जल्दी भटक जाता है, कभी-कभी loop में फँसता है, और कुछ अनुरोधों को गलत समझता है, लेकिन 24GB MacBook Pro पर दूसरे कामों के लिए workspace छोड़े रखते हुए चलने वाले मॉडल के रूप में यह काफ़ी अच्छा था
  • thinking mode और coding काम के लिए सुझाई गई सेटिंग्स इस प्रकार थीं
temperature=0.6, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0
  • thinking सक्षम करने के लिए LM Studio में मॉडल चुनने के बाद configuration में जाएँ, और Inference टैब के नीचे Prompt Template में यह मान जोड़ें
{%- set enable_thinking = true %}
  • इस मॉडल का उपयोग pi और OpenCode दोनों में किया गया; pi ज़्यादा तेज़-तर्रार लगा, लेकिन अपना harness सीधे बनाकर customize कर पाने के फायदे के बावजूद उसमें उचित default values की कमी थी
  • pi की सेटिंग्स ठीक करने में वास्तविक प्रोजेक्ट से ज़्यादा समय लग सकता था

pi सेटिंग

  • ~/.pi/agent/models.json में LM Studio के OpenAI-compatible endpoint और qwen3.5-9b@q4_k_s मॉडल को रजिस्टर किया गया
{
  "providers": {
    "lmstudio": {
      "baseUrl": "http://localhost:1234/v1";,
      "api": "openai-completions",
      "apiKey": "lm-studio",
      "models": [
        {
          "id": "qwen3.5-9b@q4_k_s",
          "reasoning": true,
          "compat": { "thinkingFormat": "qwen-chat-template" }
        }
      ]
    }
  }
}
  • बिखरे हुए thinking blocks छिपाने के लिए ~/.pi/agent/settings.json में "hideThinkingBlock": true जोड़ा गया

OpenCode सेटिंग

  • ~/.config/opencode/opencode.json में LM Studio को लोकल OpenAI-compatible provider के रूप में रजिस्टर किया गया, और tool use, 131072 context length, तथा 32768 max tokens सेट किए गए
{
  "$schema": "https://opencode.ai/config.json";,
  "provider": {
    "lmstudio": {
      "npm": "@ai-sdk/openai-compatible",
      "name": "LM Studio (local)",
      "options": {
        "baseURL": "http://127.0.0.1:1234/v1";
      },
      "models": {
        "qwen3.5-9b@q4_k_s": {
          "name": "Qwen 3.5 9B Q4_K_S",
          "tools": true,
          "context_length": 131072,
          "max_tokens": 32768
        }
      }
    }
  },
  "model": "lmstudio/qwen3.5-9b@q4_k_s"
}

top-tier models से अंतर

  • Qwen 3.5 9B Q4 जैसे मॉडल top-tier models की तरह लंबे समय तक जटिल समस्याओं को स्वतंत्र रूप से हल करने के स्तर तक नहीं पहुँचे
  • पूरे app को एक ही बार में बनाकर देने वाला अनुरोध इनके लिए उपयुक्त नहीं था, और संभव है कि नतीजे के बिना सिर्फ़ laptop गर्म हो जाए
  • इससे बेहतर तरीका step-by-step, स्पष्ट संचार और भरपूर निर्देशों वाला interactive workflow था
  • लोकल मॉडल का उपयोग करते समय यूज़र को ज़्यादा सोच-विचार और योजना खुद करनी पड़ती है और अधिक विशिष्ट निर्देश देने होते हैं, लेकिन यह रिसर्च assistant, rubber duck, और programming language की बारीकियाँ या command-line calls तुरंत याद दिलाने वाले सहायक के रूप में उपयोगी था
  • बड़ी AI कंपनियों द्वारा प्रचारित 10x productivity जैसी बात नहीं है, लेकिन यह सार्थक मदद और दिलचस्प उपयोग अनुभव देता है

जो काम चले और जो असफल रहे

  • Elixir Credo warnings ठीक करना

    • Elixir linter credo को नवीनतम version पर अपडेट करने के बाद कोड में warnings आने लगीं, और Qwen से mix credo --strict चलाकर समाधान सुझाने को कहा गया, लेकिन edit न करने के लिए कहा गया
    • Qwen ने test files में 4 जगहों पर list खाली नहीं है यह जाँचने के लिए length/1 के उपयोग की समस्या पकड़ी, और length(list) > 0 की जगह list != [] इस्तेमाल करने का सुझाव दिया
    • बाद में edit करने को कहने पर Qwen ने 4 parallel edits साफ़-सुथरे ढंग से कर दिए
    • यह काम ऐसा साधारण काम था जिसे terminal और editor के बीच जाकर हाथ से भी किया जा सकता था, लेकिन इसने सुविधाजनक सहायक की भूमिका निभाई
  • Dependabot PR के rebase conflict को संभालना

    • dependency update के बाद Dependabot PR में git conflict था, और Dependabot ने rebase करने से मना कर दिया, इसलिए उसे manually fetch करके rebase किया गया और फिर Qwen से जाँचने को कहा गया
    • conflict साधारण प्रकार का था जहाँ हर dependency के लिए नया version चुनना था, और Qwen ने sentry के लिए 13.0.1 तथा tailwind के लिए 0.4.1 बनाए रखने की सलाह दी
    • लेकिन जब वास्तविक बदलाव करने को कहा गया, तो Qwen ने files बदले बिना conflict markers छोड़े हुए ही git add mix.lock && git rebase --continue चलाने की कोशिश की
    • यह git rebase --continue के editor खोलने वाले व्यवहार को भी नहीं समझ पाया, OpenCode रुक गया, हालाँकि संभव है कि यह एक बार की समस्या रही हो

लोकल मॉडल के फायदे और सीमाएँ

  • लोकल मॉडल में बड़े trade-offs हैं, लेकिन इनका फायदा यह है कि इंटरनेट कनेक्शन के बिना, यहाँ तक कि विमान में भी काम किया जा सकता है
  • अगर मान लिया जाए कि कंप्यूटर तो वैसे भी खरीदा जाना था, तो लागत मूलतः सिर्फ़ बिजली की खपत तक सीमित रहती है, और किसी subscription की ज़रूरत नहीं होती
  • मॉडल training में अब भी बड़ा पर्यावरणीय खर्च है, लेकिन open models बनाने वाली कंपनियाँ पर्यावरणीय प्रभाव की सबसे ऊँची श्रेणी में नहीं आतीं, और निजी हार्डवेयर इस्तेमाल करने पर datacenter पर निर्भरता कम होती है
  • खुद tuning और experimentation करने में मज़ा है
  • LLM पहले ही बड़ा प्रभाव डाल चुके हैं और इनके नकारात्मक पहलू भी काफ़ी हैं, लेकिन यह तकनीक आगे भी बनी रहने वाली लगती है, और लोकल मॉडल पर प्रयोग करना इस तकनीक के साथ ज़्यादा टिकाऊ और सकारात्मक तरीके से जुड़ने जैसा लगा

1 टिप्पणियां

 
GN⁺ 2 시간 전
Hacker News की राय
  • लोकल में LLM चलाना मज़ेदार और शक्तिशाली है, लेकिन असल में काम पूरा करना काफ़ी झंझटभरा होता है
    आपको पहले से योजना बनानी, स्पेसिफिकेशन बनानी और तैयारी करनी पड़ती है, जबकि OpenAI या Claude के बड़े मॉडल अक्सर कुछ ही वाक्य देकर तुरंत समझ जाते हैं

    • सही बात। खासकर पिछले 6 महीनों में बहुत से लोगों के लिए frontier model subscription fee काम का ख़र्च बन चुकी है
      अगर आप पहले से बड़े मॉडल के साथ गंभीर काम कर रहे हैं, तो बस वही इस्तेमाल करते रहिए
      लेकिन vision/OCR काम अलग मामला है। छोटे और मध्यम open weight मॉडल भी आधुनिक स्तर के काफ़ी करीब हैं, और बड़े batch कामों में prefill token cost काफ़ी खलती है
      और लोग अक्सर भूल जाते हैं कि छोटे LLM को भी अगर स्थिर निजी सेवा की तरह इस्तेमाल करना है, तो 16~24GB RAM/VRAM अलग से खाली रखकर उसे लगातार चलाना पड़ता है
    • अब offline उपयोग के लिए घर पर बड़े मॉडल चलाना तकनीकी रूप से आसान हो गया है। इसमें टॉप-टियर मॉडल खुले में जारी करने वाली चीनी कंपनियों का बड़ा हाथ है
      असली समस्या आख़िरकार पैसे की ही है
  • मुझे लगता है कि अब यह लगभग उपयोगी स्तर तक पहुँच गया है
    Gemma 4 31B लोकल मॉडल के लिए एक नई baseline जैसा लगता है। frontier model से तो स्वाभाविक रूप से कमज़ोर है, लेकिन अब तक चलाए गए लोकल मॉडल, GPT OSS 120B या Nemotron Super 120B की तुलना में यह कम वैज्ञानिक प्रयोग जैसा लगता है
    M5 Max 128GB RAM पर 256K पूरा context window इस्तेमाल करने पर RAM उपयोग लगभग 70GB तक चला जाता है, और system overhead लगभग 14GB दिखता है
    64GB Panther Lake में फुल Arc B390 लगा हुआ सिस्टम या 48GB Snapdragon X2 Elite मशीन पर यह 128K~256K context window के साथ चल सकता है, और 32GB में शायद 32K context window के साथ किसी तरह संभव हो
    पिछले साल तक इस तरह की performance को mainstream के क़रीब किसी high-end configuration पर देखना बेकार सपना लगता था

    • Gemma 4 सच में बहुत अच्छा है। इसने Opus 4.7 से छूटी चीज़ें भी पकड़ी हैं, और भले इसमें कुछ खुरदरे हिस्से हों, फिर भी मैं लगातार ऐसे उपयोग ढूँढ रहा हूँ जहाँ इसे लगभग बराबरी से इस्तेमाल किया जा सके
      आख़िरकार असली पैमाना यह है: “आप इस मॉडल को भरोसे से क्या सौंप सकते हैं?” Opus ज़्यादा चीज़ें जानता है और ज़्यादा जटिल काम भी कर सकता है, लेकिन अगर आप context अच्छी तरह दें, तो Gemma हैरान करने जितना अच्छा है
      इन दोनों मॉडलों को सौंपे जा सकने वाले कामों के दायरे में फ़र्क उम्मीद से कम है। इसने निजी टूल्स और कई प्रोजेक्ट्स में हाल में बहुत अच्छे नतीजे दिए हैं, और यह पहला लोकल मॉडल है जिस पर मैं किसी गैर-तुच्छ प्रोजेक्ट में agent mode में feature implementation भरोसे से छोड़ सका
      https://thot-experiment.github.io/gradient-gemma4-31b/
      यह अपेक्षाकृत जटिल टूल है जिसे OpenCode के अंदर Gemma 4 ने लगभग पूरा बनाया, और कई घंटों में सिर्फ़ लगभग 4 बार manual intervention की ज़रूरत पड़ी
      Q6_K_XL, 128K context @ q8 पर read लगभग 800tok/s, write लगभग 16tok/s
      llama.cpp के turboquant और MTP का इंतज़ार है; अगर अफ़वाहें सही हैं, तो शायद 256K और 25~30tok/s तक पहुँचा जा सके
    • छोटे Qwen 3.6 मॉडल context handling में Gemma 4 से थोड़े बेहतर हैं, लेकिन खासकर Gemma 4 26B अपनी श्रेणी में बहुत छोटा और efficient समाधान देने के मामले में काफ़ी समझदारी दिखाता है
      रिलीज़ के तुरंत बाद benchmark performance प्रभावशाली लगी थी, इसलिए मैंने इस पर एक लेख भी लिखा था [0]। लेकिन लंबे context वाले agent coding environment में चलाने के बाद ranking में इसकी जगह बाद में थोड़ी नीचे आई
      [0] https://gertlabs.com/blog/gemma-4-economics
    • ज़्यादातर editing कामों के लिए मैं छोटा Gemma E2B इस्तेमाल करता हूँ, और हैरानी की बात है कि यह काफ़ी अच्छा काम करता है
      workflow यह है कि planning नए मॉडल से कराते हैं और execution छोटे मॉडल से। अगर planning ठीक से हो और छोटे मॉडल के लिए समझने की कोई ambiguity न छोड़ी जाए, तो यह अच्छी तरह काम करता है
    • अगर आप time to first token और tokens per second भी साझा करें तो अच्छा रहेगा
    • अनुभव के हिसाब से क्या Gemma, qwen3 से बेहतर काम करता है, यह जानने की जिज्ञासा है
  • काश मैंने यह पोस्ट उस नतीजे पर पहुँचने से पहले देख ली होती, जिस पर मैं पूरे वीकेंड के बाद पहुँचा
    मैंने उसी laptop पर एक बनावटी टेस्ट किया, जिसमें एक छोटे vibe-coding C++ repository में लगभग 50 lint errors ठीक करवाने थे। उम्मीद थी कि यह बहुत सारे छोटे काम निपटा देगा और बहुत ज़्यादा बार अटकेगा नहीं
    GPT OSS 20B इस्तेमाल करने लायक था, लेकिन धीमा था, बेकार के वाक्य जोड़ता या दोहराता था, और अक्सर यह गलती करता था कि बिना code बदले भी दावा कर देता था कि उसने ठीक कर दिया
    Opencode के साथ इस्तेमाल किया गया Qwen 3.5 9B काफ़ी तेज़ था, compression के दौरान भी ज़्यादातर lint warnings बिना अटके संभाल गया, और सभी warnings को सही fixes के साथ ठीक किया
    मैंने Qwen 3.5 9B की 4-bit MLX quantization भी आज़माई, लेकिन आख़िरकार memory shortage से crash हो गया, और GGUF पर llama.cpp से चलाने पर बिना crash के चला
    frontier model से इसकी बिल्कुल तुलना नहीं की जा सकती। यह बहुत धीमा है, बुनियादी जानकारी भी ग़लत देता है, और किसी गैर-तुच्छ काम को एक बार में संभाल नहीं पाता
    जब मैंने इसे project architecture का सार बताने को कहा, तो इसने दावा किया कि repository में ऐसी libraries इस्तेमाल हो रही हैं जो वहाँ हैं ही नहीं। यह हर व्यक्ति के लिए अलग हो सकता है, लेकिन फिर भी इसमें कुछ उपयोगिता है, और उम्मीद है कि समय के साथ उचित hardware पर लोकल LLM वातावरण बहुत बेहतर होगा

    • “frontier model से इसकी बिल्कुल तुलना नहीं की जा सकती” — यह बात उतनी बार नहीं कही जाती जितनी कही जानी चाहिए
      लोकल LLM शानदार हैं, लेकिन इन पर बहुत कुछ पढ़ने के बाद ऐसा लग सकता है कि ये Opus 4.7 के काफ़ी क़रीब पहुँच गए हैं
      HN पर लोकल LLM की क्षमता को बहुत बढ़ा-चढ़ाकर बताने वाला बहुत छोटा, बहुत शोर मचाने वाला और बहुत उत्साही समूह है
    • qwen3.5 9b की जगह qwen3.6.35 a3b आज़माइए। यह पूरी तरह अलग है
    • यह काफ़ी हैरानी की बात है कि GPT OSS 20B Mac hardware पर धीमा चलता है
      समान आकार के मॉडलों में यह उन सबसे तेज़ मॉडलों में था जिन्हें मैंने local GPU पर चलाया है, हालाँकि मैंने सिर्फ़ Nvidia cards पर परीक्षण किया था
      बाद में देखा कि यह MoE है और इसके active parameters सिर्फ़ 3.6B हैं, जिससे बहुत कुछ समझ आता है
  • लोकल मॉडल, खासकर लेखक द्वारा इस्तेमाल किए जा रहे 9B जैसे छोटे मॉडल, असल में क्या कर सकते हैं, इसे यथार्थवादी नज़र से देखना उपयोगी है
    9B मॉडल लगभग Sonnet 3.6 स्तर के हैं, इसलिए autocomplete और छोटे functions तो कर लेते हैं, लेकिन बड़े मसले को समझने लगते ही धागा खो देते हैं
    फिर भी यह दिलचस्प है और इनके साथ खेलना मज़ेदार है। मैं मुख्यतः मज़े के लिए लोकल agent harness जैसी चीज़ें काफ़ी बनाता रहता हूँ
    मौजूदा प्रोजेक्ट एक no-install agent है: https://gemma-agent-explainer.nicklothian.com/
    Python, SQL, React — सब कुछ browser के अंदर पूरी तरह चलता है। सबसे अच्छे अनुभव के लिए मैं Gemma E4B की सिफ़ारिश करता हूँ
    यह अभी भी सक्रिय development में है, और HTML5 Filesystem API तथा LiteRT support की वजह से Chrome चाहिए। हालांकि ज़्यादातर Chromium-आधारित browsers पर भी इसे चलाया जा सकता है
    ज़्यादातर agents से इसका फ़र्क यह है कि यह no-install है। मॉडल browser के अंदर LiteRT/LiteLLM से चलते हैं, और performance Transformers.js से बेहतर है। Filesystem API से वैकल्पिक sandbox directory read access भी मिल सकता है
    यह self-documenting है, इसलिए अगर आप live help panel में पूछें कि “system prompt कैसे इस्तेमाल होता है”, तो यह अपने source code तक पहुँचकर जवाब दे सकता है
    “Tour” पर क्लिक करें, तो पूरा देख सकते हैं, और अगले हफ़्ते इसे open source करने की योजना है

    • Sonnet 3.5 के साथ मैं autocomplete और छोटे functions से कहीं ज़्यादा काम कर रहा था
    • टोकना नहीं चाहता, लेकिन बहुत से 4~12B मॉडल GPT-3.5 और GPT-4o-mini के बीच कहीं आते हैं
      हालाँकि लोग मॉडलों को आँकने के लिए जो benchmark इस्तेमाल करते हैं, वे बहुत बार बदलते रहते हैं, इसलिए अच्छी तुलना ढूँढना मुश्किल है। और ध्यान रहे, Sonnet 3.6, GPT-3.5 के लगभग 1 साल बाद आया था
  • आलोचनात्मक नज़र से देखें तो यह सही है कि ये मॉडल जटिल coding tasks में नवीनतम सर्वोच्च स्तर के बराबर नहीं हैं
    लेकिन white-collar काम का बड़ा हिस्सा Excel प्रोसेसिंग, files इधर-उधर करना, सख़्त क़ानूनी दस्तावेज़ों का अनुवाद, email drafts, PPT से जुड़े छोटे-मोटे काम जैसे कार्यों का होता है
    ऐसे काम 30~35B या उससे बड़े मॉडल से पर्याप्त रूप से किए जा सकते हैं, और कंपनी के data को निजी बनाए रखने का फ़ायदा भी मिलता है

    • मुझे लगता है कि निष्कर्ष थोड़ा ग़लत है। qwen3.5 9b का नवीनतम मॉडलों से दूर होना स्वाभाविक है। यह 9B है, और क्या यह 1 साल पुराना मॉडल नहीं है?
      लोकल मॉडल की बात करने वाले लोग जिस स्तर की उम्मीद कर रहे हैं, वे इस साल अप्रैल में आए मॉडल हैं। Qwen 3.6 27B और कमज़ोर GPU के लिए qwen 35b a3b मुख्य विकल्प हैं
      ये मॉडल गंभीरता से नवीनतम स्तर के मॉडलों से तुलना करने लायक हैं
    • बल्कि Excel और legal काम code से भी बदतर हो सकते हैं, क्योंकि उनमें ग़लतियाँ पकड़ना और मुश्किल हो सकता है
      उदाहरण के लिए JPMorgan के London Whale मामले में Excel error की वजह से 6 अरब डॉलर का नुकसान हुआ था
  • मैं M5 Pro 18/20-core MacBook 64GB RAM लेने पर विचार कर रहा हूँ, लेकिन वास्तविक model benchmarks ढूँढना बहुत मुश्किल है
    उदाहरण के लिए, अगर कोई Qwen 3.6 35B/A3B की Q4 और Q6 quantization में tokens per second बता सके तो अच्छा होगा

    • सिर्फ़ tokens per second मत देखिए, time to first token भी देखना चाहिए
      लोकल inference की दुनिया MoE मॉडलों की ओर झुक रही है, और उनमें से काफ़ी मॉडलों का tokens per second तो ठीक होता है, लेकिन first token आने में भयानक देरी होती है
  • 32GB M2 Studio पर इस्तेमाल होने वाली कुछ मनमानी settings मैंने Bluesky पर लिखी हैं, और feedback चाहिए
    मैं उन लोगों में हूँ जिन्हें ख़ुद देखे बिना चीज़ें ठीक से समझ नहीं आतीं, इसलिए मदद की उम्मीद में साझा कर रहा हूँ
    https://bsky.app/profile/mooresolutions.io/post/3mliilyf2i22...

  • मैं M4 Pro 48GB पर qwen 3.6 9b quantized model चला रहा हूँ, और यह बुनियादी pi.dev/cc-आधारित development के लिए बस किसी तरह उपयोगी है
    असल में कुछ मायने रखने वाला काम करने के लिए 128GB desktop शायद sweet spot लगता है। बस अभी ऐसी मशीनें मिलना मुश्किल है
    लोकल रनिंग मज़ेदार है, लेकिन यह नहीं भूलना चाहिए कि आपका अपना समय भी मुफ़्त नहीं है
    personal projects में मैं धीरे-धीरे OpenRouter की ओर जा रहा हूँ, और सबसे बड़े qwen model को भी गंभीर इस्तेमाल में दिन का 2~3 डॉलर से कम ख़र्च में चला लेता हूँ

    • क्या आपने इतना छोटा मॉडल ज़्यादा tokens per second के लिए चुना था?
      M4 Pro 48GB पर आप बड़े मॉडल भी चला सकते हैं, इसलिए अगर model intelligence ही उपयोगिता बढ़ाने की कुंजी है, तो बड़ा मॉडल चुनना ज़्यादा सही हो सकता है
    • मैं उसी स्पेक पर 30B MoE model को 65K tokens के साथ tools वाले sub-agent की तरह इस्तेमाल कर रहा हूँ, और यह काफ़ी अच्छा code लिखता है
      इस बात से सहमत हूँ कि dense 9B ज़्यादा प्रभावशाली नहीं है
    • ऑनलाइन ऐसी बहुत बकवास है कि लोकल मॉडल Opus 4.7 जैसी चीज़ों से बेहतर हैं। आम उपयोगकर्ताओं के लिए यह सच नहीं है
      मैंने नवीनतम M5 MacBook Pro के top spec के साथ लोकल मॉडल भी आज़माए हैं, और वे लगभग बस किसी तरह ही चलते हैं
    • यह जानने की जिज्ञासा है कि OpenRouter version, ChatGPT 5.5 या Claude Opus 4.6 की तुलना में कैसा है
  • 4090 24GB पर हाल की turboquant/rotorquant activation-value memory optimization का इस्तेमाल करके qwen3.6:27B को लगभग 128K context पर चला रहा हूँ
    मैं ज़ोरदार सलाह दूँगा कि आप कम से कम उस स्तर का मॉडल आज़माएँ। q4_xl+rotorquant का संयोजन काफ़ी अच्छा है
    agent को देने लायक कुछ reference code भी है
    https://github.com/rapatel0/rq-models

  • API subscription से बेहतर है कि Mac पर हज़ारों डॉलर ख़र्च किए जाएँ
    लोकल मॉडल आपको privacy leak की चिंता के बिना, कभी भी और कहीं भी काम करने देते हैं