Qwen 3.6 27B लोकल डेवलपमेंट का sweet spot है

(quesma.com)

5 पॉइंट द्वारा GN⁺ 6 시간 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Qwen 3.6 27B लोकल मॉडल को लेकर संदेह रखने वाले users के लिए भी general-purpose tasks में एक meaningful विकल्प लगता है, और 35B A3B से धीमा होने के बावजूद इसे अधिक शक्तिशाली dense मॉडल के रूप में recommend किया गया है
creative writing और coding tests में constraints का पालन इसकी ताकत के रूप में सामने आया, और OpenCode में pnpm आधारित hexagonal Minesweeper को एक ही prompt से Node package के रूप में generate किया
llama.cpp और Hugging Face की 8-bit GGUF quantization को मिलाकर local execution संभव है, और MTP, GPU layer loading, flash attention, 64k context settings के साथ agent coding environment तक set up किया जा सकता है
Macbook Max M5 128GB test में Qwen3.6-27B 8-bit ने llama.cpp + MTP के साथ 32 tok/s और लगभग 42GB RAM इस्तेमाल किया, और ज्यादा तेज 35B A3B की तुलना में code quality बेहतर होने से 27B को पसंद किया गया
Artificial Analysis के अनुसार Qwen3.6-27B 37 points पर है, यानी GPT-5 / Claude Sonnet 4.5 जैसे mid 2025 स्तर पर, और sensitive data, offline work, तथा वापस न लिए जा सकने वाले self-hosted model operation के लिए practical है

Qwen 3.6 27B को recommend करने की वजह

Qwen 3.6 दो variants में उपलब्ध है
- Qwen 3.6 35B A3B: mixture-of-experts model
- Qwen 3.6 27B: dense model और धीमा, लेकिन अधिक शक्तिशाली विकल्प
Qwen 3.6 27B को “अपने weight class से ऊपर performance देता है” जैसी प्रतिक्रियाएं काफी मिलीं, और इसका एक related example Will it Mythos? है
local execution के दौरान computer गर्म हो सकता है, लेकिन यह performance ऐसी है जिसके लिए यह trade-off स्वीकार्य है

सरल tests और वास्तविक काम के नतीजे

एक simple smoke test के रूप में Simon Willison के “penguins on a bicycle” की जगह constraint writing इस्तेमाल किया गया
जब Zouk dance और quantum physics विषय पर 8-line poem मांगी गई, तो quantum terms और rhyme को संभालने वाली reasoning naturally आगे बढ़ी
- related conversation transcript में है
OpenCode में pnpm इस्तेमाल करके hexagonal Minesweeper बनाने के लिए कहने पर, इसने सिर्फ एक prompt से सही Node package generate किया
Qwen 3.6 35B A3B ज्यादा तेज था, लेकिन package बनाने के निर्देश का पालन नहीं किया और single index.html में implement किया
सामान्य work tasks में भी short prompts से working results बनाए, और responsiveness तथा defaults भी ठीक-ठाक रहे
- frontier model standards से यह खास नहीं है, लेकिन local model के रूप में यह पहले से practical level पर है

llama.cpp से local execution

local model चलाना CLI की कुछ lines से संभव है, और recommended tool llama.cpp है
Hugging Face से size कम किया हुआ quantized model लेकर चलाया जाता है
- popular quantized model providers में unsloth और bartowski हैं
- base model आमतौर पर BF16 precision में होता है
- 8-bit quantization quality loss लगभग न के बराबर रखते हुए space को आधा कर देती है
- lower-bit quantization model को और छोटा तथा संभावित रूप से तेज बनाती है, लेकिन quality cost के साथ आती है
- 27B comparison Reddit benchmark में, और 35B A3B comparison Hugging Face discussion में है
Server execution example
```
llama-server -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \
    --spec-type draft-mtp -ngl 999 -fa on -c 65536 --port 8080
```
- -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0: Hugging Face से model लाता है और बाद की runs में reuse करता है
- -m ~/models/Qwen3.6-27B-Q8_0.gguf: अगर model file पहले से हो तो इसकी जगह इस्तेमाल कर सकते हैं
- draft-mtp: fast model से next tokens predict करने वाली multi-token prediction का इस्तेमाल कर speed बढ़ाता है
- -ngl 999: सभी layers को GPU पर load करता है
- -fa on: flash attention on करता है
- -c 65536: context size को 64k tokens पर set करता है
- Qwen 3.6 27B का native context 256k है
- --port 8080: दूसरी settings में इस्तेमाल होने वाले port को fix करता है
- http://127.0.0.1:8080 खोलने पर सीधे chat कर सकते हैं

OpenCode settings

वही server vibe coding के लिए भी इस्तेमाल किया जा सकता है
OpenCode में ~/.config/opencode/opencode.jsonc में नीचे की setting जोड़ते हैं

{
  "$schema": "https://opencode.ai/config.json";,
  "provider": {
    "llama": {
      "name": "llama.cpp (local)",
      "npm": "@ai-sdk/openai-compatible",
      "options": {
        "baseURL": "http://127.0.0.1:8080/v1";,
        "apiKey": "local"
      },
      "models": {
        "qwen3.6-27b": { "name": "Qwen3.6-27B Q8 +MTP" }
      }
    }
  },
  "model": "llama/qwen3.6-27b"
}

Terminal chat के लिए execution
- अगर terminal में सिर्फ chat करना हो, तो llama-server की जगह llama-cli इस्तेमाल कर सकते हैं
```
llama-cli -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \
                -ngl 999 -fa on -c 65536
```

Apple Silicon performance measurement

test results benching-local-llms-on-apple-silicon में summarised हैं, और Macbook Max M5 128GB पर चलाए गए
Qwen3.6-35B-A3B · 8-bit
- MLX: 85 tok/s, 37GB RAM
- llama.cpp: 93 tok/s, 44GB RAM
- llama.cpp + MTP: 105 tok/s, 45GB RAM
Qwen3.6-27B · 8-bit
- MLX: 17 tok/s, 28GB RAM
- llama.cpp: 18 tok/s, 41GB RAM
- llama.cpp + MTP: 32 tok/s, 42GB RAM
DeepSeek-V4-Flash · Q2–Q4
- llama.cpp: 33 tok/s, 103GB RAM
30 tok/s खराब speed नहीं है, और सामान्य frontier model API range के अंदर आती है
mlx-lm Apple Silicon को target करता है, लेकिन इस test में llama.cpp ज्यादा तेज था
run के दौरान GPU usage 95% था, इसलिए लगता है कि available resources का efficient use हुआ
Qwen 3.6 के दोनों variants Apple Silicon की shared 48GB RAM के भीतर चलते हैं
consumer Nvidia RTX cards पर ज्यादा aggressive quantization की जरूरत होती है, लेकिन inference ज्यादा तेज चलता है
- Hacker News के gfosco ने बताया कि 5090 पर Q6_K quantization और Q4_0 KV के साथ 123k context में लगातार 50 tok/s मिले, और LM Studio से लगभग 28/32GB VRAM इस्तेमाल हुआ
35B A3B 3 गुना तेज है, लेकिन generated code की quantity एक-तिहाई भी हो तो higher quality वाले 27B को चुनना उचित है

मौजूदा state-of-the-art models से comparison

Artificial Analysis score comparison में Qwen3.6-27B का score 37 points है
comparison table के मुख्य items ये हैं
- Gemma 4 31B: 29 points, late 2024 level, o1 / Claude 3.5 Sonnet
- Qwen3.6-35B-A3B: 32 points, early 2025 level, o3 / Claude 4 Sonnet
- Qwen3.6-27B: 37 points, mid 2025 level, GPT-5 / Claude Sonnet 4.5
- DeepSeek-V4-Flash: 40 points, late 2025 level, GPT-5.2 / Claude Opus 4.5
additional benchmarks notes में हैं, और overall trend similar है
Gemma 4 31B को कई लोग local coding के default की तरह इस्तेमाल करते हैं, इसलिए comparison में शामिल किया गया
benchmarks और online reactions दोनों Qwen 3.6 27B को Gemma 4 31B से काफी ज्यादा prefer करते हैं
हालांकि, quantization conditions पर ध्यान देना जरूरी है
- 8-bit quantization के results पर बड़ा असर पड़ने की संभावना कम है
- DwarfStar4, DeepSeek V4 Flash पर 2–4bit की कहीं ज्यादा aggressive quantization इस्तेमाल करता है, इसलिए यह full model से निश्चित रूप से खराब है
- इन conditions में Qwen 3.6 27B DwarfStar4 जितना या थोड़ा बेहतर impression देता है
- लंबे-context projects में DS4 को advantage मिल सकता है

local model operation के next steps

खुद model चलाना धीरे-धीरे realistic choice बनता जा रहा है
proprietary frontier models की स्थिति इस trend को और आगे धकेल सकती है
- Claude Fable 5 बंद हो गया
- अन्य frontier models बड़े subsidies पर operate करते हैं, जहां $100/month payment से हजारों dollars worth tokens इस्तेमाल करने जैसा structure है
locally set up models को जरूरत के हिसाब से fine-tune किया जा सकता है, और बाहरी पक्ष उन्हें वापस नहीं ले सकते
enterprises proprietary data और sensitive data के लिए local models इस्तेमाल कर सकते हैं
individuals offline projects में, या जब वे अमेरिका/चीन के साथ deeply private secrets या medical data share नहीं करना चाहते, तब local models का use कर सकते हैं
frontier-level open-weight GLM 5.2 release local model trend को और आगे बढ़ाता है
- Qwen 3.6 एक stepping stone था, और GLM 5.2 भी local execution possible है
- GLM 5.2 Macbook या single RTX 5090 पर नहीं चलता, लेकिन company budget में affordable level का है
ऐसे models आ सकते हैं जो current state-of-the-art से ज्यादा smart हों और local devices, शायद smartphones पर भी चल सकें
current models raw intelligence और factual knowledge को same weights में combine करते हैं, लेकिन future models knowledge को tool calling में shift करते हुए दोनों को separate कर सकते हैं

1 टिप्पणियां

GN⁺ 6 시간 전

Hacker News की रायें

MacBook Pro M5 128GB RAM और qwen3.6 मुझे पसंद हैं, लेकिन अगर आप local LLM से गंभीरता से coding करने की सोच रहे हैं, तो यह MacBook न खरीदना बेहतर है
वजह सरल है: उंगलियां गर्म हो जाती हैं और fan noise से सिर फटने जैसा लगता है
जिस laptop को आप सच में इस्तेमाल करते हैं उस पर complex jobs चलाना व्यावहारिक नहीं है; clamshell mode में हो सकता है, लेकिन AI coding या agent jobs के दौरान उसे छूना मुश्किल हो जाता है
अगर Qwen3.6 27B/35B को ठीक से चलाना है, तो MacMini M4 64GB खरीदकर उसे basement में या कम से कम कुछ मीटर दूर रखें और LAN या Tailscale से connect करें; कीमत भी MacBook Pro की लगभग 1/3 है
- इसी वजह से मैंने सामान्य 32GB laptop खरीदा
  desktop GPU पर Qwen 27B या Gemma 4 31B जैसे अपेक्षाकृत छोटे models चलाने पर भी वे कितने noisy और गर्म हो जाते हैं, यह मुझे पता है
  Strix Halo में एक बड़ा fan है इसलिए बहुत noisy नहीं है, लेकिन गर्म हो जाता है, और laptop के छोटे fans को वह heat निकालनी पड़े तो आखिरकार वे चीखेंगे ही
  कहीं भी model चलाने वाले laptop का विचार अच्छा है, लेकिन यह काम cloud models को करना चाहिए, और data बहुत ज्यादा इधर-उधर नहीं जाता इसलिए बड़ी समस्या भी नहीं है
  जिन tasks में privacy चाहिए, उनके लिए घर की बड़ी machine पर self-hosted model चलाकर VPN से connect कर सकते हैं
  हालांकि Gemma 4 12B QAT 4-bit जैसे models, जो 16GB devices या tablets पर भी अच्छी तरह चलते हैं, कुछ खास tasks के लिए बहुत अच्छे रहे; classification, identification और labeling जैसे कामों के लिए self-hosted vision models में, जिनका मैंने test किया, यह सबसे अच्छा था
  prose भी ठीक है और tool use भी काफी अच्छा करता है, लेकिन 7GB के अंदर दुनिया का बहुत knowledge नहीं समा सकता, इसलिए research के लिए search की जरूरत होती है, और बहुत simple code से आगे coding के लिए मैं इसे इस्तेमाल नहीं करना चाहूंगा
- DwarfStar 4 में --power flag आज़माकर देख सकते हैं: https://github.com/antirez/ds4#reducing-heat-power-usage-and...
- अगर “उंगलियां जल रही हैं और noise से सिर फट रहा है”, तो बस Mac mini को दूसरे कमरे में रख देना काफी नहीं होगा क्या?
  पिछले करीब छह महीनों से मैंने laptop पर coding agent को YOLO mode में चलाया है, और हालांकि ज्यादातर local नहीं था, इसे बिना डर इस्तेमाल करने का तरीका agent के लिए अलग Linux user agent बनाना था
  agent /agent home directory को मिटा सकता है, लेकिन मेरी home directory को छू या पढ़ भी नहीं सकता
  हर बार sudo से उस user में जाना पड़ता था, इसलिए मैंने alias बनाया, और permissions/ownership की problem आए तो दिन में एक बार ठीक करने वाला function बना लिया
  फिर भी झंझट था, इसलिए अगर dedicated machine होती तो शायद सीधे root दे देता; मज़ाक में Claude को $3 VPS का root दे दिया था, और वह ठीक चल रहा है
  कई महीनों की trial-and-error के बाद आखिरकार “बस Mac mini खरीद लो” वाली बात को मैंने शुरू से फिर से खोज निकाला
- M4 Max पर local LLM काम को pi से test करते समय, यह अब तक इस्तेमाल किए किसी भी MacBook से ज्यादा गर्म लगा
  कुछ inches दूर से भी radiant heat महसूस हो रही थी, और इस्तेमाल किए हुए Intel MacBook से भी ज्यादा गर्म लगा, इसलिए मैंने रोक दिया
  supply issues और price increases की वजह से laptop शायद 10 साल रखना पड़ सकता है, इसलिए उसे खराब नहीं करना चाहता था
- बिल्कुल इसी तरह इस्तेमाल कर रहा हूं: Mini M4 Pro 64GB और qwen3.6 का combination
  मेरी hearing बहुत अच्छी नहीं है, लेकिन fan की आवाज़ होती तो शायद सुन लेता; मैंने एक बार भी नहीं सुनी, और सच में fan है या नहीं यह search करके देखना पड़ा
यह लेख 128GB MacBook Pro पर Qwen 3.6 चलाने के अनुभव पर आधारित है
संदर्भ के लिए, 128GB MBP अभी $6699 से शुरू होता है [0]
प्राइवेसी के लिए कुछ लोग वह premium देने को तैयार हो सकते हैं, लेकिन MacBook Neo की लगभग 10 गुना कीमत में OpenRouter या cutting-edge research lab API credits काफी मात्रा में खरीदे जा सकते हैं
[0]: https://www.apple.com/shop/buy-mac/macbook-pro/14-inch-space...
- हिसाब-किताब से इनकार करना मुश्किल है, लेकिन अगर मैं होता तो रेखा यूँ नहीं खींचता
  Gemma 4 12B जैसे किसी ठीक-ठाक local LLM को चला सकने वाली मशीन होना सच में valuable है
  पता नहीं एक MacBook पर आप गंभीर unattended agent coding कितनी करेंगे, लेकिन अगर मैंने local models, llama.cpp, LM Studio वगैरह को खुद हाथ लगाकर नहीं देखा होता, तो मैं इस क्षेत्र को इस तरह समझ नहीं पाता
  यह क्षेत्र बहुत बड़ा, थकाने वाला और jargon से भरा है, और 50 से ऊपर की उम्र में इसे देखकर overwhelm होना आसान था
  एक used machine पर खुद setup करके, API calls देखकर और terms समझकर ही चीज़ें हाथ में आने लगीं
  Neo ऐसे मौके को अधिक महसूस करने लायक और समझने योग्य बनाने के लिए बहुत छोटा है
- Qwen 3.6 के सारे experiments के लिए 48GB Apple Silicon काफी था
  और aggressive quantization इस्तेमाल करें तो यह और नीचे भी जा सकता है, ऐसा लगता है
  आर्थिक रूप से laptop पर model चलाना बहुत मायने नहीं रखता, और केवल बिजली की लागत देखें तो भी बड़े पैमाने पर generate होने वाले tokens की कीमत को मात देना मुश्किल हो सकता है
  फिर भी यह game बदलने वाली breakthrough है
  पहले consumer devices पर ऐसी vibe coding मुश्किल या महंगी नहीं, बल्कि बिल्कुल असंभव थी
- Qwen 3.6 27B dense model DGX Spark पर भी मिलती-जुलती performance के साथ चलाया जा सकता है [1][2], और कीमत लगभग $4000 है
  Asus Ascent GX10 भी कई sellers के पास $3999 में है
  सिद्धांततः दो 3090 लगाकर 48GB VRAM हासिल किया जा सकता है, लेकिन MacBook Pro या GB10 की तुलना में यह ज्यादा जगह लेता है और ज्यादा गर्मी भी पैदा करता है
  [1] https://x.com/MiaAI_lab/status/2070859135399182444
  [2] https://github.com/MiaAI-Lab/Qwen3.6-27B-NVFP4-vLLM
- जिन models का ज़िक्र है, वे 24GB या अधिक VRAM पर आसानी से चल सकते हैं, और 16GB VRAM पर भी अच्छी तरह चलने वाले मिलते-जुलते models हैं
  यहाँ 128GB अनिवार्य नहीं है
- tokens या credits इस्तेमाल करने पर खत्म हो जाते हैं, लेकिन MacBook बचा रहता है
  उसी MacBook पर दूसरे models भी चलाए जा सकते हैं
  लोग हर महीने SaaS पर जितना पैसा खर्च करते हैं, उसे देखें तो कई मामलों में उसी पैसे से 5 महीने में MacBook की लागत निकल आती है
  और यह केवल “data privacy” का मुद्दा नहीं है
  Claude इस्तेमाल करने का मतलब है सब कुछ Anthropic को भेजना, जो काफी पागलपन वाली बात है
उदाहरणों को ‘असल काम’ दर्शाते हुए मानना मुश्किल है
कम से कम जिसे मैं असल काम मानता हूं, वह तो नहीं
zero-shot नया project सही कर लेना छोटे models के लिए भी अपेक्षाकृत आसान है
क्योंकि जमा करने लायक context बहुत ज्यादा नहीं होता, और training data में मौजूद मिलते-जुलते examples पर आसानी से वापस जाया जा सकता है
जब तक आप उससे बिल्कुल नई चीज़ invent करने को नहीं कह रहे, उसके ठीक-ठाक कर लेने की संभावना काफी होती है
असली test यह है कि क्या वह मौजूदा codebase में काम कर सकता है
सीमित तौर पर किए गए experiments में Qwen 3.5 Rust+React app में ठीक था, और C# monolith में कम अच्छा था
बेकार कहने लायक नहीं, लेकिन इतना खराब कि 20 मिनट में Claude पर लौट गया; और अगर cloud model access खोकर सिर्फ Qwen इस्तेमाल करना पड़े, तो मुझे काफी दुख होगा
- “zero-shot नया project सही कर लेना छोटे models के लिए भी अपेक्षाकृत आसान है” वाली बात से सीधे जुड़ा नहीं है, लेकिन एक समय था जब एक proof of concept चलाने में एक हफ्ता लगता था और ऐसे वाक्य शुद्ध science fiction जैसे लगते थे
- छोटे models का मूल्यांकन करते समय यह बात कम आंकी जाती है कि standard example code से जितना दूर जाते हैं, उनकी कमजोरियां उतनी साफ दिखती हैं
  Qwen3.6 ने हर जगह मिलने वाले simple apps में छोटे model के लिहाज से चौंकाने वाले नतीजे दिए
  React TODO app या shadcn जैसे popular tools से छोटी boilerplate app बनाने को कहें, तो काफी भरोसेमंद नतीजा देता है
  लेकिन आम tasks से हटकर जब मेरे ज्यादा niche काम में गया, तो घंटों चक्कर काटने के बाद आखिर में कराह निकलवा देने वाला, बेकार result दिया
  simple refactoring या बहुत स्पष्ट instructions वाले छोटे tasks में typing की जगह लेने के लिए यह काफी अच्छा है
  लेकिन लंबे context sessions या गैर-mainstream topics में जाते ही कमजोरियां बहुत स्पष्ट हो जाती हैं
  छोटे hardware में फिट करने के लिए अक्सर इस्तेमाल होने वाली quantization भी समस्या बढ़ाती है
  online माहौल में ऐसा लगता है कि 4-bit quantization लगभग lossless है और q8_0/q8_0 key-value cache quantization में भी व्यावहारिक नुकसान नहीं है, लेकिन असली projects में इन quantizations ने long-context performance को काफी गिराया
- काम के development में pi और पुराने codex cli को Qwen 3.6 27B 100k context के साथ इस्तेमाल करता रहा हूं, और यह कितना अच्छा चलता है, देखकर बहुत हैरान हुआ
  perfect नहीं है, लेकिन मेरे रोजमर्रा के development flow को तेज करने के लिए काफी है, और इसे मुख्य रूप से Go और C# लिखने में इस्तेमाल करता हूं
- Gemma 4 12B-class model से कुछ tasks अच्छे से हो जाते हैं
  छोटे libraries से बने बड़े project को इस तरह design करना कि हर हिस्सा अलग से code और test किया जा सके, पुराने coding project को साफ करना, README जोड़ना, code comments डालना, नए API के usage examples दिखाकर API usages update करना—ऐसे काम
  ये सभी small-scale tasks हैं
  बड़े integration projects में DeepSeek v4 Pro commercial API बहुत सस्ता है और अच्छे results देने में मदद कर रहा है
- मेरे अनुभव में छोटे models basic project concepts में भी नया project शुरू करने में संघर्ष करते हैं
  बहुत सारे decisions लेने पड़ते हैं, और वे इसमें अच्छे नहीं हैं
  अगर आप उनसे बहुत smart होने की उम्मीद नहीं रखते, तो मौजूदा code में बदलाव करना कहीं आसान है
  “X feature जोड़ो” कहकर उसे codebase explore करने के लिए छोड़ देने के बजाय, बेहतर है कि related files बताकर कहें, “इस code में X feature जोड़ना लक्ष्य है और Y guidelines follow करो”
  अगर सबसे कठिन decision वाला हिस्सा इंसान संभाल ले, तो model को बस instructions follow करते हुए तय सीमा के अंदर रंग भरना होता है
offline 48GB memory MacBook Pro पर यह model चलाने से काम तो हो जाता है, लेकिन जाहिर है Claude या Codex से धीमा है
हजारों dollars वाले 128GB MBP खरीदकर ऐसा model चलाते देखना, जो objectively cutting edge से काफी पीछे है, दिमाग खराब कर देने जैसा लगता है
128GB M5 MAX पर खर्च होने वाले पैसे से यहां एक नई कार भी खरीदी जा सकती है
समझ नहीं आता मैं क्या miss कर रहा हूं, और लगता है क्या दूसरे देशों के developers सच में इतने अलग संसार में रहते हैं
मुझे पता है कि जहां मैं रहता हूं, वहां absolute price भी अमेरिका से ज्यादा है, इसलिए यह और भी ऐसा महसूस होता है
अगर कोई होशमंद व्यक्ति किसी दूसरे देश में ऐसी चीज खरीदे, तो यहां पहुंचते ही बेचकर पैसे बचा लेगा, ऐसा लगता है
- laptop form factor की ओर जाना मुझे मूर्खता लगता है
  पिछले fall में मैंने used दो 3090 से workstation बनाया था; हर एक के लिए 850 Canadian dollars दिए थे, लेकिन अब lowest price करीब 1200 है
  48GB VRAM काफी reasonable है, और Qwen 3.6 27B को text corpus से knowledge graph बनाने और inference करने वाले कई tasks में इस्तेमाल कर रहा हूं
  OpenRouter पर उपलब्ध चीजों से तुलना की, और token cost $0 मानें तो local 27B Qwen को हराना मुश्किल है
  यह धीमा है और office कुछ degrees ज्यादा गर्म हो जाता है, लेकिन कोई plug नहीं खींच सकता, कोई कंधे के ऊपर से निगरानी नहीं करता, और results cutting-edge models के करीब हैं
  इसी size के Qwen 3.7 का इंतजार है
  अब तक जो देखा है, उसके हिसाब से यह पिछले version से बड़ा leap है
- इस price range में लोग GPU वाले desktop की जगह Mac laptop क्यों खरीदते हैं, समझ नहीं आता
  क्या portable होने का दिखावा करना है
- मेरी books में यह पहले से काफी value बढ़ा रहा asset है, और अगले 7–10 सालों में इसे खरीदी गई कीमत पर resale करने की संभावना बड़ी है
  Apple monthly installments में $5k एक साल तक $416 per month है और interest भी नहीं
  DS4-class model और दूसरे public models को quantization के बिना, कभी-कभी कई एक साथ चला सकता है
  Taiwan/Chinese sphere war, global connectivity, या commercial models की reliability से जुड़े dark scenarios हो जाएं, तो इसकी value की कल्पना करें
  यह इतिहास के किसी और समय में बनाना बहुत मुश्किल equipment है, और काश मैंने और ज्यादा खरीदे होते
  मैंने signals, price trends और sell-outs real time में देखे, और जिन अन्य लोगों के पास क्षमता है वे भी जरूर stockpile कर रहे होंगे
- सही है, कई लोगों के लिए 6 हजार dollars मामूली रकम है
- हां
  आपकी तरफ के लोगों की income अमेरिकियों से एक order of magnitude से भी ज्यादा कम है
लोकल मॉडल चलाने के लिए hardware महंगा होने की बात तो बहुत होती है, लेकिन अगर Apple डिवाइस में दिलचस्पी नहीं है तो काफ़ी अच्छी value-for-money दिखने वाले Intel Arc Pro B50/B60/B70 का ज़्यादा ज़िक्र नहीं होता
हाल ही में मैंने B70 32GB RAM मॉडल को अमेरिका के बाहर अपने रहने की जगह के हिसाब से sales tax और customs duty सहित लगभग $1200 में खरीदा, और दूसरे क्षेत्रों में यह और सस्ता हो सकता है
memory bandwidth 608GB/s है
M5 Max 32-core GPU में 460GB/s, 40-core GPU में 614GB/s है, और 3090 लगभग 900GB/s के साथ अभी भी तेज़ है, लेकिन समान श्रेणी के Nvidia card की तुलना में बहुत कम दाम में 32GB VRAM मिल जाता है
यानी 5090 की लगभग 1/3 bandwidth, 1/3 कीमत में मिलती है, और वही 32GB VRAM भी रहता है; इसलिए कम बजट में बड़े quantized model और कुछ हद तक context चलाना हो तो यह आकर्षक compromise है
मैं अभी local models explore कर रहा हूं, इसलिए test करने पर $5000~$10000 खर्च नहीं करना चाहता, और अगर सस्ते में experiment कर सकूं तो थोड़ी धीमी performance ठीक है
शुरुआत में मैंने 70W TDP वाला B50 16GB खरीदा ताकि अपने stack में Intel card test कर सकूं, और Ubuntu व Vulkan पर यह आसानी से चल गया
मैंने बहुत-सी posts देखीं जिनमें इसे झंझटभरा और बेकार बताया गया था, लेकिन वे ज़्यादातर SYCL से जुड़ी लगती हैं, और SYCL की performance Vulkan से बेहतर भी नहीं दिखती, इसलिए उसे इस्तेमाल करने की कोई खास वजह नहीं लगती
B50 tax और customs duty सहित $370 का था, और सचमुच Vulkan library को apt install करते ही 26.04 के default xe driver और llama.cpp के Vulkan build में चल गया
SR-IOV PF/VF भी qemu/kvm में बिना किसी अलग workaround के काम करता है, और खरीदने के बाद fwupdmgr ने firmware को दो बार update किया, तो लगता है Intel सच में इन products को support करना चाहता है
मेरे हिसाब से अभी sweet spot दो 3090 cards, PCIe 4 motherboard, और 64~128GB DDR4 RAM का combo है
अभी इसे करीब $3k में बनाया जा सकता है, और Qwen 27B/35B को int4 पर बहुत तेज़ चलाता है
संदर्भ के लिए, मैं 5090 पर gemma4 31B चला रहा हूं और यह काफ़ी शानदार है
QAT, MTP, 128k context इस्तेमाल करता हूं
Qwen 3.6 27B भी अच्छा था, लेकिन लगता है Gemma4 को थोड़ा underestimate किया गया है
- मेरा अनुभव भी मिलता-जुलता है
  4090 पर llm.cpp और unsloth model के साथ gemma4 31B चला रहा हूं
  Qwen 3.6 भी साथ में इस्तेमाल करता हूं; Qwen ज़्यादा तेज़ है इसलिए reasoning और planning के लिए अच्छा है, जबकि Gemma4 में पहले attempt पर generated code की quality कहीं बेहतर होती है
  Rust, C++, C# के मामले में merge करने लायक स्तर तक पहुंचाने के लिए कम corrections चाहिए होते हैं
- मैं Gemma4 से turn को सही तरह finish नहीं करवा पा रहा हूं
  यह हमेशा अचानक कट जाता है या गलत tool call बना देता है, शायद oMLX या Opencode की settings मैंने गलत की हैं
- अच्छा है
  4080 Super पर Qwen 3.5 9B Q6_M और Gemma4 12B Q4_K_M के बीच switch करके इस्तेमाल करता हूं
  दोनों की speed मिलती-जुलती है और उनसे एक-दूसरे की plans या changes review कराए जा सकते हैं
  छोटे projects में काफ़ी सक्षम हैं, और थोड़े मुश्किल tasks के लिए बेहतर quantization पर जा सकते हैं
unified memory computer खरीदने जाने से पहले यह जान लेना चाहिए कि DGX Spark, Mac, Ryzen AI Max 395 / Strix Halo जैसे devices पर dense models आम तौर पर धीमे होते हैं
dedicated GPU dense models को कहीं बेहतर चलाता है
जिस device को खरीदना है उसके benchmarks देखना अच्छा रहेगा, और अगर सच में ऐसा device चाहिए तो Qwen 3.6 35B या कोई दूसरा sparse MoE model चलाना बेहतर है
M3 Max 64GB RAM 16-inch MacBook Pro पर opencode के साथ qwen 3.6 35b a3b चला रहा हूं, और local planning·coding के लिए बहुत अच्छा रहा
सच कहूं तो 64GB इतना powerful दिखता है कि कभी-कभी लगता है future-proofing के लिए 128GB लेना चाहिए था
दूसरी तरफ, qwen से थोड़ा बड़े models की वजह से अभी तक किसी wall से टकराया भी नहीं हूं
- Windows laptop पर भी Qwen 3.6 35B A3b चला रहा हूं, और 64GB RAM व 4GB GPU combo के साथ कम से कम सहने लायक है
  तेज़ नहीं है—प्रति सेकंड कुछ tokens, पढ़ने की speed से धीमा—लेकिन task डालकर बाद में लौट सकते हैं
  यह कुछ साल पहले eBay से खरीदा $600 laptop है, $6000 की machine नहीं
  सोचता हूं कि unified memory Mac या बड़े 24GB desktop GPUs क्या 10~20 गुना cost के हिसाब से सच में प्रति सेकंड दर्जनों~सैकड़ों tokens दे रहे हैं
- response speed कितनी है, tokens per second के हिसाब से, यह जानने की इच्छा है
  अनुभव के हिसाब से 20~35GB models और key-value cache ही base 64GB का काफी हिस्सा खा लेते हैं, इसलिए browser, editor आदि दूसरी चीज़ें लगातार खुली रखनी हों तो पूरा 128GB निश्चित रूप से मदद करता है

Qwen 3.6 27B लोकल डेवलपमेंट का sweet spot है

Qwen 3.6 27B को recommend करने की वजह

सरल tests और वास्तविक काम के नतीजे

llama.cpp से local execution

Server execution example

OpenCode settings

Terminal chat के लिए execution

Apple Silicon performance measurement

मौजूदा state-of-the-art models से comparison

local model operation के next steps

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की रायें