7 पॉइंट द्वारा GN⁺ 2026-04-23 | 4 टिप्पणियां | WhatsApp पर शेयर करें
  • 27 अरब पैरामीटर वाला dense multimodal मॉडल जारी किया गया है, जो एक ही unified checkpoint में thinking·non-thinking modes के साथ image·video processing को भी सपोर्ट करता है
  • agentic coding प्रदर्शन प्रमुख coding benchmarks में पिछली पीढ़ी के open source flagship Qwen3.5-397B-A17B से आगे है, और कुल पैरामीटर संख्या में इससे 15 गुना तक बड़े मॉडलों को भी पीछे छोड़ता है
  • SWE-bench Verified 77.2, SWE-bench Pro 53.5, Terminal-Bench 2.0 59.3, SkillsBench 48.2 दर्ज किए गए, और GPQA Diamond 87.8, AIME26 94.1 जैसे text reasoning और STEM evaluation scores भी साथ में प्रकाशित किए गए
  • dense architecture अपनाने से MoE routing की जटिलता नहीं रहती, deployment आसान होता है, और open weights, API, Qwen Studio पर तुरंत उपयोग, साथ ही OpenClaw·Qwen Code·Claude Code integration का सपोर्ट मिलता है
  • यह दिखाता है कि अच्छी तरह प्रशिक्षित dense मॉडल डेवलपरों के मुख्य कार्यों में कहीं बड़े पिछली पीढ़ी के मॉडलों को पार कर सकते हैं, और यह Qwen3.6 श्रृंखला में agentic coding विस्तार की दिशा भी दिखाता है

अवलोकन

  • Qwen3.6-27B को 27 अरब पैरामीटर वाले dense multimodal मॉडल के रूप में जारी किया गया है, जो multimodal thinking mode और non-thinking mode दोनों को सपोर्ट करता है
  • agentic coding प्रदर्शन में यह पिछली पीढ़ी के open source flagship Qwen3.5-397B-A17B को प्रमुख coding benchmarks में पार करता है
  • MoE routing की जटिलता से मुक्त dense architecture के कारण deployment सरल है, और व्यावहारिक तथा व्यापक रूप से deploy किए जा सकने वाले आकार में top-tier coding प्रदर्शन देता है
  • Qwen Studio में इसे तुरंत इस्तेमाल किया जा सकता है, और community के लिए open weights तथा API access भी उपलब्ध है
  • इसकी मुख्य विशेषताओं में flagship-स्तरीय agentic coding, मजबूत text reasoning, और multimodal reasoning क्षमता शामिल हैं

प्रदर्शन

  • Qwen3.6-27B के लिए dense और MoE baseline मॉडलों के मुकाबले समग्र मूल्यांकन प्रस्तुत किया गया है, और agentic coding benchmarks में बड़े सुधार दर्ज किए गए हैं
  • स्पष्ट रूप से कहा गया है कि इसने कुल पैरामीटर संख्या में 15 गुना तक बड़े मॉडलों को भी पीछे छोड़ा
  • मूल्यांकन श्रेणियों में language, knowledge, STEM और reasoning, vision-language, document understanding, video understanding, और visual agent शामिल हैं
  • भाषा

    • सिर्फ 27 अरब पैरामीटर के साथ यह प्रमुख coding benchmarks में Qwen3.5-397B-A17B से आगे है
      • SWE-bench Verified 77.2 बनाम 76.2
      • SWE-bench Pro 53.5 बनाम 50.9
      • Terminal-Bench 2.0 59.3 बनाम 52.5
      • SkillsBench 48.2 बनाम 30.0
    • समान आकार के अन्य dense मॉडलों से भी यह बड़े अंतर से आगे है
    • reasoning tasks में इसने GPQA Diamond 87.8 स्कोर किया, जो अपने से कई गुना बड़े मॉडलों से प्रतिस्पर्धी है
    • विस्तृत तालिका में Qwen3.5-27B, Qwen3.5-397B-A17B, Gemma4-31B, Claude 4.5 Opus, Qwen3.6-35B-A3B, और Qwen3.6-27B की तुलना शामिल है
    • Coding Agent श्रेणी के प्रमुख स्कोर
      • SWE-bench Multilingual 71.3
      • QwenWebBench 1487
      • NL2Repo 36.2
      • Claw-Eval Avg 72.4
      • Claw-Eval Pass^3 60.6
      • QwenClawBench 53.4
    • Knowledge श्रेणी के प्रमुख स्कोर
      • MMLU-Pro 86.2
      • MMLU-Redux 93.5
      • SuperGPQA 66.0
      • C-Eval 91.4
    • STEM और reasoning श्रेणी के प्रमुख स्कोर
      • HLE 24.0
      • LiveCodeBench v6 83.9
      • HMMT Feb 25 93.8
      • HMMT Nov 25 90.7
      • HMMT Feb 26 84.3
      • IMOAnswerBench 80.8
      • AIME26 94.1
  • भाषा मूल्यांकन सेटिंग्स

    • SWE-Bench Series में internal agent scaffold और bash, file-edit tools का उपयोग किया गया, temp 1.0, top_p 0.95, और 200K context window के आधार पर
      • सार्वजनिक SWE-bench Pro set के कुछ समस्याग्रस्त tasks को सुधारकर बने refined benchmark पर सभी baseline models का मूल्यांकन किया गया
    • Terminal-Bench 2.0 में Harbor या Terminus-2 harness का उपयोग किया गया
      • 3 घंटे timeout, 32 CPU, 48 GB RAM
      • temp 1.0, top_p 0.95, top_k 20, max_tokens 80K, 256K ctx
      • 5 runs का औसत
    • SkillsBench में OpenCode से 78 tasks का मूल्यांकन किया गया
      • API-dependent tasks को हटाकर self-contained subset इस्तेमाल किया गया
      • 5 runs का औसत
    • NL2Repo में अन्य मॉडलों का मूल्यांकन Claude Code से किया गया
      • temp 1.0, top_p 0.95, max_turns 900
    • QwenClawBench वास्तविक user distribution पर आधारित Claw agent benchmark है
      • temp 0.6, 256K ctx
    • QwenWebBench internal frontend code generation benchmark है
      • EN और CN bilingual संरचना
      • Web Design, Web Apps, Games, SVG, Data Visualization, Animation, 3D की 7 categories
      • auto-render और multimodal judge के जरिए code और visual consistency का मूल्यांकन
      • BT या Elo rating system का उपयोग
    • AIME 26 में AIME 2026 I और II पूरे इस्तेमाल किए गए
      • यह भी उल्लेख है कि स्कोर Qwen 3.5 notes से अलग हो सकते हैं
  • Vision-Language

    • Qwen3.6-27B एक single unified checkpoint में vision-language thinking और non-thinking modes दोनों को सपोर्ट करता है
    • text के साथ image और video भी प्रोसेस कर सकता है
    • multimodal reasoning, document understanding, और visual question answering tasks का सपोर्ट
    • तुलना तालिका Qwen3.5-27B, Qwen3.5-397B-A17B, Gemma4-31B, Claude 4.5 Opus, Qwen3.6-35B-A3B, और Qwen3.6-27B के आधार पर दी गई है
    • STEM और puzzles

      • MMMU 82.9
      • MMMU-Pro 75.8
      • MathVista mini 87.4
      • DynaMath 85.6
      • VlmsAreBlind 97.0
    • सामान्य VQA

      • RealWorldQA 84.1
      • MMStar 81.4
      • MMBench EN-DEV-v1.1 92.3
      • SimpleVQA 56.1
    • दस्तावेज़ समझ

      • CharXiv RQ 78.4
      • CC-OCR 81.2
      • OCRBench 89.4
    • spatial intelligence

      • ERQA 62.5
      • CountBench 97.8
      • RefCOCO avg 92.5
      • EmbSpatialBench 84.6
      • RefSpatialBench 70.0
    • video understanding

      • VideoMME(w sub.) 87.7
      • VideoMMMU 84.4
      • MLVU 86.6
      • MVBench 75.5
    • Visual Agent

      • V* 94.7
      • AndroidWorld 70.3
    • टिप्पणी

      • तालिका में खाली स्थान (--) का अर्थ है कि स्कोर अभी उपलब्ध नहीं हैं या लागू नहीं होते

Qwen3.6-27B का उपयोग

  • Alibaba Cloud Model Studio सपोर्ट जल्द आने वाला है
  • Hugging Face और ModelScope पर open weights उपलब्ध हैं, इसलिए self-hosting संभव है
  • Alibaba Cloud Model Studio API के जरिए उपयोग का रास्ता और Qwen Studio में तुरंत ट्राय करने का विकल्प दोनों उपलब्ध हैं
  • OpenClaw, Claude Code, और Qwen Code जैसे third-party coding assistants के साथ integration सपोर्ट
  • developer workflow को सरल बनाने और context-aware coding experience देने का उल्लेख
  • API उपयोग

    • इस release में preserve_thinking फीचर का सपोर्ट है
    • यह message के सभी पिछले turns में जनरेट हुए thinking content को सुरक्षित रखता है, और agentic tasks के लिए अनुशंसित बताया गया है
  • Alibaba Cloud Model Studio

    • OpenAI-संगत chat completions और responses API का सपोर्ट
    • Anthropic-compatible API interface भी उपलब्ध
    • आधिकारिक दस्तावेज़ के आधार पर environment variable उदाहरण दिए गए हैं
      • DASHSCOPE_API_KEY
      • DASHSCOPE_BASE_URL
      • DASHSCOPE_MODEL
    • Base URL के उदाहरण region भी दिए गए हैं
    • sample code में default model name के रूप में qwen3.6-27b इस्तेमाल किया गया है
    • extra_body में enable_thinking: True शामिल है
      • preserve_thinking: True को comment के रूप में दिखाया गया है
    • streaming response में reasoning_content और answer content को अलग-अलग इकट्ठा करने का उदाहरण भी शामिल है
    • अतिरिक्त जानकारी के लिए API doc लिंक देखने को कहा गया है
  • Coding & Agents

    • Qwen3.6-27B में agentic coding क्षमता है और यह OpenClaw, Claude Code, तथा Qwen Code के साथ सहज रूप से integrate हो सकता है
    • OpenClaw

      • OpenClaw एक self-hosted open source AI coding agent है, जिसका पुराना नाम Moltbot या Clawdbot था
      • Model Studio से कनेक्ट करके terminal में पूरा agentic coding experience देता है
      • getting started script में Node.js 22+, install script चलाना, DASHSCOPE_API_KEY सेट करना, और openclaw dashboard या openclaw tui चलाने की प्रक्रिया शामिल है
      • पहली बार उपयोग पर ~/.openclaw/openclaw.json को modify करना पड़ता है
        • पूरे file को overwrite न करने की स्पष्ट चेतावनी दी गई है
        • existing settings को सुरक्षित रखने के लिए सिर्फ ज़रूरी fields merge करने को कहा गया है
      • उदाहरण configuration में modelstudio provider और qwen3.6-27b मॉडल registration शामिल है
        • api है openai-completions
        • reasoning का मान true
        • input types text, image
        • contextWindow है 131072
        • maxTokens है 16384
        • default primary model है modelstudio/qwen3.6-27b
    • Qwen Code

      • Qwen Code terminal के लिए open source AI agent है, और Qwen Series के लिए गहराई से optimized tool है
      • getting started script में Node.js 20+, @qwen-code/qwen-code@latest install करना, और qwen चलाना शामिल है
      • session के भीतर /help, /auth commands के उपयोग के उदाहरण दिए गए हैं
      • पहली बार उपयोग पर login prompt दिखता है, और /auth से authentication method बदला जा सकता है
    • Claude Code

      • Qwen APIs Anthropic API protocol भी सपोर्ट करते हैं
      • कहा गया है कि इसे Claude Code जैसे tools के साथ इस्तेमाल किया जा सकता है
      • configuration उदाहरण में ये environment variables शामिल हैं
      • run command है claude

समापन

  • अच्छी तरह प्रशिक्षित dense मॉडल डेवलपर्स के लिए महत्वपूर्ण tasks में कहीं बड़े पिछली पीढ़ी के मॉडलों को पार कर सकते हैं — Qwen3.6-27B इसका प्रमाण है
  • 27 अरब पैरामीटर के आकार में रहते हुए भी इसने Qwen3.5-397B-A17B को सभी प्रमुख agentic coding benchmarks में पीछे छोड़ा
  • इसकी संरचना deployment और service के लिए सरल है, और Qwen3.6 open source श्रृंखला को Qwen3.6-27B के जुड़ने से और व्यापक model lineup मिलता है

4 टिप्पणियां

 
kaydash 2026-04-23

कम से कम a3b होना चाहिए, तभी शायद लोकल में थोड़ा-बहुत चला पाएंगे, हाहा

 
kirinonakar 2026-04-23

बेंचमार्क अच्छे बताए जा रहे हैं, लेकिन वास्तविक उपयोग में अभी यह कोडिंग एजेंट के तौर पर इस्तेमाल करने लायक स्तर का नहीं लगता।

 
b89kim 2026-04-26

मैंने इसे इस्तेमाल किया है, और agentic coding में कोई बड़ी समस्या नहीं है। हालांकि, जैसा आपने कहा, वास्तविक उपयोग + सामान्य coding में यह बड़े param वाले मॉडल्स की तुलना में कमतर होना तय है। settings values भी 3.5 से अलग हैं और preserve_thinking mode भी जोड़ा गया है, इसलिए कृपया इसे ध्यान में रखें। 27B 4bit क्वांटाइज़ेशन तक हो तो लोकल में इस्तेमाल करने में कोई समस्या नहीं थी।

 
GN⁺ 2026-04-23
Hacker News की राय
  • मेरे हिसाब से 16.8GB में quantize किए गए local model के लिए pelican का रिज़ल्ट वाकई शानदार था। इसे मैंने https://simonwillison.net/2026/Apr/22/qwen36-27b/ पर संक्षेप में लिखा है, और भले ही इसे M5 Pro 128GB RAM पर चलाया, असल में ज़रूरी मेमोरी करीब 20GB लगी, इसलिए लगता है कि यह 32GB मशीन पर भी आराम से चल जाएगा। reading ने 20 tokens को 0.4 सेकंड में प्रोसेस किया, यानी 54.32 tokens/s, और generation ने 4,444 tokens को 2 मिनट 53 सेकंड में बनाया, यानी 25.57 tokens/s। कुछ दिन पहले Opus 4.7 से बनाए गए pelican से भी इस बार का रिज़ल्ट मुझे ज़्यादा पसंद आया। https://simonwillison.net/2026/Apr/16/qwen-beats-opus/
    • यह इतना अच्छा निकला है कि उल्टा ऐसा लग रहा है कहीं यह training data में शामिल तो नहीं था। कुछ और tests भी चलाकर देखना चाहूँगा कि फ़र्क कैसा आता है
    • मज़ाक-मज़ाक में लगता है कि कभी न कभी model providers Simon के असरदार pelican riding a bicycle test के लिए optimize करना शुरू कर देंगे
    • Qwen Flamingo पर लगी bow tie भी सच में कमाल की लगती है
    • मेरी याद में pelican test के लिए किसी को इतने ज़ोर से excellent कहते बहुत कम सुना है, लेकिन इस बार वह सच में बनता है। कुछ समय से रुझान MoE की तरफ़ था, इसलिए इस बार dense model का फिर से ध्यान खींचना भी दिलचस्प है। यह भी जानना चाहूँगा कि private models में fast lineup MoE और pro lineup dense की तरफ़ जा रहे हैं या नहीं
    • अब तक तो LLMs को समझ आ जाना चाहिए कि साइकिल का फ़्रेम असल में दो हिस्सों में बँटा हुआ diamond होता है → ◿◸. बस उम्मीद है कि यह बात कहकर मैंने test खराब नहीं कर दिया
  • Gemma 4 के पिछले Easter के आसपास आने के बाद से मुझे लगता है कि self hosting models और Claude के बीच का gap काफ़ी कम हुआ है। हाँ, फ़र्क अभी भी बड़ा है, लेकिन उससे पहले local models इतने कमज़ोर थे कि अब हालात बहुत बेहतर लगते हैं। और अगर Qwen 3.6, Gemma 4 से एक स्तर ऊपर है, तो यह काफ़ी रोमांचक बात है। फिर भी local models अब भी कभी-कभी अजीब दिशा में भटक जाते हैं या fail हो जाते हैं, इसलिए मैं Opus को हमेशा पास रखता हूँ। इसके बावजूद, जब भी कोई local model सच में मेरी अच्छी मदद कर देता है, मुझे फिर से वही एहसास होता है कि coding को free होना चाहिए। यानी मुफ़्त भी, और आज़ाद भी। मेरा setup RTX 5090 वाले अलग Ubuntu machine पर है, और इस वक्त Qwen 3.6 27B, 32GB VRAM में से 29GB इस्तेमाल कर रहा है। मैं Ollama को root के बजाय podman instance में चलाता हूँ, और editor में OpenCode को ACP Service के रूप में जोड़कर इस्तेमाल करता हूँ, जिसकी मैं ज़ोरदार सिफ़ारिश करता हूँ। ACP का मतलब Agent Client Protocol है, और मुझे लगता है दुनिया को इसी दिशा में जाना चाहिए। और Qwen team का भी आभारी हूँ कि Sam Altman जैसे लोगों से भरी दुनिया में उन्होंने दुनिया को थोड़ा बेहतर बनाया है
    • मेरे M5 MBP पर local में चलाए गए models में Gemma4 सबसे ज़्यादा Claude जैसा लगा
    • मैं भी free और local वाले आदर्श से सहमत हूँ, लेकिन आख़िर में असली बात sustainable competition की है। सिर्फ़ यह दबाव बनना ही संतोषजनक है कि 200 डॉलर महीना वाला खर्च बहुत नीचे लाया जाए
    • जानना चाहता हूँ कि 27B model वास्तव में किस स्तर के programming tasks संभाल सकता है। Claude भी कभी-कभी कम पड़ जाता है, तो 27B कितना practical है, यह कल्पना करना आसान नहीं है
    • RTX 5090 पर tokens/s कितना मिलता है, यह जानना चाहूँगा
  • हर बार model announce करते समय यह भी साथ दिखाना चाहिए कि उसे अभी किन consumer hardware पर चलाया जा सकता है, उसकी लागत कितनी है, और tok/s कितना मिलता है
    • इनके द्वारा सीधे जारी किए गए 27B model को 16-bit में native चलाने के लिए काफ़ी भारी hardware चाहिए। Mac या Strix Halo 128GB system, कई high-memory consumer GPUs, या RTX 6000 स्तर का workstation card चाहिए। शायद इसी वजह से ये लोग ज़ोर-शोर से नहीं बताते कि यह किन consumer hardware पर चलता है। क्योंकि जिन results का प्रचार हो रहा है, उनका मूल release आम consumer systems में ठीक से फिट नहीं बैठता। ज़्यादातर लोग original की जगह lower-bit quantized version चलाते हैं। लेकिन quantization में साफ़ trade-offs होते हैं, इसलिए advertised results जैसी बिल्कुल वही quality मिलना मुश्किल है। पिछला Qwen3.5 27B quality degradation कितनी स्वीकार है, इस पर निर्भर करते हुए Q5 या Q4 तक काफ़ी usable था, और unified memory systems में अतिरिक्त 32GB RAM चाहिए होती थी, इसलिए आम तौर पर 64GB Mac ठीक विकल्प था। NVIDIA 5090 32GB या 16GB/24GB GPU की दो cards से भी यह संभव था, लेकिन distribution के कारण speed धीमी हो जाती थी। iPhone या उससे छोटे systems पर इसे चलाने के दावों को सावधानी से देखना चाहिए। बहुत aggressive quantization और तरह-तरह की tricks से चलाना संभव तो हो सकता है, लेकिन output quality अक्सर practical use के लायक नहीं रहती। सोशल मीडिया पर छोटे hardware पर चलाने वाले repositories अक्सर दिख जाते हैं, लेकिन उनके नतीजे सच में अच्छे हों, ऐसा ज़रूरी नहीं
    • मुझे M4 32GB RAM पर करीब ~5 tokens/s मिले। मैंने unsloth/Qwen3.6-27B-GGUF:Q4_K_M को llama-server से चलाया, और 35B-A3B model लगभग 25 t/s दे रहा था। तुलना के लिए, A100 पर दोनों क्रमशः 41 t/s और 97 t/s दे रहे थे। 27B को अभी लंबा test नहीं किया, लेकिन 35B-A3B, context 15k~20k tokens पार होते ही अक्सर पटरी से उतर जाता था। बुनियादी काम भरोसेमंद ढंग से करवा सकते हैं, लेकिन इसे frontier model स्तर का कहना मुझे ठीक नहीं लगता
    • local LLM चलाने के लिए CPU/GPU combinations लगभग अनंत हैं, इसलिए ज़्यादातर लोग अपने budget और goals के हिसाब से system चुनते हैं, फिर model size और quantization देखकर VRAM usage का मोटा अंदाज़ लगाते हैं। ज़्यादा detailed analysis चाहिए तो online VRAM calculator इस्तेमाल किया जा सकता है, जैसे https://smcleod.net/vram-estimator/। अगर आपके पास huggingface account है, तो system configuration डालकर हर quant के बगल में रंग से यह भी देख सकते हैं कि वह फिट होने की कितनी संभावना है। और t/s context size समेत कई variables पर बहुत निर्भर करता है, इसलिए ज़्यादा से ज़्यादा rough estimate ही दिया जा सकता है। अभी local LLM की दुनिया में सचमुच हर जगह trade-offs हैं, इसलिए task के हिसाब से क्या optimize करना है, यह लगातार चुनना पड़ता है
    • Qwen3.5-27B, 4bit quant के आधार पर, 24GB card पर बिना दिक्कत चल जाता है। मैं दो Nvidia L4 cards और कुछ vllm flags के साथ इसे 10 developers को 20~25 tok/s पर serve कर रहा हूँ, और idle होने पर यह करीब 40 tok/s तक जाता है। developers इस performance से संतुष्ट हैं, लेकिन throughput बढ़ाने के लिए GPU और जोड़ने को कहा था
    • मुझे RTX 4090D पर करीब 30 t/s मिल रहे हैं, और VRAM 48GB में से 42GB इस्तेमाल हो रही है। quantization UD-Q6_K_XL है, और संबंधित चर्चा https://huggingface.co/unsloth/Qwen3.6-27B-GGUF/discussions/7 पर है
  • Qwen या Minimax जैसी जगहें OpenAI या Anthropic से थोड़ा नीचे सही, लेकिन मिलते-जुलते benchmark results वाले open source models जारी कर रही हैं, तो सोचता हूँ कि OpenAI या Anthropic की मौजूदा competitive edge आख़िर है क्या। ऊपर से इन open models की token pricing भी Anthropic Opus 4.6 की तुलना में बहुत कम है। https://artificialanalysis.ai/models/#pricing
    • coding में आख़िरी कुछ प्रतिशत का quality gap इतना महत्वपूर्ण होता है कि उसके लिए premium देना सही लगता है। यह bulk spam mail या HN comments बनाने जैसा काम नहीं है। मुझे लगता है average engineer और P99 engineer के rewards में बड़ा अंतर भी इसी वजह से है। और frontier कंपनियों का अभी इतने ऊँचे R&D costs के बावजूद प्रतिस्पर्धी बने रहना, लंबे समय में फ़ायदेमंद है, क्योंकि इससे उन्हें बेहतर products और ज़्यादा added value बनानी पड़ती है। ख़ासकर Anthropic शायद खुद को ज़्यादा reliable vendor की स्थिति में रखना चाहता है। Ali तक paid frontier models host करता है, लेकिन अगर आप चीनी कंपनी नहीं हैं, तो क्या आप production code development workload किसी Chinese hosting provider पर चलाना चाहेंगे? OpenAI के बारे में भी कुछ असहजता हो सकती है, लेकिन फिर भी यह कम शक होता है कि वे सीधे आपके trade secrets उठा ले जाएँगे। Anthropic पर मैं उससे भी थोड़ा ज़्यादा भरोसा करता हूँ। इसलिए premium बनता है। Chinese hosting companies के बारे में यह ऐतिहासिक मिसाल बहुत मज़बूत है कि वे अपनी हर possible competitive edge का पूरा इस्तेमाल कर सकती हैं और उसे सरकार या दूसरी कंपनियों के साथ साझा भी कर सकती हैं, इसलिए लोग उस risk को pricing में शामिल करते हैं
    • मैं Opus और Qwen दोनों इस्तेमाल करता हूँ, और मेरे practical अनुभव में दोनों के बीच का gap benchmark charts से काफ़ी बड़ा है। hosted models से तुलना करनी हो तो इस समय GLM को देखना ज़्यादा उचित होगा। वह बड़े players के सबसे क़रीब है, और पहले बहुत कम दाम पर मिलता था, लेकिन हाल में उसने भी कीमतें बढ़ानी शुरू की हैं
    • अगर ये नतीजे vampire attacks की वजह से हैं, तो जैसे ही private models यह सीख जाएँगे कि जवाब चूसने वाले रास्तों को कैसे दूषित करना है, हो सकता है performance अभी जितनी अच्छी न रहे। और रोज़मर्रा के workflows में इस्तेमाल करने पर यह उतना समान स्तर का नहीं लगता। shallow reasoning के लिए ठीक हो सकता है, लेकिन coding या मुश्किल tasks में अभी भी फ़र्क बड़ा है। कम से कम मैंने जिन open models को इस्तेमाल किया है, उनमें अभी तक private models जितना अच्छा कोई नहीं मिला। अगर किसी के पास अच्छी settings हों, तो मैं जानना चाहूँगा
    • इस समय तो मुझे कोई competitive edge नज़र नहीं आती। लेकिन जैसे ही कोई एक ecosystem integrate होना शुरू करेगा, वहीं से बढ़त बन सकती है
    • Opus की ऊँची token pricing उल्टा इस बात का सबूत है कि लोग वाकई बेहतर model के लिए पैसे देने को तैयार हैं। नए OpenAI और Anthropic models open source से साफ़ तौर पर बेहतर हैं; open source बेकार नहीं है, लेकिन frontier निश्चित रूप से बेहतर है और कुछ समय तक ऐसा रहने की संभावना है। अगर SWE time की कीमत 1 डॉलर प्रति मिनट से ऊपर है, तो एक बातचीत पर 10 डॉलर खर्च होना भी ठीक है अगर उससे 10 मिनट बचते हैं। ख़ासकर code work में quality का हल्का-सा सुधार भी समय की बड़ी बचत में बदल सकता है
  • मैं M4 MBP पर Qwen 3.6 35B और Gemma 4 26B इस्तेमाल कर रहा हूँ, और भले ही यह Opus स्तर का न हो, यह मेरे ज़रूरी कामों का 95% कर देता है, और यह सब पूरी तरह local चल रहा है — यही बात अपने-आप में हैरान करने वाली है
    • आप किस तरह के tasks करते हैं, और Qwen या Gemma को किस harness या approach से जोड़कर इस्तेमाल करते हैं, यह जानना चाहूँगा। यानी आपका workflow और software stack कैसा दिखता है
    • अब यह काफ़ी usable हो चुका है, इसलिए जैसे Codex अपना काम खुद कम करता है, वैसे ही मैंने भी ज़्यादा tasks इस local model को delegate करने शुरू कर दिए हैं। और मेरे M4 पर dense 27B की तुलना में 122B version का throughput काफ़ी बेहतर है, इसलिए उसे लेकर भी मैं काफ़ी उत्साहित हूँ
    • क्या आप इसे Ollama से इस्तेमाल कर रहे हैं, या कुछ और से, यह जानना चाहूँगा
    • मैं 95% वाली बात का सटीक मतलब और सुनना चाहूँगा। मेरी जिज्ञासा दो बातों पर है। पहली, क्या इसका मतलब output quality के हिसाब से Opus 4.5 या 4.6 की accuracy का 95% है? दूसरी, क्या इसका मतलब tool calling या agentic tasks, जैसे यात्रा योजना बनाना, में Opus की तुलना में 95% execution level है?
  • local LLMs के साथ अभी तक मैं सहज नहीं हूँ, इसलिए कल मैंने Qwen3.6-35B-A3B model के कुछ versions setup और test करने में समय लगाया। शायद mlx 4b और 8b, और gguf Q4_K_M व Q4_K_XL थे। मेरे 64GB M4 पर यह काफ़ी प्रभावशाली लगा। लेकिन TFA की तालिका देखें तो यह नया model थोड़ा ज़्यादा smart दिखता है, बदले में ज़्यादा VRAM खाता है; इसलिए सोच रहा हूँ कि क्या असली फ़र्क इसका dense होना है। और क्योंकि 27B, 35B से छोटा है, उम्मीद है कि जल्द ही ऐसे quantized models भी आएँगे जिनकी VRAM demand और कम हो
    • असली बात सिर्फ़ parameter count की तुलना नहीं है। 35B-A3B एक Mixture of Experts model है, इसलिए एक समय पर लगभग 3B parameters ही active होते हैं। इसी वजह से इसकी वास्तविक compute demand 35B नहीं, बल्कि उस 3B के आसपास scale करती है। हाँ, पूरे 35B layers तक high-bandwidth access की ज़रूरत फिर भी रहती है। दूसरी तरफ़ यह नया model dense है, इसलिए Mac पर यह बहुत धीमा हो सकता है। उदाहरण के लिए, मेरे M4 Pro पर Q6 gguf में यह लगभग 9 tok/s देता था, जबकि 35-A3B, Q4 और mlx पर था इसलिए तुलना पूरी तरह निष्पक्ष नहीं है, लेकिन वह करीब 70 tok/s दे रहा था। आम तौर पर ऐसे dense models dedicated GPU पर बेहतर चलते हैं, और अगर VRAM इतनी हो कि पूरा model resident रह सके, तो निर्णय आसान हो जाता है। मेरा अंदाज़ है कि इस model के लिए करीब 24GB VRAM या उससे ज़्यादा ठीक रहेगा, और NVIDIA 3090, 4090, 5090 class पर यह आराम से चलना चाहिए
  • llama server में Q4_K_M पर चलाने से 24GB के आधार पर करीब 91k context मिल रहा है, और हिसाब लगाएँ तो KV-Cache, context के हर 1K पर लगभग 70MB ले रहा है। अगर Q5 पर जाते तो शायद करीब 30K tokens की जगह बचती, और यह अपने-आप में काफ़ी प्रभावशाली है
  • मैंने SVG में साइकिल चलाता pelican बनाकर देखा, और रिज़ल्ट https://codepen.io/chdskndyq11546/pen/yyaWGJx है। साथ ही hotdog खाते हुए car चलाता dragon भी बनाया, और उसका रिज़ल्ट https://codepen.io/chdskndyq11546/pen/xbENmgK है। यह परफ़ेक्ट तो नहीं है, लेकिन सिर्फ़ इन नतीजों से भी साफ़ दिखता है कि models कितने powerful हो गए हैं
    • dragon image में एक आँख या अजीब tail जैसी समस्याएँ हैं, लेकिन pelican वाला मेरे देखे हुए में लगभग best लगा, यानी लगभग परफ़ेक्ट
    • यह इतना मशहूर benchmark बन चुका है कि अब सोचने पर मजबूर करता है कि कहीं models को पहले से इसी test पर train तो नहीं किया गया
  • अब तक local inference के अनुभव के आधार पर मैं बहुत प्रभावित नहीं हुआ हूँ। M5 Pro 128GB RAM पर omlx से करीब 11 tokens/s मिले, और नतीजा यह हुआ कि कुछ सौ lines का काम न करने वाला code लिखने में एक घंटा लग गया। वही काम Opus और Sonnet ने CC में कुछ ही मिनटों में सही ढंग से कर दिया। कल Ollama में चलाया गया 3.6 35b model ठीक-ठाक लगा। Claude Code के अलावा कुछ और harnesses भी आज़माने का सोच रहा हूँ, लेकिन फ़िलहाल local models मुझे बहुत धीमे लगते हैं
    • यह एक dense model है, इसलिए Mac पर धीमा होना स्वाभाविक है। Mac पर हैं तो Qwen3.6 की Mixture of Experts release, यानी Qwen3.6-35B-A3B, आज़माना बेहतर होगा। मेरे M4 Pro पर यह करीब 70 tok/s देता था। अगर आपको इससे बहुत कम speed मिल रही है, तो हो सकता है कि आप गलती से GGUF format इस्तेमाल कर रहे हों। Mac पर Apple-specific MLX format अक्सर तेज़ होता है
    • मेरे M2 Max MacBook पर MLX 8-bit quant version में generation speed करीब 7 tokens/sec थी
    • मुझे लगा OpenCode, Claude की तुलना में local models का इस्तेमाल ज़्यादा अच्छी तरह करता है
  • M4 Pro में 48GB RAM हो तो क्या चलाया जा सकता है, यह जानना चाहता हूँ
    • ऐसे मामले में ज़्यादा sparse संरचना वाला Qwen3.6 35B A3B शायद सबसे अच्छा विकल्प होगा। अधिक जानकारी के लिए https://qwen.ai/blog?id=qwen3.6-35b-a3b देखें