1 पॉइंट द्वारा GN⁺ 4 시간 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Z.ai का नया open model GLM-5.2 लोकल में चलाए जाने वाले बड़े मॉडलों के एक अहम उदाहरण के रूप में सामने आता है, जिसमें 744B parameters, 40B active parameters, और 1M context window है
  • Unsloth Dynamic GGUF के जरिए लोकल execution path देता है, और सुझाया गया 2-bit UD-IQ2_M quant लगभग 239GB disk और कम-से-कम 245GB RAM स्तर के environment की मांग करता है
  • Dynamic 1-bit लगभग 76.2% top-1 accuracy और 86% size reduction दिखाता है, जबकि Dynamic 2-bit लगभग 82% accuracy और 84% size reduction दिखाता है, यानी इसे केवल “जितना छोटा, उतना खराब” के रूप में नहीं समझना चाहिए
  • चलाने के दो मुख्य तरीके हैं: Unsloth Studio और llama.cpp; Studio MacOS, Windows, Linux पर model search, download, run, RAM offloading, और multiGPU detection को support करता है
  • लंबे context को व्यवहार में इस्तेमाल करने के लिए llama.cpp में KV cache quantization से memory usage घटानी पड़ती है; q4_0 लगभग 3.5x और q4_1 लगभग 3.2x लंबे context को संभव बना सकता है

GLM-5.2 मॉडल का अवलोकन

  • GLM-5.2 Z.ai का नया open model है, और इसे Unsloth Dynamic GGUF के जरिए लोकल hardware पर चलाया जा सकता है
  • मॉडल स्पेसिफिकेशन इस प्रकार हैं
    • कुल parameters: 744B
    • active parameters: 40B
    • अधिकतम context window: 1,048,576
  • इसे long-horizon coding, reasoning, और agentic tasks में SOTA performance देने वाला बताया गया है
  • Artificial Analysis और कई benchmarks के अनुसार इसका प्रदर्शन Claude 4.8 Opus, GPT-5.5, Gemini 3.1 Pro के बराबर बताया गया है
  • Unsloth ने बताया कि उसे Z.ai से day-zero access मिला था
  • GLM-5.2 के लिए GGUF model files Hugging Face पर GLM-5.2-GGUF से डाउनलोड किए जा सकते हैं

सुझाया गया quant और memory requirements

  • accessibility और accuracy के संतुलन के लिए 2-bit dynamic quant UD-IQ2_M इस्तेमाल करने की सलाह दी गई है
    • disk usage: 239GB
    • 256GB unified memory Mac में सीधे फिट हो जाता है
    • MoE offloading के साथ यह 1x24GB GPU + 256GB RAM पर भी अच्छी तरह चलने की बात कही गई है
  • 1-bit quant 223GB RAM में फिट होता है, जबकि 8-bit के लिए 810GB RAM चाहिए
  • inference hardware requirements तालिका में total memory का मतलब RAM + VRAM या unified memory है
    • दिखाए गए total memory numbers: 223GB, 245GB, 290–360GB, 372–475GB, 570GB, 810GB
  • सर्वोत्तम performance के लिए VRAM और system RAM की उपलब्ध संयुक्त memory का आकार quantized model file size से पर्याप्त रूप से बड़ा होना चाहिए

Thinking mode और sampling settings

  • GLM-5.2 तीन thinking mode देता है
    • non-thinking
    • thinking High
    • thinking Max
  • जटिल tasks के लिए Max Thinking की सिफारिश की गई है
  • Unsloth Studio में UI के जरिए High/Max Thinking और non-Thinking को toggle किया जा सकता है
  • अधिकांश use cases के लिए settings इस प्रकार हैं
    • temperature = 1.0
    • top_p = 0.95
    • अन्य modes में top_p = 1.0
  • GLM-5.2 default रूप से reasoning का उपयोग करता है, और reasoning_effort को "high", "max" या disabled चुना जा सकता है
  • thinking disable करने के उदाहरण इस प्रकार हैं
    • सामान्य shell: --chat-template-kwargs '{"enable_thinking":false}'
    • Windows PowerShell: --chat-template-kwargs "{\"enable_thinking\":false}"
  • llama.cpp में भी --reasoning on या --reasoning off इस्तेमाल किया जा सकता है
  • reasoning effort सेट करने के उदाहरण इस प्रकार हैं
    • --chat-template-kwargs '{"reasoning_effort":"max"}'
    • --chat-template-kwargs '{"reasoning_effort":"high"}'
    • --chat-template-kwargs '{"enable_thinking":false}'

Dynamic GGUF accuracy और KLD की व्याख्या

  • Unsloth ने GLM-5.2-GGUF quantization accuracy का मूल्यांकन करने के लिए KLD(KL Divergence) benchmark का उपयोग किया
  • Dynamic 4-bit UD-Q4_K_XL और Dynamic 5-bit UD-Q5_K_XL को ज्यादातर lossless बताया गया है
  • छोटे quant भी dynamic precision placement तरीके से काम करते हैं, जिसमें महत्वपूर्ण layers को higher precision और कम महत्वपूर्ण layers को low bits दिए जाते हैं
  • pure top-1% accuracy के अनुसार numbers इस प्रकार हैं
    • Dynamic 1-bit: लगभग 76.2% accuracy, 86% size reduction
    • Dynamic 2-bit: लगभग 82% accuracy, 84% size reduction
    • accuracy तुलना: {b:76,82}
  • 86% छोटा होने का मतलब 86% खराब होना नहीं है; Dynamic 1-bit को पूरे 1.5TB model की तुलना में लगभग 24% कम accurate बताया गया है
  • “76% accuracy” का मतलब यह नहीं है कि “The capital of France is” जैसे सवाल में Paris 76% और Sydney 24% चुना जाएगा
    • इस उदाहरण में Paris हमेशा 100% और Sydney 0% बताया गया है
    • 76% का number पूरे corpus में filler words और stop words की distribution बदलावों को भी शामिल करता है
  • “Create a novel” जैसे prompt में, जहां कई सही शुरुआतें संभव हैं, baseline और quantized model की token distribution अलग हो सकती है
    • baseline [I] को 100% चुन सकता है, जबकि quantized model [I] 76% और [The] 24% जैसा विभाजन दे सकता है
    • इसका मतलब यह नहीं है कि 24% संभावना पर gibberish या गलत output आएगा
  • KLD, baseline BF16 या Q8_0 probabilities और quantized version probabilities के बीच की distance है
    • quantization का लक्ष्य f(q(W)) और f(W) के बीच KL divergence के औसत को न्यूनतम करना है
    • f language model forward है, q quantization operation है, और W model parameters या weights हैं
    • KLD यदि 0 हो, तो model का reconstruction पूरी तरह सही माना जाएगा
  • पूरे training corpus, जैसे 15T tokens, पर KLD चलाना बहुत महंगा पड़ता है, इसलिए Unsloth mean KLD और छोटे representative subset sampling से optimization करता है
  • 99.9% KLD भी सामान्यतः अच्छा माना गया है, और 4bit या उससे ऊपर पर बड़ा uplift मिलता है; massive out-of-distribution tasks के लिए Dynamic 4-bit शायद सबसे उपयुक्त हो सकता है

Unsloth Studio में चलाना

  • Unsloth Studio local AI के लिए एक open-source web UI है और GLM-5.2 को support करता है
  • इसकी मुख्य क्षमताएं इस प्रकार हैं
    • MacOS, Windows, Linux पर लोकल models चलाना
    • GGUF और safetensor models को search, download, और run करना
    • RAM offloading और multiGPU setup का auto-detection
    • llama.cpp के जरिए तेज CPU + GPU inference
  • installation commands इस प्रकार हैं
  • run command इस प्रकार है
    • unsloth studio -H 0.0.0.0 -p 8888
    • इसके बाद browser में http://127.0.0.1:8888 या user-specific URL खोलें
  • Studio को HTTPS के साथ सुरक्षित तरीके से चलाने का तरीका भी दिया गया है
    • Windows, Mac, Linux पर unsloth studio --secure
    • इसमें मुफ्त Cloudflare tunnel का उपयोग होता है
  • पहली बार चलाने पर account security के लिए password बनाना होता है और उसके बाद फिर से sign in करना पड़ता है
  • Studio Chat tab में search box में GLM-5.2 खोजकर इच्छित model और quant डाउनलोड किया जा सकता है
  • model चलाने से पहले पर्याप्त compute उपलब्ध होने की पुष्टि करनी चाहिए
  • Studio में inference parameters अपने-आप set हो जाने चाहिए, लेकिन user चाहें तो context length, chat template, और अन्य settings manually बदल सकता है
  • अतिरिक्त जानकारी Unsloth Studio inference guide में है

llama.cpp में चलाना

  • llama.cpp tutorial UD-IQ2_M quant चलाने पर केंद्रित है, और इसके लिए कम-से-कम 245GB RAM चाहिए
  • तेज लोकल inference के लिए llama.cpp का उपयोग किया जाता है
  • यदि GPU नहीं है या केवल CPU inference चाहिए, तो -DGGML_CUDA=ON को -DGGML_CUDA=OFF में बदलें
  • Apple Mac / Metal devices के लिए -DGGML_CUDA=OFF के साथ आगे बढ़ा जा सकता है, क्योंकि Metal support default रूप से enabled है
  • build प्रक्रिया का flow इस प्रकार है
    • apt-get update
    • apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
    • git clone https://github.com/ggml-org/llama.cpp
    • cmake ... -DGGML_CUDA=ON
    • cmake --build ... --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
    • cp llama.cpp/build/bin/llama-* llama.cpp
  • llama.cpp का उपयोग ollama run की तरह model को सीधे load और download करने के लिए भी किया जा सकता है
  • quantization type के उदाहरण के रूप में UD-IQ2_M चुना गया है, और export LLAMA_CACHE="unsloth/GLM-5.2-GGUF" से storage location force की जा सकती है
  • बताया गया है कि llama.cpp की direct download प्रक्रिया बहुत धीमी हो सकती है, इसलिए manual download बेहतर हो सकता है

manual download और run के उदाहरण

  • तेज manual download के लिए huggingface_hub का उपयोग किया जाता है
    • pip install huggingface_hub
    • hf download unsloth/GLM-5.2-GGUF --local-dir unsloth/GLM-5.2-GGUF --include "*UD-IQ2_M*"
  • near full precision के लिए --include "*UD-Q8_K_XL*" इस्तेमाल किया जा सकता है
  • यदि download रुक जाए, तो Hugging Face Hub, XET debugging देखने की सलाह दी गई है
  • Dynamic 1-bit download command इस प्रकार है
    • hf download unsloth/GLM-5.2-GGUF --local-dir unsloth/GLM-5.2-GGUF --include "*UD-IQ1_S*"
  • conversation mode के model paths इस प्रकार हैं
    • 2-bit: unsloth/GLM-5.2-GGUF/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf
    • 1-bit: unsloth/GLM-5.2-GGUF/UD-IQ1_S/GLM-5.2-UD-IQ1_S-00001-of-00006.gguf
  • llama-cli run example में 2-bit GGUF के पहले shard को --model में देकर ये parameters इस्तेमाल किए गए हैं
    • --temp 1.0
    • --top-p 0.95
    • --min-p 0.01
  • direct run example में -hf unsloth/GLM-5.2-GGUF:UD-IQ2_M का भी उपयोग किया गया है

generation example से देखा गया व्यवहार

  • दस्तावेज़ में 2-bit GLM-5.2 द्वारा tool-calling और SVG generation करने के उदाहरण शामिल हैं
  • llama-cli चलाने के बाद “short Flappy Bird game” generate करने का परिणाम दिखाया गया है
  • generated single HTML/JavaScript game का नाम Sunset Flier है
    • इसमें canvas, start screen, game over screen, HUD score, NEW BEST!, RETRY button शामिल हैं
    • बिना external assets के Web Audio API से flap, score, hit, die sound effects बनाए गए हैं
    • game state को READY, PLAYING, DYING, OVER इन चार चरणों में manage किया गया है
    • best score को localStorage.getItem('sunsetFlierBest') और localStorage.setItem() से save किया जाता है
  • game logic में gravity, flap impulse, random pipes, collision, particles, screen shake, और medal system शामिल हैं
    • GRAVITY = 0.42
    • MAX_FALL = 9
    • PIPE_W = 68
    • PIPE_GAP = 180
    • PIPE_SPEED = 2.6
    • PIPE_SPACING = 220
  • input के तौर पर mouse, touch, keyboard Space, ArrowUp, Enter supported हैं
  • यह game example 1-bit quantization पर भी अच्छी तरह काम करता था और sound भी सामान्य रूप से चल रही थी, इसी संदर्भ में इसे दिखाया गया है

लंबा context और KV cache quantization

  • llama.cpp में लंबे context का उपयोग करने के लिए KV cache quantization से memory usage कम करना जरूरी है
  • llama.cpp ने हाल में KV cache quantization में अधिक accuracy के लिए नई techniques जोड़ी हैं; संबंधित PR है https://github.com/ggml-org/llama.cpp/pull/21038
  • supported KV cache dtypes इस प्रकार हैं
    • f32
    • f16
    • bf16
    • q8_0
    • q4_0
    • q4_1
    • iq4_nl
    • q5_0
    • q5_1
  • default value f16 है
  • q4_0 लगभग 4.5 bits per weight उपयोग करता है, इसलिए context length को 16 / 4.5, यानी लगभग 3.5x बढ़ाया जा सकता है
    • उदाहरण के लिए, जो model पहले 10K support करता था, वह लगभग 35K तक जा सकता है
  • q4_1 में अतिरिक्त shifting parameter होता है, इसलिए यह बेहतर हो सकता है, और 5 bits per weight के कारण लगभग 3.2x लंबा context देता है
  • KV cache quantization run example में GLM-5.2 GGUF model और sampling parameters निर्दिष्ट हैं
    • model path: unsloth/GLM-5.2-GGUF/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf
    • --temp 1.0
    • --top-p 0.95
    • --min-p 0.01
    • --cache-type-k q4_1
    • --cache-type-v q4_1

benchmark तालिकाओं से दिखने वाले numbers

  • दस्तावेज़ में GLM-5.2 benchmark तालिकाएं आगे दी गई हैं, लेकिन उपलब्ध सामग्री में column headers नहीं हैं, इसलिए यह तय नहीं किया जा सकता कि हर संख्या किस model या setting से संबंधित है
  • Reasoning benchmarks में निम्न rows और numbers शामिल हैं
    • HLE: 40.5, 49.8*, 41.4*, 45, 31, 41.4, 37, 37.7
    • AIME 2026: 99.2, 95.7, 98.3, 98.2, 95.3, 97, -, 94.6
    • GPQA-Diamond: 91.2, 93.6, 93.6, 94.3, 86.2, 90, 93, 90.1
  • Coding benchmarks में निम्न rows और numbers शामिल हैं
    • SWE-bench Pro: 62.1, 69.2, 58.6, 54.2, 58.4, 60.6, 59, 55.4
    • NL2Repo: 48.9, 69.7, 50.7, 33.4, 42.7, 47.2, 42.1, 35.5
    • Terminal Bench 2.1 (Terminus-2): 81.0, 85, 84, 74, 63.5, 75, 65, 64
  • Agentic benchmarks में निम्न rows और numbers शामिल हैं
    • MCP-Atlas (Public Set): 76.8, 77.8, 75.3, 69.2, 71.8, 76.4, 74.2, 73.6
    • Tool-Decathlon: 48.2, 59.9, 55.6, 48.8, 40.7, -, -, 52.8

1 टिप्पणियां

 
GN⁺ 4 시간 전
Hacker News की राय
  • Q4_K_XL चला रहा हूँ। लगभग 6tk/sec पाने के लिए 512GB RAM और 2 RTX 3090, साथ में llama.cpp -cmoe, काफी है
    अभी DDR4 2400MHz जैसी कमजोर मेमोरी होने की वजह से ऐसा है; 3200MHz हो तो शायद लगभग 9tk/sec तक पहुँच जाए। CPU भी 32-core EPYC है, तो ठीक-ठाक है, लेकिन बेहतर 64-core हो तो 11tk/sec तक जा सकता है
    हार्डवेयर की कीमतें पागल होने से पहले इसे बजट में जोड़ा था, और रोज़ थोड़ा पछताता हूँ, लेकिन फिर भी इस मॉडल को घर पर चला पाना शानदार है। प्लानिंग करने या ज़रूरी context इकट्ठा करने के बाद one-shot prompt के लिए यह अच्छा है
    पूरा हार्डवेयर खर्च असेंबल करते समय 2,400 डॉलर था, और मेहनत से ढूँढें तो ऐसे मॉडल घर पर चलाने का तरीका मिल सकता है। लोग अक्सर पूछते हैं क्यों, या cloud API इस्तेमाल करने से कितनी बचत होगी, लेकिन मुझे लगता है Fable वाली घटना ने स्वतंत्र रूप से चलाने की अहमियत दिखा दी
    unsloth टीम का धन्यवाद, और Q4_K_XL मजबूत है। अगर quantized model डाउनलोड करना है, और अगर फिट हो जाए, तो K_XL variant लेना बेहतर है

    • जो लोग ऐसे homebrew प्रयोगों से सीमाएँ आगे धकेल रहे हैं, उन्हें सलाम। crypto की तरह AI भी कारोबारियों के शोर में दबा हुआ है, लेकिन resilience बढ़ाने की बात बहुत कम होती है
      जो शोधकर्ता open source models को electric toothbrush या Tamagotchi में ठूँसने की कोशिश कर रहे हैं, वे भी उतने ही शानदार हैं
    • उस workload को लगातार चलाने पर कम से कम 600W लगेगा, यानी रोज़ लगभग 14kWh। अगर 0.2 डॉलर प्रति kWh मानें तो रोज़ 2.80 डॉलर, यानी सिर्फ बिजली का खर्च सालाना लगभग 1,000 डॉलर होगा
      अगर privacy या खुद ownership रखने का संतोष बहुत ज़रूरी नहीं है, तो hyperscaler को पैसे देना सस्ता, आसान और tokens per second के हिसाब से कहीं तेज़ पड़ेगा
      फिर भी दिशा अच्छी लगती है, और 2 साल बाद कौन-सा self-hosting hardware आएगा, यह देखने का इंतज़ार है
    • मेरे पास लगभग यही setup है। 2 RTX 3090, थोड़ा तेज़ DDR4 512GB, और 64-core EPYC [0]
      इसे इस्तेमाल करने में काफ़ी मज़ा आ रहा है, और इस मॉडल को भी जल्दी चलाकर देखना चाहता हूँ
      local models चलाने के अलावा, मैं इस मशीन को अपने मुख्य remote development platform की तरह भी इस्तेमाल करता हूँ। अब अपने सारे Claude Code sessions वहीं tmux में चलाता हूँ
      लगातार गर्म laptop छूना नहीं पड़ता, इसलिए उंगलियाँ खुश हैं। Claude Code बैटरी भी बहुत खाता है
      [0] https://medium.com/@rathko/i-built-an-epyc-64-core-512gb-ram...
    • “इसे चलाने के लिए बस इतना चाहिए” कहना 2,400 डॉलर में खरीदा हो तो सही हो सकता है, लेकिन अभी कुल कीमत 10,000 डॉलर के कहीं ज़्यादा करीब है
      सिर्फ RAM ही लगभग 5,000 डॉलर है, और GPU लगभग 2,000 डॉलर प्रति पीस, इसलिए आज के हिसाब से यह काफ़ी महँगा हार्डवेयर है
    • मेरी समझ के मुताबिक इस मॉडल के लिए llama.cpp implementation में अभी DSA sparse attention का support नहीं है, इसलिए यह अभी काफ़ी अधूरा है
      यानी मॉडल को ट्रेनिंग में इस्तेमाल न हुए किसी दूसरे mechanism पर चलाना पड़ता है, और नतीजे में quality और performance दोनों घटते हैं
      वैसे भी मुझे GLM 5.2 कई मायनों में DeepSeek V4 family जितना दिलचस्प नहीं लगता। DeepSeek V4 ज़्यादा advanced attention mechanism इस्तेमाल करता है, जिससे खासकर long context में KV cache memory काफ़ी बचती है
      नतीजतन consumer platform पर भी बड़े batch संभव हो जाते हैं। GLM में वह नहीं है, और इसकी base performance structure के हिसाब से यह लगभग Kimi 2.6 जैसा लगता है। दोनों ही सामान्य हार्डवेयर पर full quality में तर्कसंगत रूप से चलाने के लिए थोड़ा ज़्यादा भारी हैं
  • लगभग हो ही गया था। मेरे पास 192GB RAM + RTX 3090 24GB है, और मैं इसे लगभग चला ही पाता
    MoE offloading के लिए 24GB VRAM और 256GB RAM चाहिए, ऐसा लिखा है
    https://unsloth.ai/docs/models/glm-5.2#usage-guide
    पुराने thread में किसी ने कहा था कि हार्डवेयर पर 500,000 डॉलर लगेंगे
    https://news.ycombinator.com/item?id=48629970

    • 500,000 डॉलर बहुत ही बढ़ा-चढ़ाकर कहा गया है। FP8 या BF16 में बड़े पैमाने की concurrency चाहिए तो शायद इतना लग सकता है
      NVFP4 पर ठीक-ठाक speed, लगभग 120 tok/s, और concurrency मौजूदा कीमतों पर 80,000~90,000 डॉलर में भी मिल सकती है, शायद इससे कम में भी
      उस पैसे में 6 RTX 6000 PRO Blackwell, एक ठीक CPU और motherboard, और power supply खरीदी जा सकती है। कुल VRAM 576GB होगा
      अगर decode 40 tok/s और prefill लगभग 1200 tok/s भी ठीक लगे, तो 50,000 डॉलर से कम में भी हो सकता है
    • 2-bit पर अच्छे नतीजे मिलना मुश्किल है। coding के लिए आदर्श रेंज कम से कम Q8 है
    • उम्मीद है यह boom 90s जैसी computing hardware प्रगति को फिर से शुरू करेगा
      मुझे लगता है पिछले 20 सालों में hardware के अपेक्षाकृत ठहराव की एक वजह यह भी थी कि कंपनियों के पास hardware refresh को सही ठहराने लायक use cases कम थे
      पिछले 15 सालों में ज़्यादातर पैसा और energy mobile में गई
      सस्ता local inference शायद वही revenue stream बन सकता है जिसकी ज़रूरत server, desktop और laptop निर्माता कंपनियों को फिर से सक्रिय होने के लिए है
    • RAM तो है, लेकिन VRAM नहीं है। 24GB RAM वाली 3090 से कैसी speed या tok/s की उम्मीद करनी चाहिए?
      24GB RAM वाला GPU खरीदने का थोड़ा मन हो रहा है
    • मज़े के लिए Gemini से पूछा, तो उसने कहा कि बिना quantization के ठीक-ठाक throughput के लिए 500,000 डॉलर चाहिए
  • “फिट हो जाता है” का मतलब है कि यह 256GB RAM में फिट हो जाता है, लेकिन बहुत भारी quantization की स्थिति में, और तब भी बहुत धीमा चलेगा
    headline में दिया गया नंबर token generation speed नहीं बल्कि prompt processing speed है
    अगर 10 tok/s मिलता है और API 20~30 tok/s देता है, तो ऊपर-ऊपर से यह इतना बुरा नहीं लगता, लेकिन Mac Studio या ऐसा हार्डवेयर जिसमें पूरा मॉडल GPU पर नहीं चढ़ता, उसमें prompt processing शुद्ध GPU configuration की तुलना में 20~50 गुना धीमी होती है
    आखिरकार यही वह हिस्सा है जो $50,000 GPU पर खर्च किए बिना इसे व्यवहार में बेकार बना देता है। ऊपर से तब भी आपको बहुत भारी quantized model ही चलाना पड़ता है

    • Nvidia के Spark जैसे डिवाइस में 128GB unified RAM होती है
      ऐसे डिवाइस के लिए dual-port version भी है: https://www.nvidia.com/content/dam/en-zz/Solutions/networkin...
      यानी 2 x 100GB/s port, और शायद 2 x 200GB/s भी हो सकता है। हाथ लगने पर शायद और पता चले
      ऐसे डिवाइसों को cluster भी किया जा सकता है। 2 या 3 मशीनों तक, 2 IP subnet इस्तेमाल करें तो सेटअप काफी सीधा लगता है। 4 या उससे ज़्यादा पर, network latency कितना असर डालती है इस पर निर्भर करते हुए switch की ज़रूरत पड़ सकती है
      लगता है Apple ने ज़्यादा RAM वाले M series को लगभग भुला दिया है। Apple Store में 96GB unified RAM से ऊपर की configuration मिलती नहीं, और जो मिलती है उसकी कीमत भी किसी एक किडनी जैसी है
  • कई दिशाओं से एक साथ दबाव बन रहा है: GB10 पर आधारित नए AI desktop अपेक्षाकृत सस्ते हैं, और clustering से 1TB VRAM बनाया जा सकता है
    Nvidia, AMD, Intel, Cerebras वगैरह नया hardware आगे बढ़ा रहे हैं, और GLM 5.2 जैसे open source model अविश्वसनीय रूप से बेहतर होते जा रहे हैं
    DeepSeek V4 Flash जैसे flash model भी बहुत तेज़ी से सुधर रहे हैं, और quantization भी आगे बढ़ रही है
    ऐसे harness भी संभव हो रहे हैं जो अलग-अलग कामों के लिए अलग मॉडल इस्तेमाल करें, जैसे मुश्किल कामों के लिए बड़ा model और छोटे-मोटे कामों के लिए छोटा model
    इसलिए जो लोग API से बाहर निकलना चाहते हैं, वे उम्मीद कर रहे हैं कि जल्द ही वे घर पर उचित कीमत वाले AI desktop cluster host करके Opus-स्तरीय performance इस्तेमाल कर पाएँगे

    • यहाँ “अपेक्षाकृत” शब्द काफ़ी भारी काम कर रहा है। अगर एक GB10 लगभग $4,000 का है, तो 1TB cluster की कीमत $36,000 बैठती है
      समान स्तर के H200 की तुलना में यह सस्ता है, लेकिन OpenAI या Anthropic RSU से समर्थित न होने वाले home lab के लिए यह अब भी पहुँच से बाहर है
  • ऐसा लग रहा है कि अंतर कम हो रहा है, उस स्तर तक जहाँ coding समेत काफ़ी अच्छे model लोकल पर चल सकें, और कुछ कंपनियाँ इससे थोड़ा असहज होंगी। क्या मैं गलत हूँ?

    • अगर अभी RAM/GPU की कमी न होती, तो वे कंपनियाँ आज से भी ज़्यादा असहज होतीं
      लेकिन फिलहाल ऐसे बहुत कम लोग हैं जो इस model को प्रभावी ढंग से चलाने वाला hardware वहन कर सकते हैं। अगले कुछ सालों में इसमें बहुत बड़ा बदलाव आए, ऐसा नहीं लगता
      अगर Z.ai coding-केंद्रित GLM-5.2 Flash जैसा कोई version लगभग 80B parameters के पैमाने पर जारी करता है, तो अमेरिकी frontier labs ज़्यादा चिंतित होंगी
      कुल मिलाकर चीनी AI कंपनियाँ दिखा रही हैं कि वही काम कम संसाधनों में, कभी-कभी बहुत कम संसाधनों में भी किया जा सकता है, और अगर यह रुझान जारी रहा तो frontier labs असहज होंगी
      हालांकि चीनी AI कंपनियाँ भी अपने मौजूदा flagship model से कहीं छोटे लेकिन शक्तिशाली model जारी न करके अपनी moat बचाने की कोशिश करेंगी
      Alibaba Qwen अभी शायद उसी स्थिति में पहुँच चुका है। हाल में वह काफ़ी शांत है, और उसका नया 395B model ज़्यादातर लोगों के लिए घर पर चलाने के लिहाज़ से बहुत बड़ा है। इस बार वह छोटा model लाने वाला है, ऐसा भी नहीं लग रहा
    • मुझे नहीं लगता। यह आसानी से कल्पना की जा सकती है कि कोई कंपनी अपने internal development के लिए ऐसे model host और run करने का फैसला करे
      अगर development team में लगभग 10 लोग हों, तो LLM server पर $50,000 का one-time investment काफ़ी आकर्षक विकल्प हो सकता है
      unlimited token, ठीक-ठाक performance, upgrade options, और product integration की संभावना मिलती है
      आम तौर पर अगर कोई कंपनी अपने product में LLM जोड़ना चाहती है, तो local LLM approach और भी ज़्यादा आकर्षक लग सकती है। थोड़े कमज़ोर model भी उन कई use case के लिए काफ़ी अच्छे होते हैं जहाँ लोग इन्हें product में integrate करते हैं
    • ख़तरा बनने के लिए इसे ज़रूरी नहीं कि लोकल पर ही चलाया जाए। कई कंपनियाँ ऐसे third-party provider को भुगतान करने का विकल्प देख रही हैं जो इन model को host करते हैं, और उनकी कीमत frontier labs की तुलना में केवल कुछ अंश होती है
    • RAM की ज़रूरत अब भी काफ़ी तकलीफ़देह है
    • इसे लोकल पर चलाना आर्थिक रूप से समझदारी नहीं है। privacy के लिए यह शानदार है और एक मज़ेदार hobby भी
      लेकिन विकल्प या तो बेहद धीमा CPU build और $10,000 की RAM, या $90,000 के GPU, या फिर बहुत भारी quantized model हैं जिनकी quality compare करना मुश्किल है
      मज़े के लिए कोई एक बना सकता है, लेकिन उससे economics नहीं बदल जाती। फिर भी, यह संभव है — यही बात दिलचस्प है
  • OpenAI और Anthropic को शायद GLM 5.2 के रिलीज़ का timing पसंद नहीं आएगा
    यह काफ़ी हद तक दिखाता है कि कोई जादुई moat नहीं थी, बस first-mover advantage था

  • 192GB RAM वाला Mac Studio इस्तेमाल किया जा सकता है, लेकिन यह बताई गई न्यूनतम RAM से कम है
    खासकर MoE होने की वजह से, क्या तेज़ disk पर swap करके इसे किसी तरह चलाया जा सकता है?

    • इतना ज़्यादा swap चलाना NVMe SSD की कुल write endurance (TBW) खत्म करके उसकी उम्र घटाने का बढ़िया तरीका लगता है
      performance भी लगभग 0.1 tok/s जैसी दयनीय होगी
  • unsloth ने लाखों लोगों को local AI शुरू करने में मदद की है, इसके लिए बहुत सम्मान है, लेकिन यह पोस्ट थोड़ी download bait जैसी लगती है
    अगर बहुत ज़्यादा layer CPU पर offload कर दें, तो यह बिलकुल अच्छा नहीं चलता। मैंने कई बार कोशिश की है, और आखिर में भारी-भरकम Hugging Face cache folder पर rm -rf चलाना पड़ा
    मुझे शक है कि GLM 5.2 का 1-bit या 2-bit quantization, जब ज़्यादातर VRAM के बाहर चलाया जाए, उपयोगिता में Qwen3.6-27B Q8_0 से बेहतर होगा, जो पूरी तरह VRAM में फिट हो जाता है

  • लेख में कुछ भी कहा गया हो, 256GB RAM वाली मशीन पर इसे चलाने की कोशिश करने वाले लोगों का अनुभव अच्छा होने वाला नहीं लगता
    इससे कहीं ज़्यादा यथार्थवादी न्यूनतम स्तर 512GB है
    अच्छी बात यह है कि RAM महँगी होने से पहले मैंने सस्ते में खरीदे हुए 512GB RAM वाले dual Xeon workstation के 2 सिस्टम home office में रखे हैं, इसलिए कुछ प्रयोग कर सकता हूँ