GLM-5.2 को लोकल में चलाने का तरीका
(unsloth.ai)- Z.ai का नया open model GLM-5.2 लोकल में चलाए जाने वाले बड़े मॉडलों के एक अहम उदाहरण के रूप में सामने आता है, जिसमें 744B parameters, 40B active parameters, और 1M context window है
- Unsloth Dynamic GGUF के जरिए लोकल execution path देता है, और सुझाया गया 2-bit
UD-IQ2_Mquant लगभग 239GB disk और कम-से-कम 245GB RAM स्तर के environment की मांग करता है - Dynamic 1-bit लगभग 76.2% top-1 accuracy और 86% size reduction दिखाता है, जबकि Dynamic 2-bit लगभग 82% accuracy और 84% size reduction दिखाता है, यानी इसे केवल “जितना छोटा, उतना खराब” के रूप में नहीं समझना चाहिए
- चलाने के दो मुख्य तरीके हैं: Unsloth Studio और
llama.cpp; Studio MacOS, Windows, Linux पर model search, download, run, RAM offloading, और multiGPU detection को support करता है - लंबे context को व्यवहार में इस्तेमाल करने के लिए
llama.cppमें KV cache quantization से memory usage घटानी पड़ती है;q4_0लगभग 3.5x औरq4_1लगभग 3.2x लंबे context को संभव बना सकता है
GLM-5.2 मॉडल का अवलोकन
- GLM-5.2 Z.ai का नया open model है, और इसे Unsloth Dynamic GGUF के जरिए लोकल hardware पर चलाया जा सकता है
- मॉडल स्पेसिफिकेशन इस प्रकार हैं
- कुल parameters: 744B
- active parameters: 40B
- अधिकतम context window: 1,048,576
- इसे long-horizon coding, reasoning, और agentic tasks में SOTA performance देने वाला बताया गया है
- Artificial Analysis और कई benchmarks के अनुसार इसका प्रदर्शन Claude 4.8 Opus, GPT-5.5, Gemini 3.1 Pro के बराबर बताया गया है
- Unsloth ने बताया कि उसे Z.ai से day-zero access मिला था
- GLM-5.2 के लिए GGUF model files Hugging Face पर GLM-5.2-GGUF से डाउनलोड किए जा सकते हैं
सुझाया गया quant और memory requirements
- accessibility और accuracy के संतुलन के लिए 2-bit dynamic quant
UD-IQ2_Mइस्तेमाल करने की सलाह दी गई है- disk usage: 239GB
- 256GB unified memory Mac में सीधे फिट हो जाता है
- MoE offloading के साथ यह 1x24GB GPU + 256GB RAM पर भी अच्छी तरह चलने की बात कही गई है
- 1-bit quant 223GB RAM में फिट होता है, जबकि 8-bit के लिए 810GB RAM चाहिए
- inference hardware requirements तालिका में total memory का मतलब RAM + VRAM या unified memory है
- दिखाए गए total memory numbers: 223GB, 245GB, 290–360GB, 372–475GB, 570GB, 810GB
- सर्वोत्तम performance के लिए VRAM और system RAM की उपलब्ध संयुक्त memory का आकार quantized model file size से पर्याप्त रूप से बड़ा होना चाहिए
Thinking mode और sampling settings
- GLM-5.2 तीन thinking mode देता है
- non-thinking
- thinking High
- thinking Max
- जटिल tasks के लिए Max Thinking की सिफारिश की गई है
- Unsloth Studio में UI के जरिए High/Max Thinking और non-Thinking को toggle किया जा सकता है
- अधिकांश use cases के लिए settings इस प्रकार हैं
temperature = 1.0top_p = 0.95- अन्य modes में
top_p = 1.0
- GLM-5.2 default रूप से reasoning का उपयोग करता है, और
reasoning_effortको"high","max"या disabled चुना जा सकता है - thinking disable करने के उदाहरण इस प्रकार हैं
- सामान्य shell:
--chat-template-kwargs '{"enable_thinking":false}' - Windows PowerShell:
--chat-template-kwargs "{\"enable_thinking\":false}"
- सामान्य shell:
llama.cppमें भी--reasoning onया--reasoning offइस्तेमाल किया जा सकता है- reasoning effort सेट करने के उदाहरण इस प्रकार हैं
--chat-template-kwargs '{"reasoning_effort":"max"}'--chat-template-kwargs '{"reasoning_effort":"high"}'--chat-template-kwargs '{"enable_thinking":false}'
Dynamic GGUF accuracy और KLD की व्याख्या
- Unsloth ने GLM-5.2-GGUF quantization accuracy का मूल्यांकन करने के लिए KLD(KL Divergence) benchmark का उपयोग किया
- Dynamic 4-bit
UD-Q4_K_XLऔर Dynamic 5-bitUD-Q5_K_XLको ज्यादातर lossless बताया गया है - छोटे quant भी dynamic precision placement तरीके से काम करते हैं, जिसमें महत्वपूर्ण layers को higher precision और कम महत्वपूर्ण layers को low bits दिए जाते हैं
- pure top-1% accuracy के अनुसार numbers इस प्रकार हैं
- Dynamic 1-bit: लगभग 76.2% accuracy, 86% size reduction
- Dynamic 2-bit: लगभग 82% accuracy, 84% size reduction
- accuracy तुलना:
- 86% छोटा होने का मतलब 86% खराब होना नहीं है; Dynamic 1-bit को पूरे 1.5TB model की तुलना में लगभग 24% कम accurate बताया गया है
- “76% accuracy” का मतलब यह नहीं है कि “The capital of France is” जैसे सवाल में Paris 76% और Sydney 24% चुना जाएगा
- इस उदाहरण में Paris हमेशा 100% और Sydney 0% बताया गया है
- 76% का number पूरे corpus में filler words और stop words की distribution बदलावों को भी शामिल करता है
- “Create a novel” जैसे prompt में, जहां कई सही शुरुआतें संभव हैं, baseline और quantized model की token distribution अलग हो सकती है
- baseline
[I]को 100% चुन सकता है, जबकि quantized model[I]76% और[The]24% जैसा विभाजन दे सकता है - इसका मतलब यह नहीं है कि 24% संभावना पर gibberish या गलत output आएगा
- baseline
- KLD, baseline BF16 या Q8_0 probabilities और quantized version probabilities के बीच की distance है
- quantization का लक्ष्य
f(q(W))औरf(W)के बीच KL divergence के औसत को न्यूनतम करना है flanguage model forward है,qquantization operation है, औरWmodel parameters या weights हैं- KLD यदि 0 हो, तो model का reconstruction पूरी तरह सही माना जाएगा
- quantization का लक्ष्य
- पूरे training corpus, जैसे 15T tokens, पर KLD चलाना बहुत महंगा पड़ता है, इसलिए Unsloth mean KLD और छोटे representative subset sampling से optimization करता है
- 99.9% KLD भी सामान्यतः अच्छा माना गया है, और 4bit या उससे ऊपर पर बड़ा uplift मिलता है; massive out-of-distribution tasks के लिए Dynamic 4-bit शायद सबसे उपयुक्त हो सकता है
Unsloth Studio में चलाना
- Unsloth Studio local AI के लिए एक open-source web UI है और GLM-5.2 को support करता है
- इसकी मुख्य क्षमताएं इस प्रकार हैं
- MacOS, Windows, Linux पर लोकल models चलाना
- GGUF और safetensor models को search, download, और run करना
- RAM offloading और multiGPU setup का auto-detection
llama.cppके जरिए तेज CPU + GPU inference
- installation commands इस प्रकार हैं
- MacOS, Linux, WSL:
curl -fsSL https://unsloth.ai/install.sh | sh - Windows PowerShell:
irm https://unsloth.ai/install.ps1 | iex
- MacOS, Linux, WSL:
- run command इस प्रकार है
unsloth studio -H 0.0.0.0 -p 8888- इसके बाद browser में
http://127.0.0.1:8888या user-specific URL खोलें
- Studio को HTTPS के साथ सुरक्षित तरीके से चलाने का तरीका भी दिया गया है
- Windows, Mac, Linux पर
unsloth studio --secure - इसमें मुफ्त Cloudflare tunnel का उपयोग होता है
- Windows, Mac, Linux पर
- पहली बार चलाने पर account security के लिए password बनाना होता है और उसके बाद फिर से sign in करना पड़ता है
- Studio Chat tab में search box में
GLM-5.2खोजकर इच्छित model और quant डाउनलोड किया जा सकता है - model चलाने से पहले पर्याप्त compute उपलब्ध होने की पुष्टि करनी चाहिए
- Studio में inference parameters अपने-आप set हो जाने चाहिए, लेकिन user चाहें तो context length, chat template, और अन्य settings manually बदल सकता है
- अतिरिक्त जानकारी Unsloth Studio inference guide में है
llama.cpp में चलाना
- llama.cpp tutorial
UD-IQ2_Mquant चलाने पर केंद्रित है, और इसके लिए कम-से-कम 245GB RAM चाहिए - तेज लोकल inference के लिए llama.cpp का उपयोग किया जाता है
- यदि GPU नहीं है या केवल CPU inference चाहिए, तो
-DGGML_CUDA=ONको-DGGML_CUDA=OFFमें बदलें - Apple Mac / Metal devices के लिए
-DGGML_CUDA=OFFके साथ आगे बढ़ा जा सकता है, क्योंकि Metal support default रूप से enabled है - build प्रक्रिया का flow इस प्रकार है
apt-get updateapt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -ygit clone https://github.com/ggml-org/llama.cppcmake ... -DGGML_CUDA=ONcmake --build ... --target llama-cli llama-mtmd-cli llama-server llama-gguf-splitcp llama.cpp/build/bin/llama-* llama.cpp
llama.cppका उपयोगollama runकी तरह model को सीधे load और download करने के लिए भी किया जा सकता है- quantization type के उदाहरण के रूप में
UD-IQ2_Mचुना गया है, औरexport LLAMA_CACHE="unsloth/GLM-5.2-GGUF"से storage location force की जा सकती है - बताया गया है कि
llama.cppकी direct download प्रक्रिया बहुत धीमी हो सकती है, इसलिए manual download बेहतर हो सकता है
manual download और run के उदाहरण
- तेज manual download के लिए huggingface_hub का उपयोग किया जाता है
pip install huggingface_hubhf download unsloth/GLM-5.2-GGUF --local-dir unsloth/GLM-5.2-GGUF --include "*UD-IQ2_M*"
- near full precision के लिए
--include "*UD-Q8_K_XL*"इस्तेमाल किया जा सकता है - यदि download रुक जाए, तो Hugging Face Hub, XET debugging देखने की सलाह दी गई है
- Dynamic 1-bit download command इस प्रकार है
hf download unsloth/GLM-5.2-GGUF --local-dir unsloth/GLM-5.2-GGUF --include "*UD-IQ1_S*"
- conversation mode के model paths इस प्रकार हैं
- 2-bit:
unsloth/GLM-5.2-GGUF/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf - 1-bit:
unsloth/GLM-5.2-GGUF/UD-IQ1_S/GLM-5.2-UD-IQ1_S-00001-of-00006.gguf
- 2-bit:
llama-clirun example में 2-bit GGUF के पहले shard को--modelमें देकर ये parameters इस्तेमाल किए गए हैं--temp 1.0--top-p 0.95--min-p 0.01
- direct run example में
-hf unsloth/GLM-5.2-GGUF:UD-IQ2_Mका भी उपयोग किया गया है
generation example से देखा गया व्यवहार
- दस्तावेज़ में 2-bit GLM-5.2 द्वारा tool-calling और SVG generation करने के उदाहरण शामिल हैं
llama-cliचलाने के बाद “short Flappy Bird game” generate करने का परिणाम दिखाया गया है- generated single HTML/JavaScript game का नाम
Sunset Flierहै- इसमें
canvas, start screen, game over screen, HUD score,NEW BEST!,RETRYbutton शामिल हैं - बिना external assets के Web Audio API से
flap,score,hit,diesound effects बनाए गए हैं - game state को
READY,PLAYING,DYING,OVERइन चार चरणों में manage किया गया है - best score को
localStorage.getItem('sunsetFlierBest')औरlocalStorage.setItem()से save किया जाता है
- इसमें
- game logic में gravity, flap impulse, random pipes, collision, particles, screen shake, और medal system शामिल हैं
GRAVITY = 0.42MAX_FALL = 9PIPE_W = 68PIPE_GAP = 180PIPE_SPEED = 2.6PIPE_SPACING = 220
- input के तौर पर mouse, touch, keyboard
Space,ArrowUp,Entersupported हैं - यह game example 1-bit quantization पर भी अच्छी तरह काम करता था और sound भी सामान्य रूप से चल रही थी, इसी संदर्भ में इसे दिखाया गया है
लंबा context और KV cache quantization
llama.cppमें लंबे context का उपयोग करने के लिए KV cache quantization से memory usage कम करना जरूरी हैllama.cppने हाल में KV cache quantization में अधिक accuracy के लिए नई techniques जोड़ी हैं; संबंधित PR हैhttps://github.com/ggml-org/llama.cpp/pull/21038- supported KV cache dtypes इस प्रकार हैं
f32f16bf16q8_0q4_0q4_1iq4_nlq5_0q5_1
- default value
f16है q4_0लगभग 4.5 bits per weight उपयोग करता है, इसलिए context length को16 / 4.5, यानी लगभग 3.5x बढ़ाया जा सकता है- उदाहरण के लिए, जो model पहले 10K support करता था, वह लगभग 35K तक जा सकता है
q4_1में अतिरिक्त shifting parameter होता है, इसलिए यह बेहतर हो सकता है, और 5 bits per weight के कारण लगभग 3.2x लंबा context देता है- KV cache quantization run example में GLM-5.2 GGUF model और sampling parameters निर्दिष्ट हैं
- model path:
unsloth/GLM-5.2-GGUF/UD-IQ2_M/GLM-5.2-UD-IQ2_M-00001-of-00006.gguf --temp 1.0--top-p 0.95--min-p 0.01--cache-type-k q4_1--cache-type-v q4_1
- model path:
benchmark तालिकाओं से दिखने वाले numbers
- दस्तावेज़ में GLM-5.2 benchmark तालिकाएं आगे दी गई हैं, लेकिन उपलब्ध सामग्री में column headers नहीं हैं, इसलिए यह तय नहीं किया जा सकता कि हर संख्या किस model या setting से संबंधित है
- Reasoning benchmarks में निम्न rows और numbers शामिल हैं
HLE: 40.5, 49.8*, 41.4*, 45, 31, 41.4, 37, 37.7AIME 2026: 99.2, 95.7, 98.3, 98.2, 95.3, 97, -, 94.6GPQA-Diamond: 91.2, 93.6, 93.6, 94.3, 86.2, 90, 93, 90.1
- Coding benchmarks में निम्न rows और numbers शामिल हैं
SWE-bench Pro: 62.1, 69.2, 58.6, 54.2, 58.4, 60.6, 59, 55.4NL2Repo: 48.9, 69.7, 50.7, 33.4, 42.7, 47.2, 42.1, 35.5Terminal Bench 2.1 (Terminus-2): 81.0, 85, 84, 74, 63.5, 75, 65, 64
- Agentic benchmarks में निम्न rows और numbers शामिल हैं
MCP-Atlas (Public Set): 76.8, 77.8, 75.3, 69.2, 71.8, 76.4, 74.2, 73.6Tool-Decathlon: 48.2, 59.9, 55.6, 48.8, 40.7, -, -, 52.8
1 टिप्पणियां
Hacker News की राय
Q4_K_XL चला रहा हूँ। लगभग 6tk/sec पाने के लिए 512GB RAM और 2 RTX 3090, साथ में
llama.cpp -cmoe, काफी हैअभी DDR4 2400MHz जैसी कमजोर मेमोरी होने की वजह से ऐसा है; 3200MHz हो तो शायद लगभग 9tk/sec तक पहुँच जाए। CPU भी 32-core EPYC है, तो ठीक-ठाक है, लेकिन बेहतर 64-core हो तो 11tk/sec तक जा सकता है
हार्डवेयर की कीमतें पागल होने से पहले इसे बजट में जोड़ा था, और रोज़ थोड़ा पछताता हूँ, लेकिन फिर भी इस मॉडल को घर पर चला पाना शानदार है। प्लानिंग करने या ज़रूरी context इकट्ठा करने के बाद one-shot prompt के लिए यह अच्छा है
पूरा हार्डवेयर खर्च असेंबल करते समय 2,400 डॉलर था, और मेहनत से ढूँढें तो ऐसे मॉडल घर पर चलाने का तरीका मिल सकता है। लोग अक्सर पूछते हैं क्यों, या cloud API इस्तेमाल करने से कितनी बचत होगी, लेकिन मुझे लगता है Fable वाली घटना ने स्वतंत्र रूप से चलाने की अहमियत दिखा दी
unsloth टीम का धन्यवाद, और Q4_K_XL मजबूत है। अगर quantized model डाउनलोड करना है, और अगर फिट हो जाए, तो K_XL variant लेना बेहतर है
जो शोधकर्ता open source models को electric toothbrush या Tamagotchi में ठूँसने की कोशिश कर रहे हैं, वे भी उतने ही शानदार हैं
अगर privacy या खुद ownership रखने का संतोष बहुत ज़रूरी नहीं है, तो hyperscaler को पैसे देना सस्ता, आसान और tokens per second के हिसाब से कहीं तेज़ पड़ेगा
फिर भी दिशा अच्छी लगती है, और 2 साल बाद कौन-सा self-hosting hardware आएगा, यह देखने का इंतज़ार है
इसे इस्तेमाल करने में काफ़ी मज़ा आ रहा है, और इस मॉडल को भी जल्दी चलाकर देखना चाहता हूँ
local models चलाने के अलावा, मैं इस मशीन को अपने मुख्य remote development platform की तरह भी इस्तेमाल करता हूँ। अब अपने सारे Claude Code sessions वहीं
tmuxमें चलाता हूँलगातार गर्म laptop छूना नहीं पड़ता, इसलिए उंगलियाँ खुश हैं। Claude Code बैटरी भी बहुत खाता है
[0] https://medium.com/@rathko/i-built-an-epyc-64-core-512gb-ram...
सिर्फ RAM ही लगभग 5,000 डॉलर है, और GPU लगभग 2,000 डॉलर प्रति पीस, इसलिए आज के हिसाब से यह काफ़ी महँगा हार्डवेयर है
llama.cppimplementation में अभी DSA sparse attention का support नहीं है, इसलिए यह अभी काफ़ी अधूरा हैयानी मॉडल को ट्रेनिंग में इस्तेमाल न हुए किसी दूसरे mechanism पर चलाना पड़ता है, और नतीजे में quality और performance दोनों घटते हैं
वैसे भी मुझे GLM 5.2 कई मायनों में DeepSeek V4 family जितना दिलचस्प नहीं लगता। DeepSeek V4 ज़्यादा advanced attention mechanism इस्तेमाल करता है, जिससे खासकर long context में KV cache memory काफ़ी बचती है
नतीजतन consumer platform पर भी बड़े batch संभव हो जाते हैं। GLM में वह नहीं है, और इसकी base performance structure के हिसाब से यह लगभग Kimi 2.6 जैसा लगता है। दोनों ही सामान्य हार्डवेयर पर full quality में तर्कसंगत रूप से चलाने के लिए थोड़ा ज़्यादा भारी हैं
लगभग हो ही गया था। मेरे पास 192GB RAM + RTX 3090 24GB है, और मैं इसे लगभग चला ही पाता
MoE offloading के लिए 24GB VRAM और 256GB RAM चाहिए, ऐसा लिखा है
https://unsloth.ai/docs/models/glm-5.2#usage-guide
पुराने thread में किसी ने कहा था कि हार्डवेयर पर 500,000 डॉलर लगेंगे
https://news.ycombinator.com/item?id=48629970
NVFP4 पर ठीक-ठाक speed, लगभग 120 tok/s, और concurrency मौजूदा कीमतों पर 80,000~90,000 डॉलर में भी मिल सकती है, शायद इससे कम में भी
उस पैसे में 6 RTX 6000 PRO Blackwell, एक ठीक CPU और motherboard, और power supply खरीदी जा सकती है। कुल VRAM 576GB होगा
अगर decode 40 tok/s और prefill लगभग 1200 tok/s भी ठीक लगे, तो 50,000 डॉलर से कम में भी हो सकता है
मुझे लगता है पिछले 20 सालों में hardware के अपेक्षाकृत ठहराव की एक वजह यह भी थी कि कंपनियों के पास hardware refresh को सही ठहराने लायक use cases कम थे
पिछले 15 सालों में ज़्यादातर पैसा और energy mobile में गई
सस्ता local inference शायद वही revenue stream बन सकता है जिसकी ज़रूरत server, desktop और laptop निर्माता कंपनियों को फिर से सक्रिय होने के लिए है
24GB RAM वाला GPU खरीदने का थोड़ा मन हो रहा है
“फिट हो जाता है” का मतलब है कि यह 256GB RAM में फिट हो जाता है, लेकिन बहुत भारी quantization की स्थिति में, और तब भी बहुत धीमा चलेगा
headline में दिया गया नंबर token generation speed नहीं बल्कि prompt processing speed है
अगर 10 tok/s मिलता है और API 20~30 tok/s देता है, तो ऊपर-ऊपर से यह इतना बुरा नहीं लगता, लेकिन Mac Studio या ऐसा हार्डवेयर जिसमें पूरा मॉडल GPU पर नहीं चढ़ता, उसमें prompt processing शुद्ध GPU configuration की तुलना में 20~50 गुना धीमी होती है
आखिरकार यही वह हिस्सा है जो $50,000 GPU पर खर्च किए बिना इसे व्यवहार में बेकार बना देता है। ऊपर से तब भी आपको बहुत भारी quantized model ही चलाना पड़ता है
ऐसे डिवाइस के लिए dual-port version भी है: https://www.nvidia.com/content/dam/en-zz/Solutions/networkin...
यानी 2 x 100GB/s port, और शायद 2 x 200GB/s भी हो सकता है। हाथ लगने पर शायद और पता चले
ऐसे डिवाइसों को cluster भी किया जा सकता है। 2 या 3 मशीनों तक, 2 IP subnet इस्तेमाल करें तो सेटअप काफी सीधा लगता है। 4 या उससे ज़्यादा पर, network latency कितना असर डालती है इस पर निर्भर करते हुए switch की ज़रूरत पड़ सकती है
लगता है Apple ने ज़्यादा RAM वाले M series को लगभग भुला दिया है। Apple Store में 96GB unified RAM से ऊपर की configuration मिलती नहीं, और जो मिलती है उसकी कीमत भी किसी एक किडनी जैसी है
कई दिशाओं से एक साथ दबाव बन रहा है: GB10 पर आधारित नए AI desktop अपेक्षाकृत सस्ते हैं, और clustering से 1TB VRAM बनाया जा सकता है
Nvidia, AMD, Intel, Cerebras वगैरह नया hardware आगे बढ़ा रहे हैं, और GLM 5.2 जैसे open source model अविश्वसनीय रूप से बेहतर होते जा रहे हैं
DeepSeek V4 Flash जैसे flash model भी बहुत तेज़ी से सुधर रहे हैं, और quantization भी आगे बढ़ रही है
ऐसे harness भी संभव हो रहे हैं जो अलग-अलग कामों के लिए अलग मॉडल इस्तेमाल करें, जैसे मुश्किल कामों के लिए बड़ा model और छोटे-मोटे कामों के लिए छोटा model
इसलिए जो लोग API से बाहर निकलना चाहते हैं, वे उम्मीद कर रहे हैं कि जल्द ही वे घर पर उचित कीमत वाले AI desktop cluster host करके Opus-स्तरीय performance इस्तेमाल कर पाएँगे
समान स्तर के H200 की तुलना में यह सस्ता है, लेकिन OpenAI या Anthropic RSU से समर्थित न होने वाले home lab के लिए यह अब भी पहुँच से बाहर है
ऐसा लग रहा है कि अंतर कम हो रहा है, उस स्तर तक जहाँ coding समेत काफ़ी अच्छे model लोकल पर चल सकें, और कुछ कंपनियाँ इससे थोड़ा असहज होंगी। क्या मैं गलत हूँ?
लेकिन फिलहाल ऐसे बहुत कम लोग हैं जो इस model को प्रभावी ढंग से चलाने वाला hardware वहन कर सकते हैं। अगले कुछ सालों में इसमें बहुत बड़ा बदलाव आए, ऐसा नहीं लगता
अगर Z.ai coding-केंद्रित GLM-5.2 Flash जैसा कोई version लगभग 80B parameters के पैमाने पर जारी करता है, तो अमेरिकी frontier labs ज़्यादा चिंतित होंगी
कुल मिलाकर चीनी AI कंपनियाँ दिखा रही हैं कि वही काम कम संसाधनों में, कभी-कभी बहुत कम संसाधनों में भी किया जा सकता है, और अगर यह रुझान जारी रहा तो frontier labs असहज होंगी
हालांकि चीनी AI कंपनियाँ भी अपने मौजूदा flagship model से कहीं छोटे लेकिन शक्तिशाली model जारी न करके अपनी moat बचाने की कोशिश करेंगी
Alibaba Qwen अभी शायद उसी स्थिति में पहुँच चुका है। हाल में वह काफ़ी शांत है, और उसका नया 395B model ज़्यादातर लोगों के लिए घर पर चलाने के लिहाज़ से बहुत बड़ा है। इस बार वह छोटा model लाने वाला है, ऐसा भी नहीं लग रहा
अगर development team में लगभग 10 लोग हों, तो LLM server पर $50,000 का one-time investment काफ़ी आकर्षक विकल्प हो सकता है
unlimited token, ठीक-ठाक performance, upgrade options, और product integration की संभावना मिलती है
आम तौर पर अगर कोई कंपनी अपने product में LLM जोड़ना चाहती है, तो local LLM approach और भी ज़्यादा आकर्षक लग सकती है। थोड़े कमज़ोर model भी उन कई use case के लिए काफ़ी अच्छे होते हैं जहाँ लोग इन्हें product में integrate करते हैं
लेकिन विकल्प या तो बेहद धीमा CPU build और $10,000 की RAM, या $90,000 के GPU, या फिर बहुत भारी quantized model हैं जिनकी quality compare करना मुश्किल है
मज़े के लिए कोई एक बना सकता है, लेकिन उससे economics नहीं बदल जाती। फिर भी, यह संभव है — यही बात दिलचस्प है
OpenAI और Anthropic को शायद GLM 5.2 के रिलीज़ का timing पसंद नहीं आएगा
यह काफ़ी हद तक दिखाता है कि कोई जादुई moat नहीं थी, बस first-mover advantage था
192GB RAM वाला Mac Studio इस्तेमाल किया जा सकता है, लेकिन यह बताई गई न्यूनतम RAM से कम है
खासकर MoE होने की वजह से, क्या तेज़ disk पर swap करके इसे किसी तरह चलाया जा सकता है?
performance भी लगभग 0.1 tok/s जैसी दयनीय होगी
unsloth ने लाखों लोगों को local AI शुरू करने में मदद की है, इसके लिए बहुत सम्मान है, लेकिन यह पोस्ट थोड़ी download bait जैसी लगती है
अगर बहुत ज़्यादा layer CPU पर offload कर दें, तो यह बिलकुल अच्छा नहीं चलता। मैंने कई बार कोशिश की है, और आखिर में भारी-भरकम Hugging Face cache folder पर
rm -rfचलाना पड़ामुझे शक है कि GLM 5.2 का 1-bit या 2-bit quantization, जब ज़्यादातर VRAM के बाहर चलाया जाए, उपयोगिता में Qwen3.6-27B Q8_0 से बेहतर होगा, जो पूरी तरह VRAM में फिट हो जाता है
लेख में कुछ भी कहा गया हो, 256GB RAM वाली मशीन पर इसे चलाने की कोशिश करने वाले लोगों का अनुभव अच्छा होने वाला नहीं लगता
इससे कहीं ज़्यादा यथार्थवादी न्यूनतम स्तर 512GB है
अच्छी बात यह है कि RAM महँगी होने से पहले मैंने सस्ते में खरीदे हुए 512GB RAM वाले dual Xeon workstation के 2 सिस्टम home office में रखे हैं, इसलिए कुछ प्रयोग कर सकता हूँ