GLM-5.2, Artificial Analysis के open weights मॉडल्स में नंबर 1 बना
(artificialanalysis.ai)- Z ai का GLM-5.2 ने Artificial Analysis Intelligence Index v4.1 में 51 अंक हासिल कर open weights मॉडल्स में बढ़त हासिल की, और cost-performance के लिहाज़ से भी Pareto frontier पर स्थित है
- मॉडल का आकार GLM-5.1 जैसा ही 744B कुल / 40B active parameters है, लेकिन स्कोर 11 अंक अधिक है, जिससे यह MiniMax-M3, DeepSeek V4 Pro(max), और Kimi K2.6 से आगे निकल गया
- सुधार का दायरा अधिकांश evaluations में दिखाई दिया, खासकर scientific reasoning क्षेत्र में CritPt और HLE की बढ़ोतरी उल्लेखनीय रही
- GDPval-AA v2 में इसने 1524 अंक हासिल किए, जो MiniMax-M3 और DeepSeek V4 Pro(max) से आगे है, और GPT-5.5(xhigh reasoning) के लगभग समान स्तर पर है
- प्रति task 43k output tokens के इस्तेमाल के कारण token efficiency अपेक्षाकृत कम है, लेकिन समान intelligence स्तर वाले मॉडलों में cost per task सबसे कम समूहों में शामिल है
Intelligence Index v4.1 में open weights में बढ़त
- GLM-5.2 ने Artificial Analysis Intelligence Index v4.1 में 51 अंक हासिल कर open weights मॉडल्स में पहला स्थान प्राप्त किया
- प्रमुख open weights मॉडल्स के स्कोर इस प्रकार हैं
- MiniMax-M3: 44
- DeepSeek V4 Pro(max): 44
- Kimi K2.6: 43
- GLM-5.2 का आकार GLM-5.1 जैसा ही 744B total parameters / 40B active parameters है, लेकिन Intelligence Index v4.1 स्कोर 11 अंक अधिक है
evaluation के अनुसार प्रदर्शन में सुधार
- GLM-5.2 ने GLM-5.1 की तुलना में अधिकांश evaluations में बेहतर स्कोर किया
- खासकर scientific reasoning से जुड़ी evaluations में सुधार अधिक बड़ा रहा
- CritPt: +16 अंक, 21%
- HLE: +12 अंक, 40%
- GPQA Diamond: +3 अंक, 89%
- अन्य evaluations में भी संतुलित सुधार देखा गया
- AA-LCR: +9 अंक, 71%
- tau3 banking: +15 अंक, 27%
- SciCode: +7 अंक, 50%
- TerminalBench v2.1: +16 अंक, 78%
GDPval-AA v2 और agent प्रदर्शन
- GLM-5.2 ने real-world agent performance metric GDPval-AA v2 में 1524 अंक हासिल किए
- open weights मॉडल्स की तुलना में यह सबसे अधिक स्कोर है
- GLM-5.2: 1524
- MiniMax-M3: 1418
- DeepSeek V4 Pro(max): 1328
- यह परिणाम GPT-5.5(xhigh reasoning) के 1514 अंकों के लगभग बराबर है
- GDPval-AA v2 में पुराने GDPval-AA की तुलना में evaluation method बदला गया है
- Elo baseline को human performance 1000 पर सेट किया गया
- frontier-model judge का rotating panel जोड़ा गया
- लंबे agent trajectories को संभालने के लिए turn limit को 100 से 250 तक बढ़ाया गया
लागत, कीमत और token उपयोग
- GLM-5.2, Intelligence vs Cost per Task चार्ट में Pareto frontier पर है, और समान intelligence स्तर वाले मॉडलों में cost per task के हिसाब से सबसे कम श्रेणी में आता है
- cost per task, GLM-5.1 की तुलना में अधिक है, लेकिन अधिक Intelligence स्कोर को देखते हुए इसकी cost-performance स्थिति बेहतर है
- GLM-5.2: लगभग $0.46
- GLM-5.1: $0.25
- Kimi K2.6: $0.31
- MiniMax-M3: $0.18
- DeepSeek V4 Pro(max): $0.05
- first-party API की कीमत GLM-5.1 के समान स्तर पर है
- 1M input tokens पर $1.4
- 1M output tokens पर $4.4
- 1M cache hit tokens पर $0.26
- यह Intelligence Index task के लिए 43k output tokens इस्तेमाल करता है, जिनमें 37k reasoning tokens हैं
- output token उपयोग प्रमुख open weights मॉडल्स की तुलना में अधिक है
- GLM-5.1: 26k
- MiniMax-M3: 24k
- Kimi K2.6: 35k
- DeepSeek V4 Pro(max): 37k
- समान intelligence स्तर वाले open weights मॉडल्स में token efficiency अपेक्षाकृत कम है, और Intelligence vs Output Tokens चार्ट के सबसे आकर्षक quadrant में शामिल नहीं है
मॉडल विवरण और उपलब्धता
- GLM-5.2 का लाइसेंस MIT है
- context window 1M tokens है, जो GLM-5.1 के 200K से बढ़ी हुई है
- यह Z ai के first-party API और कई third-party providers पर उपलब्ध है
-
DeepInfra
-
Novita
-
Nebius
-
Parasail
-
Siliconflow
-
GMI Cloud
-
Baseten
- Fireworks
- GLM-5.2 ने AA-Omniscience Index में 4 अंक हासिल किए, जो GLM-5.1 के 2 अंकों से अधिक है
- accuracy 25.1% है, जो GLM-5.1 के 24.2% से अधिक है
- hallucination rate 28.1% है, जो GLM-5.1 के 29.4% से कम है
- attempt rate 47% है, जो समान है
- मॉडल तुलना Artificial Analysis के GLM-5.2 पेज पर देखी जा सकती है
-
1 टिप्पणियां
Hacker News की राय
यह काफ़ी अच्छा step up है और लगता है कि frontier के काफ़ी करीब आ गया है, लेकिन अब inference efficiency पर ज़्यादा फोकस होना चाहिए
मैं LLM evaluation के लिए एक टेस्ट इस्तेमाल करता हूँ जिसमें Nim में एक simple arithmetic evaluation library लिखवाता हूँ, और GLM 5.2 xhigh ने पहली फ़ाइल लिखने से पहले 15 मिनट से ज़्यादा inference किया और लगभग 45k tokens खर्च किए
https://artificialanalysis.ai/#output-tokens के अनुसार GPT 5.5 xhigh का average total 16k tokens है, high का 10k, Fable 5 का 33k, Opus 4.8 का 41k, और GLM 5.2 का 42k, इसलिए GPT 5.5 की inference efficiency ज़बरदस्त रूप से बेहतर है
अगर इसे वास्तविक request cost में बदलें तो GLM 5.2, GPT 5.5/Opus 4.8 से सस्ता होगा, लेकिन बहुत से लोगों के लिए speed भी महत्वपूर्ण है
अगर reasonable token usage चाहिए तो GLM 5.2 को High पर चलाना चाहिए, और ज़्यादातर कामों में Max से High पर आने पर quality में गिरावट कम होती है जबकि token usage 2~2.5 गुना घट जाता है
आख़िरकार GLM 5.2, काफ़ी सस्ता Opus 4.8 का छोटा भाई जैसा मॉडल है, और इस पर यह मज़ाक भी किया जा रहा है कि Opus मॉडल की training इसमें बिल्कुल भी नहीं गई है, यह मानना मुश्किल है
निजी तौर पर मैं जो GLM + OpenCode कॉम्बिनेशन इस्तेमाल करता हूँ, वह कंपनी में इस्तेमाल करने के लिए मजबूर Claude Code + Opus से काफ़ी बेहतर है, StackOverflow-शैली की शुरुआती गलतियाँ बहुत कम करता है और निर्देश भी बेहतर मानता है
harness user experience भी कहीं बेहतर है क्योंकि यह settings को ignore नहीं करता, मनमाने ढंग से बदलता नहीं, और ग़लत reporting नहीं करता, इसलिए लगता है कि Anthropic की moat तेज़ी से गायब हो रही है
आख़िर में उसे रोककर कहना पड़ता है, “पहले code लिखो, आगे बढ़ते हुए हल कर लेना,” और लगता है जैसे writer’s block LLM में भी होता है
Artificial Analysis के अनुसार K2.7 Code, intelligence के मामले में K2.6 के समान है, लेकिन उसी स्तर तक पहुँचने के लिए output tokens आधे ही खर्च करता है
मैं Artificial Analysis के codingindex के आधार पर model ranking निकालने वाली एक script बनाकर रोज़ इस्तेमाल कर रहा हूँ
यह main table page से JSON लेती है और सिर्फ़ वे coding-related fields parse करती है जिनमें मेरी दिलचस्पी है; पहले एक mailing list भी थी लेकिन उसमें ज़्यादा रुचि न होने के कारण उसे बंद कर दिया
अभी कुछ परिणामों में Claude Fable 5, GPT-5.5 xhigh/high, Claude Opus 4.8, Gemini 3.1 Pro Preview, GLM-5.2 max, Qwen3.7 Max आदि ऊपर हैं, और इसे
$ curl day50.dev/art-analysis.sh | bashसे चलाया जा सकता हैrepository है https://github.com/day50-dev/aa-eval-email, और इस समय public models measurement method के अनुसार लगभग 4~7 महीने पीछे दिखते हैं; अगर यह trend जारी रहा तो नए साल से पहले open-weight model, Claude Fable 5 स्तर के काम कर सकते हैं
यह Gemma 4 31B को DeepSeek V4 Flash से ऊपर rank करता है, लेकिन मैंने दोनों को अलग-अलग coding tasks पर इस्तेमाल किया है और मैं हर बार DeepSeek ही चुनूँगा
समझ नहीं आता कि और लोग इस बारे में ज़्यादा बात क्यों नहीं कर रहे
यह लगभग Opus 4.7 quality को हास्यास्पद रूप से कम दाम पर दे रहा है, और कुछ जगहें $50 प्रति माह में unlimited tokens दे रही हैं, जबकि कुछ की API pricing आधिकारिक ZAI API से 3 गुना कम है
आधिकारिक ZAI API भी Opus से लगभग 10 गुना सस्ता है, इसलिए यह Anthropic/OpenAI/Google के लिए बड़ा झटका और बाकी दुनिया के लिए बड़ी जीत है, और public models में सिर्फ़ आधिकारिक API की price और speed ही सब कुछ नहीं होती
GLM 5.2, Opus 4.7 के क़रीब हो सकता है, लेकिन अगर हर बार जाँचने पर यह फिर भी सिर्फ़ benchmark optimization करता मिले और GPT या Opus स्तर का न हो, तो इसे “भेड़िया आया” वाली स्थिति की तरह लिया जाएगा
वे अक्सर model को ग़लत configure करते हैं या चुपके से quantization कर देते हैं, और कुछ समय तक आधिकारिक API के Kimi और ज़्यादातर third-party providers के बीच 20~40% का अंतर था
मैं सोच रहा था कि 3 गुना सस्ती API pricing कहाँ है, फिर देखा कि Croft की 8-bit pricing $0.50/$0.08/$2.20 है
https://openrouter.ai/z-ai/glm-5.2
https://ai.nahcrof.com/pricing
ऐसे models को चलाने का तरीका पता लगाना भी मुश्किल है, कोई installer भी नहीं है, और अगर आप उस 1% में नहीं हैं जिसे वाकई गहरी रुचि है, तो guides खोजते-खोजते पता चलता है कि वे भी पुराने हो चुके हैं
“Claude Code install करो और $100 प्रति माह दो” की तुलना में learning curve बहुत खड़ी है, और $50 प्रति माह की बचत उस मेहनत के सामने बहुत छोटी लगती है
वजह बस यह है कि वह enterprise के अंदर non-engineers के लिए बहुत अच्छी तरह फिट बैठता है
Artificial Analysis coding benchmark में GLM 5.1 high, execution cost के लिहाज़ से GPT 5.5 xhigh के काफ़ी क़रीब है, और GPT 5.5 medium उससे कहीं सस्ता है
GPT 5.5 medium से तुलना करें तो GLM 5.1 xhigh की लागत दोगुनी है और intelligence लगभग आधी, इसलिए GLM 5.2 न भी हो तब भी भरने के लिए बड़ा gap है
https://artificialanalysis.ai/agents/coding-agents?coding-agents-performance-chart=deep-swe&coding-agents-harness-comparison-chart=harness-deep-swe#coding-agents-performance-chart-tabs
DeepSWE मेरे निजी अनुभव से भी काफ़ी मेल खाता है, इसलिए open model को लेकर इंटरनेट पर जो हंगामा है, वह कितना जायज़ है इस पर संदेह है
अगर आपको frontier के क़रीब का model चाहिए, तो अभी Opus, Fable, GPT5.5 का नाम लेना ज़्यादा ईमानदार लगेगा
https://z.ai/blog/glm-5.2
OpenAI, Google, Anthropic subscriptions में ऐसा privacy option नहीं है, और लिंक देखने पर यह भी दिलचस्प है कि GPT 5.5, Cursor CLI में 7वें स्थान पर है लेकिन Codex CLI में 3वें पर पहुँच जाता है
क्योंकि open model को Codex में test नहीं किया गया, इसलिए इसे शुद्ध model benchmark कहना मुश्किल है; यह भी हो सकता है कि open model SWE agent harness में कमज़ोर हों, लेकिन वह सबसे सरल explanation नहीं लगता
उस metric से देखें तो GPT-5.5 अभी भी token efficiency, speed, और dollar per intelligence में राजा है
https://deepswe.datacurve.ai/
Fable 5 भी अच्छा है, लेकिन अभी तक GPT-5.6 नहीं देखा
यह DeepSeek V4 से आसानी से 4 गुना महंगा है, लेकिन नतीजे उतने बेहतर नहीं लगे, और बाद में GPT 5.5 in Codex से review किया तो काफ़ी गंदे हिस्से भी निकले
cost-effectiveness के हिसाब से MiniMax M3 बेहतर लगा
यह बात हैरान करने वाली थी कि GLM 5.1/5.2 vision model नहीं हैं
आजकल यह काफ़ी दुर्लभ है, और OpenAI/Anthropic/Gemini models सभी image input लेते हैं; Gemma 4, Qwen 3.6, Kimi 2.x जैसी प्रमुख open-weight families भी image input support करती हैं
GLM, web design जैसे कामों में high-scoring model है, इसलिए अगर image input होता तो screenshot लेकर HTML+CSS output करने में काम आता, और यह स्पष्ट कमी है
“सब कुछ करने वाला एक model” होना ज़रूरी नहीं है
Gemma 31B vision tasks में काफ़ी अच्छा है, और रोज़ 1500 requests व्यवहार में लगभग unlimited जैसा है
UX/UI work जैसे कुछ use cases हो सकते हैं, लेकिन उसके अलावा इसकी ज़रूरत कम है, और frontier models भी असली images को reproduce नहीं कर पाते; मेरे अनुभव में वे बस approximation ही कर पाते हैं
अगर वह vision model होता तो शायद ज़्यादा उपयोगी होता
पिछले 24 घंटों में मैंने इस model को काफ़ी इस्तेमाल किया है, और यह साफ़ है कि यह काफ़ी सक्षम है
लेकिन यह थोड़ा verbose है, और मैंने इसके chain-of-thought में route तय करने से पहले 3–4 बार दोबारा जाँच करते देखा; complex और abstract requirements संभालने की इसकी क्षमता GPT5.5 जितनी नहीं है
फिर भी ज़्यादातर लोगों के लिए Z.AI subscription + 20-dollar-per-month OpenAI subscription वाला combo recommend किया जा सकता है, और GLM लिखे, GPT review/debug करे वाला workflow, 200-dollar-per-month plan पर सिर्फ़ GPT इस्तेमाल करने से बस थोड़ा ही कमज़ोर है, जबकि लगभग unlimited जैसा महसूस होता है
शायद इसकी verbosity की वजह वही है
अगर आपको programming आती है, तो अब हम उस stage पर पहुँच चुके हैं जहाँ model को ज़रूरी काम करवाने लायक पर्याप्त जानकारी दी जा सकती है
दूसरी ओर writing में nuance बहुत ज़्यादा है, इसलिए model अभी भी इसमें काफ़ी संघर्ष करते हैं, हालांकि वे सचमुच लगातार बेहतर हो रहे हैं
मैं दिन में एक बार code को free Claude Sonnet में paste करता हूँ ताकि वह सचमुच पढ़ने लायक बन जाए
यह सही है कि Opus 4.8, DeepSeek 4.0 या Kimi 2.7 जहाँ डगमगाते या fail होते हैं वहाँ सफल होने वाला ज़्यादा मज़बूत coding agent है, लेकिन इसकी conversational rhetorical flourish अब लगातार खटकती है, और कभी-कभी ऐसा लगता है कि यह जानबूझकर बात को धुंधला रखता है या सच को दबाकर रखता है जब तक आप उसे ज़ोर से न दबाएँ, जिससे subscription पर फिर से सोचने का मन होता है
GLM 5.2 हमारे द्वारा test किए गए models में पहला model है जो Opus 4.6 के साफ़ तौर पर बराबर या उससे बेहतर है
हालांकि, कमज़ोर test methodology इस्तेमाल करने वाले दूसरे benchmarks की तुलना में हम GLM 5.2 और ज़्यादातर Chinese models को थोड़ा नीचे रेट करते हैं
data https://gertlabs.com/rankings पर है
मुझे ऐसे मॉडल चलाने का तरीका अच्छी तरह नहीं पता, लेकिन यह जानने की उत्सुकता है कि वह समय कितना करीब है जब मिड-साइज़ और बड़े एंटरप्राइज़ मॉडल को लोकल रखने के लिए हार्डवेयर खरीदना शुरू करेंगे
महंगे हैं और सबसे अग्रिम पंक्ति के मॉडल जितने सक्षम भी नहीं, लेकिन privacy और control के लिहाज़ से इनके फायदे काफ़ी बड़े हैं
Kimi K2 के आसपास से यह सच में तेज़ हुआ, लेकिन ऐसा हार्डवेयर खरीदने और होस्ट करने में समय लगता है
हर कंपनी अपने trade secrets OpenAI या Anthropic को भेजना नहीं चाहती, और न ही हर कंपनी कानूनी रूप से ऐसा कर सकती है
जब AlexNet जैसे अच्छे vision model आ रहे थे, खासकर OCR में, तब भी कंपनियों को cloud और GPU self-hosting के बीच चुनना पड़ता था
आख़िरकार असली मुद्दा usage pattern होता है: कुछ तय समयों, जैसे कामकाजी घंटों में, उपयोग बहुत बढ़ जाता है और बाकी समय GPU खाली पड़े रहते हैं
latency-sensitive कामों में यह कई दशकों पुराना trade-off है, सिर्फ LLM की खास समस्या नहीं
लगता है इसके लिए काफ़ी दृढ़-निश्चयी मिड-साइज़ कंपनी चाहिए होगी
discovery में विशाल टेक्स्ट कॉर्पस खोजने के लिए top-tier मॉडल तक की ज़रूरत नहीं होती, लेकिन पूरी गोपनीयता चाहिए होती है
r/localllama पर multi-GPU build दिखाने वाले काफ़ी वकील हैं, और संयोग से उनके पास इसके लिए ज़रूरी बजट भी होता है
कहा गया है कि “GLM-5.2 intelligence के मुकाबले per-task cost की Pareto frontier पर है, और समान intelligence स्तर वाले मॉडलों में इसका per-task cost सबसे कम है”, लेकिन साथ ही GLM-5.2 का per-task cost लगभग $0.46, GLM-5.1 का $0.25, Kimi K2.6 का $0.31, MiniMax-M3 का $0.18, और DeepSeek V4 Pro max का $0.05 बताया गया है, तो लग रहा है शायद मैं कुछ मिस कर रहा हूँ
5.2 के intelligence metric के करीब आने वाले दूसरे मॉडल चुनने के बजाय, शायद उससे नीचे के कुछ open model चुन लिए गए हैं
inference cost के लिए total parameters और active parameters बेहतर मापदंड हैं
Mythos देखकर मैंने bug-based benchmark में GLM 5.2 जोड़ा; यह GLM 5.1 से बेहतर है, लेकिन अभी भी कई मॉडलों से पीछे है, और सबसे सीधे तौर पर Qwen 3.7 Max से तुलना की जा सकती है
Gemma 4 और Qwen 3.6 जैसे छोटे, self-hostable open model ने भी 9 में से 3 bugs ढूंढे, यानी उतनी ही संख्या जितनी GLM 5.2 ने, और GLM 5.2 ने एक bug की location सही पकड़ी लेकिन bug को खुद कुछ हद तक गलत समझा, इसलिए उसे partial score मिला
उसी रन में जोड़ा गया Kimi K2.7-code, 2.6 की तरह ही लगातार अच्छा नहीं था, और इस खास benchmark में इससे बेहतर और सस्ते मॉडल मौजूद हैं
https://swelljoe.com/post/will-it-mythos/
यह छोटा benchmark अपने-आप में कुछ साबित नहीं करता, लेकिन यह जल्दी से परखने में उपयोगी है कि कोई मॉडल code के भीतर काफ़ी जटिल समस्याओं पर reasoning कर सकता है या नहीं