GLM-5.2, Artificial Analysis के open weights मॉडल्स में नंबर 1 बना

(artificialanalysis.ai)

1 पॉइंट द्वारा GN⁺ 4 시간 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Z ai का GLM-5.2 ने Artificial Analysis Intelligence Index v4.1 में 51 अंक हासिल कर open weights मॉडल्स में बढ़त हासिल की, और cost-performance के लिहाज़ से भी Pareto frontier पर स्थित है
मॉडल का आकार GLM-5.1 जैसा ही 744B कुल / 40B active parameters है, लेकिन स्कोर 11 अंक अधिक है, जिससे यह MiniMax-M3, DeepSeek V4 Pro(max), और Kimi K2.6 से आगे निकल गया
सुधार का दायरा अधिकांश evaluations में दिखाई दिया, खासकर scientific reasoning क्षेत्र में CritPt और HLE की बढ़ोतरी उल्लेखनीय रही
GDPval-AA v2 में इसने 1524 अंक हासिल किए, जो MiniMax-M3 और DeepSeek V4 Pro(max) से आगे है, और GPT-5.5(xhigh reasoning) के लगभग समान स्तर पर है
प्रति task 43k output tokens के इस्तेमाल के कारण token efficiency अपेक्षाकृत कम है, लेकिन समान intelligence स्तर वाले मॉडलों में cost per task सबसे कम समूहों में शामिल है

Intelligence Index v4.1 में open weights में बढ़त

GLM-5.2 ने Artificial Analysis Intelligence Index v4.1 में 51 अंक हासिल कर open weights मॉडल्स में पहला स्थान प्राप्त किया
प्रमुख open weights मॉडल्स के स्कोर इस प्रकार हैं
- MiniMax-M3: 44
- DeepSeek V4 Pro(max): 44
- Kimi K2.6: 43
GLM-5.2 का आकार GLM-5.1 जैसा ही 744B total parameters / 40B active parameters है, लेकिन Intelligence Index v4.1 स्कोर 11 अंक अधिक है

evaluation के अनुसार प्रदर्शन में सुधार

GLM-5.2 ने GLM-5.1 की तुलना में अधिकांश evaluations में बेहतर स्कोर किया
खासकर scientific reasoning से जुड़ी evaluations में सुधार अधिक बड़ा रहा
- CritPt: +16 अंक, 21%
- HLE: +12 अंक, 40%
- GPQA Diamond: +3 अंक, 89%
अन्य evaluations में भी संतुलित सुधार देखा गया
- AA-LCR: +9 अंक, 71%
- tau3 banking: +15 अंक, 27%
- SciCode: +7 अंक, 50%
- TerminalBench v2.1: +16 अंक, 78%

GDPval-AA v2 और agent प्रदर्शन

GLM-5.2 ने real-world agent performance metric GDPval-AA v2 में 1524 अंक हासिल किए
open weights मॉडल्स की तुलना में यह सबसे अधिक स्कोर है
- GLM-5.2: 1524
- MiniMax-M3: 1418
- DeepSeek V4 Pro(max): 1328
यह परिणाम GPT-5.5(xhigh reasoning) के 1514 अंकों के लगभग बराबर है
GDPval-AA v2 में पुराने GDPval-AA की तुलना में evaluation method बदला गया है
- Elo baseline को human performance 1000 पर सेट किया गया
- frontier-model judge का rotating panel जोड़ा गया
- लंबे agent trajectories को संभालने के लिए turn limit को 100 से 250 तक बढ़ाया गया

लागत, कीमत और token उपयोग

GLM-5.2, Intelligence vs Cost per Task चार्ट में Pareto frontier पर है, और समान intelligence स्तर वाले मॉडलों में cost per task के हिसाब से सबसे कम श्रेणी में आता है
cost per task, GLM-5.1 की तुलना में अधिक है, लेकिन अधिक Intelligence स्कोर को देखते हुए इसकी cost-performance स्थिति बेहतर है
- GLM-5.2: लगभग $0.46
- GLM-5.1: $0.25
- Kimi K2.6: $0.31
- MiniMax-M3: $0.18
- DeepSeek V4 Pro(max): $0.05
first-party API की कीमत GLM-5.1 के समान स्तर पर है
- 1M input tokens पर $1.4
- 1M output tokens पर $4.4
- 1M cache hit tokens पर $0.26
यह Intelligence Index task के लिए 43k output tokens इस्तेमाल करता है, जिनमें 37k reasoning tokens हैं
output token उपयोग प्रमुख open weights मॉडल्स की तुलना में अधिक है
- GLM-5.1: 26k
- MiniMax-M3: 24k
- Kimi K2.6: 35k
- DeepSeek V4 Pro(max): 37k
समान intelligence स्तर वाले open weights मॉडल्स में token efficiency अपेक्षाकृत कम है, और Intelligence vs Output Tokens चार्ट के सबसे आकर्षक quadrant में शामिल नहीं है

मॉडल विवरण और उपलब्धता

GLM-5.2 का लाइसेंस MIT है
context window 1M tokens है, जो GLM-5.1 के 200K से बढ़ी हुई है
यह Z ai के first-party API और कई third-party providers पर उपलब्ध है
- DeepInfra
- Novita
- Nebius
- Parasail
- Siliconflow
- GMI Cloud
- Baseten
  - Fireworks
  - GLM-5.2 ने AA-Omniscience Index में 4 अंक हासिल किए, जो GLM-5.1 के 2 अंकों से अधिक है
  - accuracy 25.1% है, जो GLM-5.1 के 24.2% से अधिक है
  - hallucination rate 28.1% है, जो GLM-5.1 के 29.4% से कम है
  - attempt rate 47% है, जो समान है
  - मॉडल तुलना Artificial Analysis के GLM-5.2 पेज पर देखी जा सकती है

1 टिप्पणियां

GN⁺ 4 시간 전

Hacker News की राय

यह काफ़ी अच्छा step up है और लगता है कि frontier के काफ़ी करीब आ गया है, लेकिन अब inference efficiency पर ज़्यादा फोकस होना चाहिए
मैं LLM evaluation के लिए एक टेस्ट इस्तेमाल करता हूँ जिसमें Nim में एक simple arithmetic evaluation library लिखवाता हूँ, और GLM 5.2 xhigh ने पहली फ़ाइल लिखने से पहले 15 मिनट से ज़्यादा inference किया और लगभग 45k tokens खर्च किए
https://artificialanalysis.ai/#output-tokens के अनुसार GPT 5.5 xhigh का average total 16k tokens है, high का 10k, Fable 5 का 33k, Opus 4.8 का 41k, और GLM 5.2 का 42k, इसलिए GPT 5.5 की inference efficiency ज़बरदस्त रूप से बेहतर है
अगर इसे वास्तविक request cost में बदलें तो GLM 5.2, GPT 5.5/Opus 4.8 से सस्ता होगा, लेकिन बहुत से लोगों के लिए speed भी महत्वपूर्ण है
- GLM 5.2 Max की thinking style Opus 4.8 Max जैसी लगती है, और chain of thought तथा output token usage भी बहुत मिलते-जुलते हैं
  अगर reasonable token usage चाहिए तो GLM 5.2 को High पर चलाना चाहिए, और ज़्यादातर कामों में Max से High पर आने पर quality में गिरावट कम होती है जबकि token usage 2~2.5 गुना घट जाता है
  आख़िरकार GLM 5.2, काफ़ी सस्ता Opus 4.8 का छोटा भाई जैसा मॉडल है, और इस पर यह मज़ाक भी किया जा रहा है कि Opus मॉडल की training इसमें बिल्कुल भी नहीं गई है, यह मानना मुश्किल है
- “frontier के करीब आ गया” कहना भी कम होगा, मेरे हिसाब से यह उसे पहले ही पार कर चुका है
  निजी तौर पर मैं जो GLM + OpenCode कॉम्बिनेशन इस्तेमाल करता हूँ, वह कंपनी में इस्तेमाल करने के लिए मजबूर Claude Code + Opus से काफ़ी बेहतर है, StackOverflow-शैली की शुरुआती गलतियाँ बहुत कम करता है और निर्देश भी बेहतर मानता है
  harness user experience भी कहीं बेहतर है क्योंकि यह settings को ignore नहीं करता, मनमाने ढंग से बदलता नहीं, और ग़लत reporting नहीं करता, इसलिए लगता है कि Anthropic की moat तेज़ी से गायब हो रही है
- Opus में भी ऐसा ही होता है कि वह बहुत देर तक सोचते हुए “रुको, अगर ऐसा हो तो…” दोहराता रहता है
  आख़िर में उसे रोककर कहना पड़ता है, “पहले code लिखो, आगे बढ़ते हुए हल कर लेना,” और लगता है जैसे writer’s block LLM में भी होता है
- https://en.wikipedia.org/wiki/Portia_(spider) याद आता है
- उम्मीद है Moonshot ने Kimi K2.7 Code में जो हाल का काम किया है, वह दूसरे public model labs तक भी पहुँचे
  Artificial Analysis के अनुसार K2.7 Code, intelligence के मामले में K2.6 के समान है, लेकिन उसी स्तर तक पहुँचने के लिए output tokens आधे ही खर्च करता है
मैं Artificial Analysis के codingindex के आधार पर model ranking निकालने वाली एक script बनाकर रोज़ इस्तेमाल कर रहा हूँ
यह main table page से JSON लेती है और सिर्फ़ वे coding-related fields parse करती है जिनमें मेरी दिलचस्पी है; पहले एक mailing list भी थी लेकिन उसमें ज़्यादा रुचि न होने के कारण उसे बंद कर दिया
अभी कुछ परिणामों में Claude Fable 5, GPT-5.5 xhigh/high, Claude Opus 4.8, Gemini 3.1 Pro Preview, GLM-5.2 max, Qwen3.7 Max आदि ऊपर हैं, और इसे $ curl day50.dev/art-analysis.sh | bash से चलाया जा सकता है
repository है https://github.com/day50-dev/aa-eval-email, और इस समय public models measurement method के अनुसार लगभग 4~7 महीने पीछे दिखते हैं; अगर यह trend जारी रहा तो नए साल से पहले open-weight model, Claude Fable 5 स्तर के काम कर सकते हैं
- Artificial Analysis का coding index सिर्फ़ Terminal-Bench Hard और SciCode इन दो benchmarks से बना है, इसलिए यह अच्छा coding index है या नहीं, इस पर संदेह है
  यह Gemma 4 31B को DeepSeek V4 Flash से ऊपर rank करता है, लेकिन मैंने दोनों को अलग-अलग coding tasks पर इस्तेमाल किया है और मैं हर बार DeepSeek ही चुनूँगा
- प्रोजेक्ट शानदार है, लेकिन किसी अज्ञात स्रोत की Bash को सीधे चलाने के लिए कहना काफ़ी बुरी प्रैक्टिस है
समझ नहीं आता कि और लोग इस बारे में ज़्यादा बात क्यों नहीं कर रहे
यह लगभग Opus 4.7 quality को हास्यास्पद रूप से कम दाम पर दे रहा है, और कुछ जगहें $50 प्रति माह में unlimited tokens दे रही हैं, जबकि कुछ की API pricing आधिकारिक ZAI API से 3 गुना कम है
आधिकारिक ZAI API भी Opus से लगभग 10 गुना सस्ता है, इसलिए यह Anthropic/OpenAI/Google के लिए बड़ा झटका और बाकी दुनिया के लिए बड़ी जीत है, और public models में सिर्फ़ आधिकारिक API की price और speed ही सब कुछ नहीं होती
- मैंने कुछ Chinese public models कई बार इस्तेमाल किए हैं; वे ठीक हैं, लेकिन अपने दावे वाले benchmark स्तर तक नहीं पहुँचे
  GLM 5.2, Opus 4.7 के क़रीब हो सकता है, लेकिन अगर हर बार जाँचने पर यह फिर भी सिर्फ़ benchmark optimization करता मिले और GPT या Opus स्तर का न हो, तो इसे “भेड़िया आया” वाली स्थिति की तरह लिया जाएगा
- unofficial providers से सावधान रहना चाहिए
  वे अक्सर model को ग़लत configure करते हैं या चुपके से quantization कर देते हैं, और कुछ समय तक आधिकारिक API के Kimi और ज़्यादातर third-party providers के बीच 20~40% का अंतर था
- OpenRouter पर देखें तो कुछ सस्ते विकल्प quantized models हैं, और quantization से intelligence कितनी घटती है यह स्पष्ट नहीं है
  मैं सोच रहा था कि 3 गुना सस्ती API pricing कहाँ है, फिर देखा कि Croft की 8-bit pricing $0.50/$0.08/$2.20 है
  https://openrouter.ai/z-ai/glm-5.2
  https://ai.nahcrof.com/pricing
- विकल्प इतने ज़्यादा हैं कि इंसान के लिए इनके साथ बने रहना ही computationally महँगा है
  ऐसे models को चलाने का तरीका पता लगाना भी मुश्किल है, कोई installer भी नहीं है, और अगर आप उस 1% में नहीं हैं जिसे वाकई गहरी रुचि है, तो guides खोजते-खोजते पता चलता है कि वे भी पुराने हो चुके हैं
  “Claude Code install करो और $100 प्रति माह दो” की तुलना में learning curve बहुत खड़ी है, और $50 प्रति माह की बचत उस मेहनत के सामने बहुत छोटी लगती है
- हमारे संगठन में सब लोग Claude पर ज़रूरत से ज़्यादा अटके हुए हैं, मानो वही अकेला LLM हो
  वजह बस यह है कि वह enterprise के अंदर non-engineers के लिए बहुत अच्छी तरह फिट बैठता है
Artificial Analysis coding benchmark में GLM 5.1 high, execution cost के लिहाज़ से GPT 5.5 xhigh के काफ़ी क़रीब है, और GPT 5.5 medium उससे कहीं सस्ता है
GPT 5.5 medium से तुलना करें तो GLM 5.1 xhigh की लागत दोगुनी है और intelligence लगभग आधी, इसलिए GLM 5.2 न भी हो तब भी भरने के लिए बड़ा gap है
https://artificialanalysis.ai/agents/coding-agents?coding-agents-performance-chart=deep-swe&coding-agents-harness-comparison-chart=harness-deep-swe#coding-agents-performance-chart-tabs
DeepSWE मेरे निजी अनुभव से भी काफ़ी मेल खाता है, इसलिए open model को लेकर इंटरनेट पर जो हंगामा है, वह कितना जायज़ है इस पर संदेह है
अगर आपको frontier के क़रीब का model चाहिए, तो अभी Opus, Fable, GPT5.5 का नाम लेना ज़्यादा ईमानदार लगेगा
- Z.ai के अपने run में GLM 5.2 ने DeepSWE पर 46.2 points पाए, और उसकी position Opus 4.7 xhigh और Opus 4.8 medium के बीच है
  https://z.ai/blog/glm-5.2
- open model इस्तेमाल करने पर Codex जैसी ही cost में privacy-सुरक्षित subscription मिल सकती है
  OpenAI, Google, Anthropic subscriptions में ऐसा privacy option नहीं है, और लिंक देखने पर यह भी दिलचस्प है कि GPT 5.5, Cursor CLI में 7वें स्थान पर है लेकिन Codex CLI में 3वें पर पहुँच जाता है
  क्योंकि open model को Codex में test नहीं किया गया, इसलिए इसे शुद्ध model benchmark कहना मुश्किल है; यह भी हो सकता है कि open model SWE agent harness में कमज़ोर हों, लेकिन वह सबसे सरल explanation नहीं लगता
- DeepSWE, Artificial Analysis index या दूसरे coding benchmarks की तुलना में ज़्यादा “सही” benchmark जैसा लगता है
  उस metric से देखें तो GPT-5.5 अभी भी token efficiency, speed, और dollar per intelligence में राजा है
  https://deepswe.datacurve.ai/
  Fable 5 भी अच्छा है, लेकिन अभी तक GPT-5.6 नहीं देखा
- मैंने कल OpenRouter पर GLM 5.2 इस्तेमाल किया; कुल मिलाकर ठीक था, लेकिन लगभग 30 मिनट के एक अपेक्षाकृत धीमे task में token cost 5 dollars तक पहुँच गई
  यह DeepSeek V4 से आसानी से 4 गुना महंगा है, लेकिन नतीजे उतने बेहतर नहीं लगे, और बाद में GPT 5.5 in Codex से review किया तो काफ़ी गंदे हिस्से भी निकले
  cost-effectiveness के हिसाब से MiniMax M3 बेहतर लगा
यह बात हैरान करने वाली थी कि GLM 5.1/5.2 vision model नहीं हैं
आजकल यह काफ़ी दुर्लभ है, और OpenAI/Anthropic/Gemini models सभी image input लेते हैं; Gemma 4, Qwen 3.6, Kimi 2.x जैसी प्रमुख open-weight families भी image input support करती हैं
GLM, web design जैसे कामों में high-scoring model है, इसलिए अगर image input होता तो screenshot लेकर HTML+CSS output करने में काम आता, और यह स्पष्ट कमी है
- coding harness में sub-agent सेट करके ऐसे कामों के लिए किसी भी vision model के साथ नया sub-session चलाया जा सकता है, फिर result वापस main model में डाला जा सकता है
  “सब कुछ करने वाला एक model” होना ज़रूरी नहीं है
- मैं Google AI Studio को मुफ्त vision bridge की तरह इस्तेमाल कर रहा हूँ
  Gemma 31B vision tasks में काफ़ी अच्छा है, और रोज़ 1500 requests व्यवहार में लगभग unlimited जैसा है
- यह इतनी बड़ी कमी नहीं लगती
  UX/UI work जैसे कुछ use cases हो सकते हैं, लेकिन उसके अलावा इसकी ज़रूरत कम है, और frontier models भी असली images को reproduce नहीं कर पाते; मेरे अनुभव में वे बस approximation ही कर पाते हैं
- DeepSeek V4 पर भी मेरी यही प्रतिक्रिया थी
  अगर वह vision model होता तो शायद ज़्यादा उपयोगी होता
पिछले 24 घंटों में मैंने इस model को काफ़ी इस्तेमाल किया है, और यह साफ़ है कि यह काफ़ी सक्षम है
लेकिन यह थोड़ा verbose है, और मैंने इसके chain-of-thought में route तय करने से पहले 3–4 बार दोबारा जाँच करते देखा; complex और abstract requirements संभालने की इसकी क्षमता GPT5.5 जितनी नहीं है
फिर भी ज़्यादातर लोगों के लिए Z.AI subscription + 20-dollar-per-month OpenAI subscription वाला combo recommend किया जा सकता है, और GLM लिखे, GPT review/debug करे वाला workflow, 200-dollar-per-month plan पर सिर्फ़ GPT इस्तेमाल करने से बस थोड़ा ही कमज़ोर है, जबकि लगभग unlimited जैसा महसूस होता है
- आज पता चला कि default reasoning strength max पर set है
  शायद इसकी verbosity की वजह वही है
- इस समय मैं सबसे ज़्यादा इस बात को महत्व दे रहा हूँ कि model लिखने में कितना अच्छा है
  अगर आपको programming आती है, तो अब हम उस stage पर पहुँच चुके हैं जहाँ model को ज़रूरी काम करवाने लायक पर्याप्त जानकारी दी जा सकती है
  दूसरी ओर writing में nuance बहुत ज़्यादा है, इसलिए model अभी भी इसमें काफ़ी संघर्ष करते हैं, हालांकि वे सचमुच लगातार बेहतर हो रहे हैं
- मेरा workflow भी कुछ ऐसा ही है
  मैं दिन में एक बार code को free Claude Sonnet में paste करता हूँ ताकि वह सचमुच पढ़ने लायक बन जाए
- Fable 5 का स्वाद लेने के बाद Opus 4.8 भी अब काफ़ी नहीं लगता
  यह सही है कि Opus 4.8, DeepSeek 4.0 या Kimi 2.7 जहाँ डगमगाते या fail होते हैं वहाँ सफल होने वाला ज़्यादा मज़बूत coding agent है, लेकिन इसकी conversational rhetorical flourish अब लगातार खटकती है, और कभी-कभी ऐसा लगता है कि यह जानबूझकर बात को धुंधला रखता है या सच को दबाकर रखता है जब तक आप उसे ज़ोर से न दबाएँ, जिससे subscription पर फिर से सोचने का मन होता है
GLM 5.2 हमारे द्वारा test किए गए models में पहला model है जो Opus 4.6 के साफ़ तौर पर बराबर या उससे बेहतर है
हालांकि, कमज़ोर test methodology इस्तेमाल करने वाले दूसरे benchmarks की तुलना में हम GLM 5.2 और ज़्यादातर Chinese models को थोड़ा नीचे रेट करते हैं
data https://gertlabs.com/rankings पर है
मुझे ऐसे मॉडल चलाने का तरीका अच्छी तरह नहीं पता, लेकिन यह जानने की उत्सुकता है कि वह समय कितना करीब है जब मिड-साइज़ और बड़े एंटरप्राइज़ मॉडल को लोकल रखने के लिए हार्डवेयर खरीदना शुरू करेंगे
महंगे हैं और सबसे अग्रिम पंक्ति के मॉडल जितने सक्षम भी नहीं, लेकिन privacy और control के लिहाज़ से इनके फायदे काफ़ी बड़े हैं
- यूरोप की कई कंपनियाँ पहले से कुछ समय से 70B मॉडल के साथ ऐसा कर रही हैं, और नए 700B~1T-स्तर के मॉडल चलाने के लिए हार्डवेयर अपग्रेड कर रही हैं
  Kimi K2 के आसपास से यह सच में तेज़ हुआ, लेकिन ऐसा हार्डवेयर खरीदने और होस्ट करने में समय लगता है
  हर कंपनी अपने trade secrets OpenAI या Anthropic को भेजना नहीं चाहती, और न ही हर कंपनी कानूनी रूप से ऐसा कर सकती है
- यह कोई नई स्थिति नहीं है
  जब AlexNet जैसे अच्छे vision model आ रहे थे, खासकर OCR में, तब भी कंपनियों को cloud और GPU self-hosting के बीच चुनना पड़ता था
  आख़िरकार असली मुद्दा usage pattern होता है: कुछ तय समयों, जैसे कामकाजी घंटों में, उपयोग बहुत बढ़ जाता है और बाकी समय GPU खाली पड़े रहते हैं
  latency-sensitive कामों में यह कई दशकों पुराना trade-off है, सिर्फ LLM की खास समस्या नहीं
- लगभग 750B मॉडल है, इसलिए VRAM की ज़रूरत बहुत ज़्यादा होगी
  लगता है इसके लिए काफ़ी दृढ़-निश्चयी मिड-साइज़ कंपनी चाहिए होगी
- जहाँ पूरी privacy ज़रूरी है, वहाँ अब तक का मुख्य use case कानूनी काम लगता है
  discovery में विशाल टेक्स्ट कॉर्पस खोजने के लिए top-tier मॉडल तक की ज़रूरत नहीं होती, लेकिन पूरी गोपनीयता चाहिए होती है
  r/localllama पर multi-GPU build दिखाने वाले काफ़ी वकील हैं, और संयोग से उनके पास इसके लिए ज़रूरी बजट भी होता है
- जब तक सचमुच राष्ट्रीय सुरक्षा की चिंता न हो, बेहतर यही है कि मौजूदा vendors में से कुछ के साथ privacy protections वाले commercial contract पर बातचीत की जाए
कहा गया है कि “GLM-5.2 intelligence के मुकाबले per-task cost की Pareto frontier पर है, और समान intelligence स्तर वाले मॉडलों में इसका per-task cost सबसे कम है”, लेकिन साथ ही GLM-5.2 का per-task cost लगभग $0.46, GLM-5.1 का $0.25, Kimi K2.6 का $0.31, MiniMax-M3 का $0.18, और DeepSeek V4 Pro max का $0.05 बताया गया है, तो लग रहा है शायद मैं कुछ मिस कर रहा हूँ
- लगता है तुलना के लिए गलत मॉडल चुने गए हैं
  5.2 के intelligence metric के करीब आने वाले दूसरे मॉडल चुनने के बजाय, शायद उससे नीचे के कुछ open model चुन लिए गए हैं
- Pareto frontier का मतलब यह नहीं कि वही सबसे सस्ता है
- कुछ मॉडलों पर भारी subsidy भी लगी हुई है
  inference cost के लिए total parameters और active parameters बेहतर मापदंड हैं
Mythos देखकर मैंने bug-based benchmark में GLM 5.2 जोड़ा; यह GLM 5.1 से बेहतर है, लेकिन अभी भी कई मॉडलों से पीछे है, और सबसे सीधे तौर पर Qwen 3.7 Max से तुलना की जा सकती है
Gemma 4 और Qwen 3.6 जैसे छोटे, self-hostable open model ने भी 9 में से 3 bugs ढूंढे, यानी उतनी ही संख्या जितनी GLM 5.2 ने, और GLM 5.2 ने एक bug की location सही पकड़ी लेकिन bug को खुद कुछ हद तक गलत समझा, इसलिए उसे partial score मिला
उसी रन में जोड़ा गया Kimi K2.7-code, 2.6 की तरह ही लगातार अच्छा नहीं था, और इस खास benchmark में इससे बेहतर और सस्ते मॉडल मौजूद हैं
https://swelljoe.com/post/will-it-mythos/
यह छोटा benchmark अपने-आप में कुछ साबित नहीं करता, लेकिन यह जल्दी से परखने में उपयोगी है कि कोई मॉडल code के भीतर काफ़ी जटिल समस्याओं पर reasoning कर सकता है या नहीं

GLM-5.2, Artificial Analysis के open weights मॉडल्स में नंबर 1 बना

Intelligence Index v4.1 में open weights में बढ़त

evaluation के अनुसार प्रदर्शन में सुधार

GDPval-AA v2 और agent प्रदर्शन

लागत, कीमत और token उपयोग

मॉडल विवरण और उपलब्धता

DeepInfra

Novita

Nebius

Parasail

Siliconflow

GMI Cloud

Baseten

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय