GLM-4.5: एजेंटिक, रीजनिंग, कोडिंग (ARC) फाउंडेशन मॉडल

(arxiv.org)

4 पॉइंट द्वारा GN⁺ 2025-08-13 | 2 टिप्पणियां | WhatsApp पर शेयर करें

GLM-4.5 एक ओपन सोर्स Mixture-of-Experts (MoE) बड़ा भाषा मॉडल है, जो एजेंटिक क्षमता, रीजनिंग और कोडिंग में उत्कृष्ट प्रदर्शन करता है
यह मॉडल 23T टोकन के साथ बहु-चरणीय प्रशिक्षण, एक्सपर्ट मॉडल इटरेशन और रिइनफोर्समेंट लर्निंग के जरिए विकसित किया गया है
TAU-Bench, AIME 24, SWE-bench Verified सहित कई प्रमुख बेंचमार्क में इसने शीर्ष स्तर का प्रदर्शन दर्ज किया है
कम पैरामीटर के साथ भी यह कुशल प्रदर्शन देता है और प्रमुख कमर्शियल मॉडलों के करीब या उनसे आगे है
GLM-4.5 और इसका छोटा संस्करण GLM-4.5-Air जारी किए गए हैं, जिनका उपयोग रिसर्च और AI सिस्टम डेवलपमेंट में किया जा सकता है

अवलोकन

GLM-4.5 एक ओपन सोर्स Mixture-of-Experts (MoE) बड़ा भाषा मॉडल है, जिसमें कुल 355 अरब पैरामीटर और 32 अरब सक्रिय पैरामीटर हैं
इसमें हाइब्रिड रीजनिंग तरीका अपनाया गया है, जो गहन विचार वाला Thinking मोड और त्वरित उत्तर वाला Direct Response मोड दोनों को सपोर्ट करता है
इसने 23 ट्रिलियन टोकन पर बहु-चरणीय प्रशिक्षण, एक्सपर्ट मॉडल इटरेशन, और रिइनफोर्समेंट लर्निंग आधारित पोस्ट-ट्रेनिंग प्राप्त की है
इसके परिणामस्वरूप इसने एजेंटिक, रीजनिंग और कोडिंग (ARC) कार्यक्षेत्रों में उच्च स्कोर हासिल किए
- TAU-Bench 70.1%, AIME 24 91.0%, SWE-bench Verified 64.2% दर्ज किया
GLM-4.5 ने प्रतिस्पर्धी मॉडलों की तुलना में कम पैरामीटर के साथ, कुल मिलाकर 3रा स्थान और एजेंट बेंचमार्क में 2रा स्थान हासिल किया
बड़े मॉडल GLM-4.5 (355 अरब पैरामीटर) और छोटे GLM-4.5-Air (106 अरब पैरामीटर), दोनों संस्करण जारी किए गए हैं
पूरा कोड, मॉडल और विस्तृत जानकारी आधिकारिक GitHub(https://github.com/zai-org/GLM-4.5) पर उपलब्ध है

LLM प्रदर्शन मूल्यांकन: एजेंटिक, रीजनिंग, कोडिंग बेंचमार्क

GLM-4.5 और अन्य प्रमुख वैश्विक मॉडलों का 12 प्रतिनिधि बेंचमार्कों (MMLU-Pro, AIME 24, SWE-Bench Verified आदि) पर परीक्षण किया गया
GLM-4.5 ने औसत समग्र रैंकिंग में 3रा स्थान, जबकि GLM-4.5-Air ने 6ठा स्थान प्राप्त किया
एजेंटिक स्कोर के आधार पर यह OpenAI o3 के बाद 2रे स्थान पर रहा, और कोडिंग बेंचमार्क में भी Claude Sonnet 4 के करीब 3रा स्थान हासिल किया
GLM-4.5 ने DeepSeek-R1 के आधे और Kimi K2 के एक-तिहाई पैरामीटर के साथ समान प्रदर्शन दिखाया
SWE-bench Verified में प्रदर्शन बनाम पैरामीटर संख्या के आधार पर GLM-4.5 और GLM-4.5-Air, दोनों Pareto Frontier पर स्थित हैं
यह प्रदर्शन डेटा 28 जुलाई 2025 के आधार पर है

परिचय

बड़े भाषा मॉडल (LLM) पारंपरिक सामान्य-उद्देश्य डेटा भंडार से तेज़ी से सामान्य-उद्देश्य समस्या समाधानकर्ता में विकसित हो रहे हैं
AI का अंतिम लक्ष्य AGI (Artificial General Intelligence) है, जो कई क्षेत्रों में मानव-स्तरीय संज्ञानात्मक क्षमता वाले मॉडल की दिशा में बढ़ता है
इसके लिए जटिल समस्या-समाधान, सामान्यीकरण और स्वयं-सुधार क्षमताओं का एकीकृत होना आवश्यक है
वास्तविक कामकाज और जटिल विशेषज्ञ समस्याओं के समाधान के लिए 3 प्रमुख क्षमताएँ महत्वपूर्ण हैं:
- एजेंटिक क्षमता: टूल्स और बाहरी दुनिया के साथ इंटरैक्शन
- जटिल रीजनिंग: गणित/विज्ञान जैसे क्षेत्रों में बहु-चरणीय समस्या समाधान
- उन्नत कोडिंग: व्यावहारिक software engineering करने की क्षमता
मौजूदा SOTA कमर्शियल मॉडल (OpenAI, Anthropic) अलग-अलग क्षेत्रों में विशेषज्ञ प्रदर्शन दिखाते हैं, लेकिन ओपन सोर्स मॉडलों में इन तीनों क्षेत्रों में उत्कृष्ट सार्वजनिक मॉडल अभी कम हैं

GLM-4.5 और GLM-4.5-Air मॉडल परिचय

GLM-4.5/GLM-4.5-Air एजेंटिक, रीजनिंग और कोडिंग सभी क्षेत्रों में ओपन सोर्स के सर्वोच्च स्तर का प्रदर्शन दिखाते हैं
दोनों मॉडल हाइब्रिड रीजनिंग मोड को सपोर्ट करते हैं
- Thinking Mode जटिल रीजनिंग और एजेंटिक कार्यों में मजबूत है
- Non-thinking Mode तेज़ प्रतिक्रिया के लिए अनुकूलित है
GLM-4.5 के प्रमुख स्कोर:
- एजेंटिक: TAU-Bench 70.1%, BFCL v3 77.8%, BrowseComp 26.4% (प्रतिस्पर्धी कमर्शियल मॉडलों की तुलना में बेहतर)
- रीजनिंग: AIME 24 91.0%, GPQA 79.1%, LiveCodeBench 72.9%, HLE 14.4%
- कोडिंग: SWE-bench Verified 64.2%, Terminal-Bench 37.5% (GPT-4.1 और Gemini-2.5-pro से बेहतर, Claude Sonnet 4 के करीब)
GLM-4.5-Air, 106 अरब पैरामीटर के साथ, 100 अरब-स्तर के मॉडलों में भी Qwen3-235B-A22B और MiniMax-M1 के बराबर या उनसे बेहतर है

बेंचमार्क प्रदर्शन की स्थिति और विशेषताएँ

12 प्रमुख बेंचमार्कों में GLM-4.5 और GLM-4.5-Air दोनों ने उच्च रैंक हासिल की
GLM-4.5 ने एजेंटिक, रीजनिंग और कोडिंग में संतुलित प्रदर्शन तथा उल्लेखनीय पैरामीटर दक्षता दिखाई
SWE-bench Verified के आधार पर प्रदर्शन बनाम पैरामीटर में सर्वोच्च दक्षता क्षेत्र (Pareto Frontier) हासिल किया
कमर्शियल और ओपन सोर्स कई मॉडलों के साथ विस्तृत प्रदर्शन तुलना की गई

रिलीज़ और ओपन सोर्स सपोर्ट

GLM-4.5/GLM-4.5-Air मॉडल Z.ai, BigModel.cn के अलावा Huggingface(https://huggingface.co/zai-org/GLM-4.5) पर भी उपलब्ध हैं
बेंचमार्क पुनरुत्पादकता के लिए मूल्यांकन टूलकिट(https://github.com/zai-org/glm-simple-evals) भी ओपन सोर्स के रूप में उपलब्ध कराया गया है

प्री-ट्रेनिंग

आर्किटेक्चर

GLM-4.5 सीरीज़ ने Mixture-of-Experts(MoE) आर्किटेक्चर अपनाया है, जो ट्रेनिंग और इन्फरेंस की कम्प्यूटेशनल दक्षता को काफी बढ़ाता है
MoE लेयर में loss-free balance routing और sigmoid gating लागू किया गया है
DeepSeek-V3 और Kimi K2 से अलग, इसने मॉडल की चौड़ाई (hidden dimension, routed experts की संख्या) घटाकर गहराई (layers की संख्या) बढ़ाई है। अधिक गहरे मॉडल रीजनिंग क्षमता बढ़ाने में प्रभावी पाए गए
Self-Attention में Grouped-Query Attention + partial RoPE लागू किया गया है, और 96 attention heads के साथ hidden dimension 5120 पर 2.5x attention head कॉन्फ़िगरेशन रखा गया है
हेड्स की संख्या बढ़ाने से ट्रेनिंग लॉस पर असर नहीं पड़ा, लेकिन वास्तविक इन्फरेंस और बेंचमार्क प्रदर्शन पर सकारात्मक प्रभाव देखा गया
attention logit मानों की स्थिरता बढ़ाने के लिए QK-Norm लागू किया गया
GLM-4.5 और GLM-4.5-Air दोनों में MoE लेयर-आधारित MTP(Multi-Token Prediction) लेयर जोड़ी गई है, जिससे इन्फरेंस के दौरान speculative decoding सपोर्ट होता है
आर्किटेक्चर पैरामीटर की गणना में MTP लेयर के पैरामीटर शामिल हैं, लेकिन word embedding और output layer शामिल नहीं हैं

निष्कर्ष और अपेक्षित प्रभाव

GLM-4.5/GLM-4.5-Air ओपन सोर्स AI बाज़ार में उच्च प्रदर्शन, दक्षता और बहुउपयोगिता से लैस अगली पीढ़ी के भाषा मॉडल हैं
ये कई क्षेत्रों के एकीकृत और उच्च-कठिनाई वाले समस्या-समाधान, कमर्शियल मॉडलों से प्रतिस्पर्धा, और पैरामीटर दक्षता में विशेष रूप से उभरते हैं
अकादमिक जगत, उद्योग और डेवलपर रिसर्च में ओपन सोर्स बड़े भाषा मॉडलों के लिए नवाचार की नींव के रूप में इनके योगदान की संभावना बढ़ती है

2 टिप्पणियां

xguru 2025-08-13

Hacker News की टिप्पणियों में भी, और Reddit के LocalLLaMA फ़ोरम में भी GLM को काफ़ी अच्छा बताया जा रहा है
GLM 4.5 AIR IS SO FKING GOODDD

GLM 4.5 Air वाकई बहुत तेज़ है, और इसकी tool calling क्षमता भी शानदार है (लोकल पर नहीं, Open Router पर टेस्ट किया गया)
GPT-5 Mini से तुलना करें तो काम के प्रकार के हिसाब से बढ़त किसी की भी हो सकती है
GLM 4.5V समेत बाकी GLM मॉडल भी सभी अच्छे हैं
कुछ खास कामों में (जैसे: उपन्यास लिखना, कोडिंग) GLM, GPT की तुलना में ज़्यादा नैचुरल और कम प्रतिबंधित लगता है

GN⁺ 2025-08-13

Hacker News प्रतिक्रियाएँ

इस पेपर ने आम तौर पर दिखने वाले मॉडल अनाउंसमेंट ब्लॉग पोस्ट्स से अलग, काफ़ी गहराई से बात की है, इसलिए इसे देखकर सच में अच्छा लगा
Zhipu/Tsinghua टीम ने सिर्फ़ 'क्या' नहीं बल्कि 'कैसे' भी विस्तार से समझाया है, इसलिए जो लोग ऐसे मॉडल खुद बनाना या इस्तेमाल करना चाहते हैं, उनके लिए यह खास तौर पर दिलचस्प जानकारी है
खासकर Sec 3 की post-training methodology प्रभावशाली लगी
reasoning/agent/chat जैसे specialized 'expert models' अलग से बनाकर, उनकी क्षमताओं को अंतिम integrated model में distill करने का approach आकर्षक है
यह कई भूमिकाएँ बस औसत ढंग से निभाने वाले generalist model की सीमाओं को कहीं अधिक व्यवस्थित तरीके से हल करने की कोशिश है
सिर्फ़ data mix करने के बजाय, इसे इस तरह डिज़ाइन किया गया है कि एक सामान्य model विशेषज्ञों के समूह से सीखे
RL experiment results में एक दिलचस्प बात यह है कि पूरे 64K context पर एक ही बार में RL लागू करने का तरीका, step-by-step RL से बेहतर निकला (Fig 6 देखें)
कई टीमें शायद इसका उल्टा सोचेंगी, लेकिन असली नतीजे अलग हैं
और function calling format के लिए XML template का इस्तेमाल करने जैसी छोटी लेकिन समझदार पसंद की वजह से JSON escaping की समस्या से बचाव हुआ (Fig 4 देखें)
व्यवहारिक इस्तेमाल में JSON के अंदर code को escape करना बहुत सिरदर्द वाला काम होता है
SWE-bench पर इसका प्रदर्शन भी काफ़ी मजबूत है, इतना कि यह कहीं बड़े पैमाने या commercial models से मुकाबला कर सकता है
आगे यह जानना दिलचस्प होगा कि क्या यह hybrid training method ARC-style evaluations के बाहर भी काम करती है
उदाहरण के लिए, ऐसे complex workflows में जहाँ असली काम की तरह API docs न हों, errors बार-बार आते हों, और input भी अस्पष्ट हो, वहाँ भी agent performance बनी रहेगी या नहीं, यह जानना चाहूँगा
- मुझे यह भी जिज्ञासा है कि क्या इस तरह के post/mid-training tweaks उन specific domain training cases में वाकई ज़रूरी हैं, जहाँ data और labels पहले से भरपूर और अच्छी तरह validated हों
  क्या छोटी टीमें सिर्फ़ latest scale-up training stack को ठीक से follow करके भी पर्याप्त परिणाम पा सकती हैं, या फिर इन techniques के बिना बड़ा फ़र्क पड़ता है?
- उम्मीद है यह बेवजह नुक़्ताचीनी जैसा नहीं लगेगा, लेकिन लेखन शैली में LLM जैसा एहसास काफ़ी मज़बूती से आता है
  मैंने पहले भी यही बात उठती देखी है लिंक
  मुझे लगता है ऐसी बातों की ओर इशारा करना online माहौल को स्वस्थ रखने का एक तरीका है
मैंने GLM-4.5 coding model को काफ़ी लंबे समय तक इस्तेमाल किया है, और इसका प्रदर्शन सच में शानदार है
अपने developing coding agent Octofriend में GLM-4.5 चलाते समय मैं कभी-कभी इसे Claude 4 समझ बैठा
मेरे अनुभव में Claude उन स्थितियों में थोड़ा बेहतर लगता है जहाँ पूरे codebase को context में रखना हो और system interactions पर भी ध्यान देना हो
दूसरी ओर GLM-4.5 ज़्यादा 'ईमानदार' है, यानी Claude की तरह tests बदलकर समस्या को चुपचाप टालने जैसा व्यवहार यह कम करता है
दोनों ही उच्च स्तर के हैं, लेकिन GLM-4.5 ने कभी-कभी ऐसे bugs भी पकड़े हैं जो Claude 4 Sonnet या 4.1 Opus से छूट गए
सिर्फ़ debugging की बात करें तो Claude बहुत मामूली अंतर से ज़्यादा बार जीतता है, लेकिन फ़र्क बड़ा नहीं है
GPT-5 की तुलना में Claude और GLM दोनों ज़्यादा consistent हैं
GPT-5 कभी-कभी सच में कमाल के results देता है, लेकिन एक बार पटरी से उतर जाए तो उसे वापस सही दिशा में लाना मुश्किल और निराशाजनक हो जाता है
Octofriend देखें: https://github.com/synthetic-lab/octofriend
- यह टिप्पणी पढ़कर मैंने Kilocode में GLM-4.5 टेस्ट किया
  आज पूरा दिन Gemini CLI से compiler code के एक मुश्किल bug को पकड़ने की कोशिश कर रहा था, लेकिन बात नहीं बनी
  मगर GLM-4.5 ने तुरंत असली समस्या पर उंगली रख दी
  Gemini CLI बार-बार ग़लत function पर शक करता रहा और सतही fixes दोहराता रहा, जबकि मामला पूरी तरह किसी और हिस्से का था
  समस्या पर GLM-4.5 का फ़ोकस वाकई अलग दिखाई दिया
- मेरा भी अनुभव है कि GLM-4.5 छोटे प्रोजेक्ट्स या छोटे prompts में काफ़ी अच्छा काम करता है
  अफ़सोस यह है कि context लंबा होने पर इसका प्रदर्शन गिरता हुआ लगता है, इसलिए अभी मैं इसे Sonnet 4 के backup के तौर पर इस्तेमाल कर रहा हूँ
- मैं aider में architect mode इस्तेमाल कर रहा हूँ
  Deepseek R1 (high-level design के लिए) + Qwen3 480B (low-level coding के लिए, या qwen code API के साथ) का combination उपयोग करता हूँ
  यह setup सच में बहुत अच्छा काम करता है
  लगभग 99.99% समस्याएँ यह अपने आप हल कर देता है
  अभी aider में role separation पूरी तरह परिपक्व नहीं है, इसलिए workflow को बेहतर बनाने के लिए मैं खुद एक tool बनाने की सोच रहा हूँ
- मैं पहले वाले point से सहमत हूँ
  मेरा भी अनुभव है कि Claude ज़्यादा context मिलने पर बेहतर काम करता है, जबकि GLM-4.5 ऐसी स्थितियों में उतना अच्छा नहीं रहता
GLM-4.5 series total/active parameter counts गिनते समय embedding और output layers को छोड़कर सिर्फ़ MTP layers शामिल करती है
यह मेरी अपनी calculation (355B A32B) से मेल खाता है
GPT OSS series embedding/output दोनों को total parameters में गिनती है, और active parameters में सिर्फ़ output को शामिल करती है
Qwen3 series total और active दोनों में embedding और output दोनों को शामिल करती है
अलग-अलग models में parameter counting के तरीके अलग हैं, इसलिए समझ नहीं आता कि कोई standard क्यों नहीं है, और कौन-सी counting ज़्यादा तर्कसंगत है
- total parameter count सीधे memory requirements से जुड़ा होता है, इसलिए सभी parameters को total में गिनना सही है
  active parameters के मामले में unembedding parameters हर token generation पर पूरी तरह इस्तेमाल होते हैं, जबकि embedding में सिर्फ़ एक column इस्तेमाल होता है, इसलिए bandwidth और latency के साथ इसका सही संबंध समझने के लिए इस अंतर को गिनती में परिलक्षित होना चाहिए
मुझे लगता है कि अगले कुछ वर्षों के भीतर लगभग 2000 डॉलर के workstation PC पर Sonnet 4 स्तर का local open model coding के लिए चल सकेगा
आज के cloud-based models उपयोगी ज़रूर हैं, लेकिन developer experience के लिए यह इतना अहम tool है कि मैं चाहूँगा इसे local पर चला सकूँ
- मेरे हिसाब से 2 साल नहीं, इस साल के अंत तक ही यह संभव लग रहा है
- open source नज़रिए से ऐसे models बेहद ज़रूरी हैं
  नहीं तो open source development खुद टिकाऊ न रह जाए
  बल्कि मैं तो यह ज़्यादा उम्मीद करता हूँ कि 2 साल के भीतर 2000 डॉलर के PC पर Sonnet 4 से बेहतर performance मिल सकेगी
यह मॉडल मुझे पहला ऐसा open model लगता है जिसे मौजूदा commercial frontier models के लगभग बराबरी पर रखकर तुलना की जा सकती है
सिर्फ़ parameter efficiency देखकर भी लगता है कि training methods में सचमुच कुछ नया innovation हुआ है
Aider के LLM Leaderboard पर इसके independent performance validation results भी देखना चाहूँगा
जो लोग मेरी तरह पहले paper abstract पढ़ना चाहते हैं, उनके लिए लिंक छोड़ रहा हूँ https://www.arxiv.org/abs/2508.06471
Apache license होना भी इस release को और शानदार बनाता है
open source models को लगातार सीमाएँ चुनौती देते देखना सच में खुशी देता है
इस paper में इतनी ज़्यादा observations हैं कि हर एक पर अलग paper लिखा जा सकता है
खास तौर पर training process और data collection/synthesis पर अनुभव बहुत समृद्ध लगते हैं
क्या किसी को पता है कि क्या इन authors ने पहले भी इसी स्तर के शानदार papers लिखे हैं?
paper के graph metrics थोड़ा उलझाने वाले हैं
पहले figure में sonnet 4 का swebench score लगभग 53 दिखता है, लेकिन उसके बाद यह 70 के क़रीब पहुँच जाता है
असली value 70 के ज़्यादा क़रीब लगती है संदर्भ
यह जानना दिलचस्प है कि coding benchmarks में Qwen3 क्यों नहीं है, जबकि दूसरे benchmarks में शामिल है
- Section 4.3.2 में Qwen3-Coder शामिल है
- Qwen अभी बड़े codebases की समझ में उतना परिपक्व नहीं है