- कृत्रिम बुद्धिमत्ता की दक्षता और दीर्घकालिक कार्य निष्पादन क्षमता को मजबूत करने वाला large language model
- पिछले संस्करण की तुलना में 744 अरब पैरामीटर (सक्रिय 40 अरब) तक विस्तार, और प्री-ट्रेनिंग डेटा 28.5 ट्रिलियन टोकन तक वृद्धि
- DeepSeek Sparse Attention (DSA) के एकीकरण से लंबे context को संभालने की क्षमता बनाए रखते हुए deployment लागत में कमी
- नई asynchronous reinforcement learning infrastructure
slime के जरिए प्रशिक्षण दक्षता बढ़ाई गई, और कई benchmarks में शीर्ष स्तर का प्रदर्शन दर्ज
- open source के रूप में जारी, Hugging Face, ModelScope, Z.ai platform आदि पर उपलब्ध, और Claude Code तथा OpenClaw के साथ संगत
GLM-5 का अवलोकन
- GLM-5 को जटिल सिस्टम इंजीनियरिंग और दीर्घकालिक एजेंट कार्यों के निष्पादन को लक्ष्य बनाकर डिज़ाइन किया गया है
- GLM-4.5 की तुलना में पैरामीटर 355 अरब (सक्रिय 32 अरब) से बढ़कर 744 अरब (सक्रिय 40 अरब) हुए
- प्री-ट्रेनिंग डेटा 23 ट्रिलियन से बढ़कर 28.5 ट्रिलियन टोकन हुआ
- DeepSeek Sparse Attention (DSA) को एकीकृत कर लंबे context की प्रोसेसिंग क्षमता बनाए रखते हुए deployment लागत में बड़ी कमी की गई
- slime नाम की asynchronous reinforcement learning infrastructure को अपनाकर training throughput और efficiency में सुधार किया गया, जिससे अधिक सूक्ष्म post-training iterations संभव हुए
प्रदर्शन सुधार और benchmark परिणाम
- GLM-5, GLM-4.7 की तुलना में समग्र प्रदर्शन में सुधार दिखाता है और Claude Opus 4.5 स्तर के करीब पहुंचता है
- आंतरिक evaluation set CC-Bench-V2 में frontend, backend और दीर्घकालिक कार्यों में उत्कृष्ट परिणाम
- Vending Bench 2 में open source मॉडलों में पहला स्थान, और 1 साल की vending machine business simulation में अंतिम बैलेंस $4,432 हासिल
- reasoning, coding और agent tasks में विश्व-स्तरीय open source प्रदर्शन
- उदाहरण: SWE-bench Verified 77.8, BrowseComp 62.0, τ²-Bench 89.7
- GPT-5.2, Gemini 3.0 Pro जैसे शीर्ष मॉडलों के साथ अंतर कम किया
open source रिलीज़ और access मार्ग
- GLM-5 को MIT license के तहत जारी किया गया है, और Hugging Face तथा ModelScope से model weights डाउनलोड किए जा सकते हैं
- Z.ai, BigModel.cn, api.z.ai आदि पर API रूप में उपयोग संभव
- Claude Code और OpenClaw के साथ संगत, इसलिए विभिन्न development environments में एकीकृत उपयोग संभव
- Z.ai platform पर मुफ्त ट्रायल उपलब्ध
office और document generation फीचर
- GLM-5 “chat से work तक” के बदलाव को लक्ष्य बनाता है, और knowledge workers तथा engineers के लिए office tool की भूमिका निभाता है
- टेक्स्ट या source materials को सीधे .docx, .pdf, .xlsx फ़ॉर्मेट में बदलकर PRD, परीक्षा-पत्र, financial reports, menu आदि पूर्ण दस्तावेज़ बना सकता है
- Z.ai application PDF/Word/Excel generation को सपोर्ट करने वाला Agent mode देता है, जिससे multi-turn collaboration संभव होती है
डेवलपर और deployment समर्थन
- GLM Coding Plan subscribers को चरणबद्ध तरीके से GLM-5 access मिलेगा
- Max plan उपयोगकर्ता इसे तुरंत
"GLM-5" मॉडल नाम से सक्रिय कर सकते हैं
- GLM-5 requests, GLM-4.7 की तुलना में अधिक quota खर्च करते हैं
- GUI environment पसंद करने वाले उपयोगकर्ताओं के लिए Z Code agent development environment उपलब्ध
- OpenClaw framework के जरिए GLM-5 को ऐसे personal assistant agent के रूप में इस्तेमाल किया जा सकता है जो apps और devices में काम करे
लोकल deployment और hardware compatibility
- GLM-5, vLLM, SGLang जैसे inference frameworks को सपोर्ट करता है, और आधिकारिक GitHub पर deployment निर्देश उपलब्ध हैं
- NVIDIA के अलावा अन्य chipsets (Huawei Ascend, Moore Threads, Cambricon, Kunlun, MetaX, Enflame, Hygon आदि) पर भी चल सकता है
- kernel optimization और model quantization के जरिए व्यावहारिक throughput सुनिश्चित किया गया है
4 टिप्पणियां
Hacker News राय
Pelican के OpenRouter के ज़रिए जनरेट किए गए नतीजे देखे
पक्षी खुद तो मज़बूत पक्षी जैसा दिखता है, लेकिन साइकिल फ़्रेम के तौर पर ठीक नहीं है
संबंधित लिंक
Pelican साइकिल टेस्ट का संदर्भ यहाँ देखा जा सकता है
SVG अब हर जगह है, इसलिए एक ज़्यादा यथार्थवादी नया scenario चाहिए
कहीं ऐसा तो नहीं कि ऐसे नतीजे training data को pollute कर रहे हों
दिलचस्प यह है कि AI खुद कहता है कि ‘जालीदार पैर चाहिए’, लेकिन असली image में वे हैं ही नहीं
MMLU या AIME की तरह 90% accuracy को ‘solved problem’ मानने का रवैया चिंताजनक है
असली AGI को 100% accuracy हासिल करनी चाहिए, लेकिन हम बहुत आसानी से संतुष्ट हो रहे हैं
आगे चलकर ग्रे मार्केट distillation-आधारित तेज़ नकल अनिवार्य लगती है
पहले लगता था कि N-1, N-2 मॉडल आकर्षक नहीं होंगे, लेकिन अब user preference भी saturation पर है, तो वह भी काफ़ी संतुष्ट कर सकते हैं
Opus 4.5 निश्चित रूप से एक छलांग था, लेकिन 4.6 ने मेरा workflow नहीं बदला
आख़िरकार ‘मानव इतिहास की सबसे बड़ी चोरी’ के बाद ‘सबसे बड़ा कर्मफल’ आता दिखता है
users को इस बात से बिल्कुल फ़र्क नहीं पड़ेगा कि चीनी AI ने अमेरिकी Big Tech से चोरी की है
“हमने तो इंसानों की तरह सीखा है, फिर यह ग़ैरकानूनी क्यों?” जैसी दलील दी जा सकती है
हज़ारों AI-generated content sites बनाकर, हर पोस्ट में prompt और model information सार्वजनिक कर दो
फिर दूसरे लोग उसे ‘इत्तफ़ाक़ से’ crawl करके training में इस्तेमाल करें
पहले से लगभग दोगुना दूर तक जाता महसूस होता है, इसलिए वापस नहीं जाना चाहता
हाल के benchmarks प्रभावशाली हैं, लेकिन तुलना पुराने generation के models (Opus 4.5, GPT-5.2) से है
आजकल के खुले models benchmark score में ऊँचे होते हैं, लेकिन असली usage experience उम्मीद से कम रहता है
benchmaxxing साफ़ तौर पर मौजूद है
20 benchmarks चलाना भी आसान काम नहीं है, और नई generation के models आए अभी सिर्फ़ 5 दिन हुए हैं
बहुत से developers closed-model worship में फँसे हैं, और नहीं जानते कि दूसरे model families में वही prompts काम नहीं करते
मैं GLM-4.7 अक्सर इस्तेमाल करता हूँ, यह Sonnet 4.5 के स्तर का है, और GLM-5 शायद Opus 4.5 के बराबर होगा
blind test में शायद फ़र्क ही न कर पाओ, इतने मिलते-जुलते हैं
Claude और ChatGPT के जवाबों की तुलना करो तो भी लगभग एक जैसे लगते हैं
आख़िर में ज़्यादातर उपयोगों के लिए Toyota-स्तर का model काफ़ी है
algorithmic innovation संभव है, लेकिन मानव डेटा बनाने की लागत इतनी ज़्यादा है कि यह scale नहीं हो पाती
open source models में अब भी syntax errors बहुत हैं, जबकि frontier models ने ऐसी समस्याएँ लगभग सुलझा ली हैं
जबकि चीनी labs benchmark-केंद्रित हैं, इसलिए अंतर पैदा होता है
self-hosting और continuous improvement का साथ निभाना मुश्किल है
चीनी open source की वजह से लगता है कि अब self-hosted intelligence मिल पाएगी
लागत के हिसाब से यह inefficient है, लेकिन इंटरनेट कनेक्शन के बिना भी स्वतंत्र रूप से चल सकता है, यह बात पसंद आती है
आख़िरकार बड़े models को local में चलाने के लिए macOS ही एकमात्र consumer विकल्प लगता है
privacy और availability के लिहाज़ से भी self-hosting की काफ़ी value है
खासकर अगर अमेरिका में digital regulation और सख़्त हो जाए, तो विकल्प चाहिए
फिर भी fine-tuning से bias को ठीक किया जा सकता है, यह इसकी ताकत है
GPT-OSS 120GB, Qwen Coder Next 80B, Step 3.5 Flash की सिफ़ारिश है
उम्मीद है कि 1–2 साल में consumer hardware पर भी 512GB-स्तर के models चल सकेंगे
home network की वापसी है यह
जब चाहो provider बदल सकने की आज़ादी ही असली बात है
मैंने GLM-4.7 कुछ हफ़्तों तक इस्तेमाल किया है, और यह Sonnet के काफ़ी क़रीब है
बस इसमें ज़्यादा स्पष्ट निर्देश देने पड़ते हैं
बड़े कामों के लिए मैं अब भी Anthropic family इस्तेमाल करता हूँ, लेकिन छोटे और स्पष्ट कामों के लिए GLM सबसे बेहतर value देता है
GLM-4.7 को अकेला छोड़ दो तो इसमें बिना ज़रूरत पूरी दुनिया गढ़ने की प्रवृत्ति होती है
लेकिन छोटे कामों में यह Sonnet जैसा है, और कीमत बहुत कम है, इसलिए सहायक model के रूप में उपयोगी है
open models अगर और 6 महीने आगे बढ़ जाएँ, तो मैं स्विच करने को तैयार हूँ
MiniMax M2.5 भी आज से Chat UI में उपलब्ध है
coding के लिए GLM बेहतर है, लेकिन MiniMax को मैं speed और tool-calling क्षमता की वजह से रोज़मर्रा के कामों में अक्सर इस्तेमाल करता हूँ
OpenRouter पर नया model रिलीज़ हुआ है
मेरे निजी benchmark में इसकी instruction-following क्षमता बहुत कमज़ोर थी
chat.md + mcps format वाले टेस्ट में यह ठीक से काम नहीं कर पाया
जानना चाहूँगा कि दूसरे frontier models पर क्या नतीजे मिले
मैं भी vim keybinding-आधारित text editor बना रहा था, और यह approach UI inspiration दे सकती है
फ़ालतू text को fold करने की सुविधा जोड़ने का सोच रहा हूँ
कभी-कभी performance खराब होती है
हो सके तो original provider को सीधे इस्तेमाल करना बेहतर है
GLM-4.7-Flash पहली बार ऐसा बुद्धिमान model लगा जिसे local coding में वाकई इस्तेमाल किया जा सकता है
यह Claude 4.5 Haiku के काफ़ी क़रीब है, और reasoning process पारदर्शी है, इसलिए समझ आता है कि इसने ऐसा फ़ैसला क्यों लिया
Devstral 2 Small या Qwen-Coder-Next से काफ़ी बेहतर है
मैं GLM 4.7 को opencode में इस्तेमाल कर रहा हूँ
यह सबसे बेहतरीन नहीं है, लेकिन उदार usage limits की वजह से इसे पूरे दिन इस्तेमाल किया जा सकता है
नए model की पहुँच अभी सीमित है, लेकिन उम्मीद बनी हुई है
मैंने opencode में नए model को थोड़ी देर चलाकर देखा, और यह काफ़ी प्रभावशाली लगा
यह कोई क्रांतिकारी छलांग नहीं है, लेकिन 4.7 से साफ़ बेहतर है
memory और लंबे कामों में स्थिरता में खास सुधार दिखा
लगता है subscription की कीमत बढ़ गई है।
शुरुआत में साइन अप करने पर मिलने वाली 50% छूट अब हटा दी गई है..
Max के आधार पर शुरुआती डिस्काउंट कीमत सालाना $360 थी, जो अब $672 हो गई है...