GLM-5 जारी: जटिल सिस्टम इंजीनियरिंग और दीर्घकालिक एजेंट कार्यों को लक्ष्य बनाने वाला मॉडल

(z.ai)

6 पॉइंट द्वारा GN⁺ 2026-02-12 | 4 टिप्पणियां | WhatsApp पर शेयर करें

कृत्रिम बुद्धिमत्ता की दक्षता और दीर्घकालिक कार्य निष्पादन क्षमता को मजबूत करने वाला large language model
पिछले संस्करण की तुलना में 744 अरब पैरामीटर (सक्रिय 40 अरब) तक विस्तार, और प्री-ट्रेनिंग डेटा 28.5 ट्रिलियन टोकन तक वृद्धि
DeepSeek Sparse Attention (DSA) के एकीकरण से लंबे context को संभालने की क्षमता बनाए रखते हुए deployment लागत में कमी
नई asynchronous reinforcement learning infrastructure slime के जरिए प्रशिक्षण दक्षता बढ़ाई गई, और कई benchmarks में शीर्ष स्तर का प्रदर्शन दर्ज
open source के रूप में जारी, Hugging Face, ModelScope, Z.ai platform आदि पर उपलब्ध, और Claude Code तथा OpenClaw के साथ संगत

GLM-5 का अवलोकन

GLM-5 को जटिल सिस्टम इंजीनियरिंग और दीर्घकालिक एजेंट कार्यों के निष्पादन को लक्ष्य बनाकर डिज़ाइन किया गया है
- GLM-4.5 की तुलना में पैरामीटर 355 अरब (सक्रिय 32 अरब) से बढ़कर 744 अरब (सक्रिय 40 अरब) हुए
- प्री-ट्रेनिंग डेटा 23 ट्रिलियन से बढ़कर 28.5 ट्रिलियन टोकन हुआ
DeepSeek Sparse Attention (DSA) को एकीकृत कर लंबे context की प्रोसेसिंग क्षमता बनाए रखते हुए deployment लागत में बड़ी कमी की गई
slime नाम की asynchronous reinforcement learning infrastructure को अपनाकर training throughput और efficiency में सुधार किया गया, जिससे अधिक सूक्ष्म post-training iterations संभव हुए

प्रदर्शन सुधार और benchmark परिणाम

GLM-5, GLM-4.7 की तुलना में समग्र प्रदर्शन में सुधार दिखाता है और Claude Opus 4.5 स्तर के करीब पहुंचता है
आंतरिक evaluation set CC-Bench-V2 में frontend, backend और दीर्घकालिक कार्यों में उत्कृष्ट परिणाम
Vending Bench 2 में open source मॉडलों में पहला स्थान, और 1 साल की vending machine business simulation में अंतिम बैलेंस $4,432 हासिल
reasoning, coding और agent tasks में विश्व-स्तरीय open source प्रदर्शन
- उदाहरण: SWE-bench Verified 77.8, BrowseComp 62.0, τ²-Bench 89.7
GPT-5.2, Gemini 3.0 Pro जैसे शीर्ष मॉडलों के साथ अंतर कम किया

open source रिलीज़ और access मार्ग

GLM-5 को MIT license के तहत जारी किया गया है, और Hugging Face तथा ModelScope से model weights डाउनलोड किए जा सकते हैं
Z.ai, BigModel.cn, api.z.ai आदि पर API रूप में उपयोग संभव
Claude Code और OpenClaw के साथ संगत, इसलिए विभिन्न development environments में एकीकृत उपयोग संभव
Z.ai platform पर मुफ्त ट्रायल उपलब्ध

office और document generation फीचर

GLM-5 “chat से work तक” के बदलाव को लक्ष्य बनाता है, और knowledge workers तथा engineers के लिए office tool की भूमिका निभाता है
टेक्स्ट या source materials को सीधे .docx, .pdf, .xlsx फ़ॉर्मेट में बदलकर PRD, परीक्षा-पत्र, financial reports, menu आदि पूर्ण दस्तावेज़ बना सकता है
Z.ai application PDF/Word/Excel generation को सपोर्ट करने वाला Agent mode देता है, जिससे multi-turn collaboration संभव होती है

डेवलपर और deployment समर्थन

GLM Coding Plan subscribers को चरणबद्ध तरीके से GLM-5 access मिलेगा
- Max plan उपयोगकर्ता इसे तुरंत "GLM-5" मॉडल नाम से सक्रिय कर सकते हैं
- GLM-5 requests, GLM-4.7 की तुलना में अधिक quota खर्च करते हैं
GUI environment पसंद करने वाले उपयोगकर्ताओं के लिए Z Code agent development environment उपलब्ध
OpenClaw framework के जरिए GLM-5 को ऐसे personal assistant agent के रूप में इस्तेमाल किया जा सकता है जो apps और devices में काम करे

लोकल deployment और hardware compatibility

GLM-5, vLLM, SGLang जैसे inference frameworks को सपोर्ट करता है, और आधिकारिक GitHub पर deployment निर्देश उपलब्ध हैं
NVIDIA के अलावा अन्य chipsets (Huawei Ascend, Moore Threads, Cambricon, Kunlun, MetaX, Enflame, Hygon आदि) पर भी चल सकता है
- kernel optimization और model quantization के जरिए व्यावहारिक throughput सुनिश्चित किया गया है

4 टिप्पणियां

GN⁺ 2026-02-12

Hacker News राय

Pelican के OpenRouter के ज़रिए जनरेट किए गए नतीजे देखे
पक्षी खुद तो मज़बूत पक्षी जैसा दिखता है, लेकिन साइकिल फ़्रेम के तौर पर ठीक नहीं है
संबंधित लिंक
- Simon द्वारा मेंटेन किए जा रहे एकमात्र वाकई मायने रखने वाले benchmark system के लिए धन्यवाद
  Pelican साइकिल टेस्ट का संदर्भ यहाँ देखा जा सकता है
- मुझे लगता है यह सच में एक महत्वपूर्ण टेस्ट है, Simon के नाम एक जाम
- अब लगता है Pelican benchmark समय से पीछे छूट गया है
  SVG अब हर जगह है, इसलिए एक ज़्यादा यथार्थवादी नया scenario चाहिए
- सोच रहा हूँ कि इस टेस्ट के आने से पहले Pelican साइकिल SVG कितने थे
  कहीं ऐसा तो नहीं कि ऐसे नतीजे training data को pollute कर रहे हों
- मुझे लगता है पंखों के बिना पक्षी को ‘मज़बूत पक्षी’ कहना AI expectation gap का प्रतीकात्मक उदाहरण है
  दिलचस्प यह है कि AI खुद कहता है कि ‘जालीदार पैर चाहिए’, लेकिन असली image में वे हैं ही नहीं
  MMLU या AIME की तरह 90% accuracy को ‘solved problem’ मानने का रवैया चिंताजनक है
  असली AGI को 100% accuracy हासिल करनी चाहिए, लेकिन हम बहुत आसानी से संतुष्ट हो रहे हैं
आगे चलकर ग्रे मार्केट distillation-आधारित तेज़ नकल अनिवार्य लगती है
पहले लगता था कि N-1, N-2 मॉडल आकर्षक नहीं होंगे, लेकिन अब user preference भी saturation पर है, तो वह भी काफ़ी संतुष्ट कर सकते हैं
Opus 4.5 निश्चित रूप से एक छलांग था, लेकिन 4.6 ने मेरा workflow नहीं बदला
आख़िरकार ‘मानव इतिहास की सबसे बड़ी चोरी’ के बाद ‘सबसे बड़ा कर्मफल’ आता दिखता है
users को इस बात से बिल्कुल फ़र्क नहीं पड़ेगा कि चीनी AI ने अमेरिकी Big Tech से चोरी की है
- अगर LLM कंपनियाँ training data के इस्तेमाल को जायज़ ठहराती हैं, तो distiller द्वारा LLM output पर training करना भी उसी तर्क से वैध होना चाहिए
  “हमने तो इंसानों की तरह सीखा है, फिर यह ग़ैरकानूनी क्यों?” जैसी दलील दी जा सकती है
- distillation को रोकना ही उल्टा ग़ैरकानूनी होना चाहिए
  हज़ारों AI-generated content sites बनाकर, हर पोस्ट में prompt और model information सार्वजनिक कर दो
  फिर दूसरे लोग उसे ‘इत्तफ़ाक़ से’ crawl करके training में इस्तेमाल करें
- Opus 4.6 में लंबे काम को जारी रखने की क्षमता खास तौर पर उभरकर आती है
  पहले से लगभग दोगुना दूर तक जाता महसूस होता है, इसलिए वापस नहीं जाना चाहता
- लेकिन token consumption बहुत ज़्यादा है, इसलिए efficiency के लिहाज़ से पीछे जाना लगता है
हाल के benchmarks प्रभावशाली हैं, लेकिन तुलना पुराने generation के models (Opus 4.5, GPT-5.2) से है
आजकल के खुले models benchmark score में ऊँचे होते हैं, लेकिन असली usage experience उम्मीद से कम रहता है
benchmaxxing साफ़ तौर पर मौजूद है
- open-weight models पर की जा रही आलोचना कुछ ज़्यादा आक्रामक लगती है
  20 benchmarks चलाना भी आसान काम नहीं है, और नई generation के models आए अभी सिर्फ़ 5 दिन हुए हैं
  बहुत से developers closed-model worship में फँसे हैं, और नहीं जानते कि दूसरे model families में वही prompts काम नहीं करते
  मैं GLM-4.7 अक्सर इस्तेमाल करता हूँ, यह Sonnet 4.5 के स्तर का है, और GLM-5 शायद Opus 4.5 के बराबर होगा
- अगर GLM-4.7 सच में 4.5 या 5.2 स्तर का है, तो वह अपने आप में बहुत बड़ी छलांग है
- आजकल के models आख़िरकार सिर्फ़ token generators जैसे लगते हैं
  blind test में शायद फ़र्क ही न कर पाओ, इतने मिलते-जुलते हैं
  Claude और ChatGPT के जवाबों की तुलना करो तो भी लगभग एक जैसे लगते हैं
  आख़िर में ज़्यादातर उपयोगों के लिए Toyota-स्तर का model काफ़ी है
- समस्या RLHF (मानव फ़ीडबैक से reinforcement learning) की सीमाएँ हैं
  algorithmic innovation संभव है, लेकिन मानव डेटा बनाने की लागत इतनी ज़्यादा है कि यह scale नहीं हो पाती
  open source models में अब भी syntax errors बहुत हैं, जबकि frontier models ने ऐसी समस्याएँ लगभग सुलझा ली हैं
- Anthropic, OpenAI, Google वास्तविक user data से models सुधारते हैं
  जबकि चीनी labs benchmark-केंद्रित हैं, इसलिए अंतर पैदा होता है
  self-hosting और continuous improvement का साथ निभाना मुश्किल है
चीनी open source की वजह से लगता है कि अब self-hosted intelligence मिल पाएगी
लागत के हिसाब से यह inefficient है, लेकिन इंटरनेट कनेक्शन के बिना भी स्वतंत्र रूप से चल सकता है, यह बात पसंद आती है
आख़िरकार बड़े models को local में चलाने के लिए macOS ही एकमात्र consumer विकल्प लगता है
- मैं अक्सर Claude Max subscription limit पार कर देता हूँ, इसलिए 2x RTX3090 और Qwen3 quantized model से काम चला रहा हूँ
  privacy और availability के लिहाज़ से भी self-hosting की काफ़ी value है
  खासकर अगर अमेरिका में digital regulation और सख़्त हो जाए, तो विकल्प चाहिए
- open-weight model होने पर भी training data और censorship criteria अब भी private हैं
  फिर भी fine-tuning से bias को ठीक किया जा सकता है, यह इसकी ताकत है
- 128GB VRAM वाली Strix Halo machine लगभग 3,000 डॉलर के आसपास है, और उस पर काफ़ी अच्छे models local में चल सकते हैं
  GPT-OSS 120GB, Qwen Coder Next 80B, Step 3.5 Flash की सिफ़ारिश है
  उम्मीद है कि 1–2 साल में consumer hardware पर भी 512GB-स्तर के models चल सकेंगे
- macOS की जगह घर में Linux headless inference box रखना भी अच्छा विचार है
  home network की वापसी है यह
- मुझे direct hosting से ज़्यादा hosting का commoditization अहम लगता है
  जब चाहो provider बदल सकने की आज़ादी ही असली बात है
मैंने GLM-4.7 कुछ हफ़्तों तक इस्तेमाल किया है, और यह Sonnet के काफ़ी क़रीब है
बस इसमें ज़्यादा स्पष्ट निर्देश देने पड़ते हैं
बड़े कामों के लिए मैं अब भी Anthropic family इस्तेमाल करता हूँ, लेकिन छोटे और स्पष्ट कामों के लिए GLM सबसे बेहतर value देता है
- मेरा अनुभव भी लगभग ऐसा ही है
  GLM-4.7 को अकेला छोड़ दो तो इसमें बिना ज़रूरत पूरी दुनिया गढ़ने की प्रवृत्ति होती है
  लेकिन छोटे कामों में यह Sonnet जैसा है, और कीमत बहुत कम है, इसलिए सहायक model के रूप में उपयोगी है
- मैं पिछले 6–8 महीनों से सिर्फ़ Sonnet इस्तेमाल कर रहा हूँ, क्योंकि Opus में token binge bug बार-बार आता है
  open models अगर और 6 महीने आगे बढ़ जाएँ, तो मैं स्विच करने को तैयार हूँ
MiniMax M2.5 भी आज से Chat UI में उपलब्ध है
coding के लिए GLM बेहतर है, लेकिन MiniMax को मैं speed और tool-calling क्षमता की वजह से रोज़मर्रा के कामों में अक्सर इस्तेमाल करता हूँ
OpenRouter पर नया model रिलीज़ हुआ है
मेरे निजी benchmark में इसकी instruction-following क्षमता बहुत कमज़ोर थी
chat.md + mcps format वाले टेस्ट में यह ठीक से काम नहीं कर पाया
- लगता है custom tool-calling formats हर model में अलग तरह से train किए गए हैं, इसलिए consistency हासिल करना मुश्किल है
  जानना चाहूँगा कि दूसरे frontier models पर क्या नतीजे मिले
- chat.md का idea मुझे पसंद आया
  मैं भी vim keybinding-आधारित text editor बना रहा था, और यह approach UI inspiration दे सकती है
  फ़ालतू text को fold करने की सुविधा जोड़ने का सोच रहा हूँ
- समस्या OpenRouter provider quality की भी हो सकती है
  कभी-कभी performance खराब होती है
- OpenRouter कई बार quantized models host करता है, इसलिए quality गिरती है
  हो सके तो original provider को सीधे इस्तेमाल करना बेहतर है
GLM-4.7-Flash पहली बार ऐसा बुद्धिमान model लगा जिसे local coding में वाकई इस्तेमाल किया जा सकता है
यह Claude 4.5 Haiku के काफ़ी क़रीब है, और reasoning process पारदर्शी है, इसलिए समझ आता है कि इसने ऐसा फ़ैसला क्यों लिया
Devstral 2 Small या Qwen-Coder-Next से काफ़ी बेहतर है
- minimax-m.2 भी काफ़ी पास के स्तर पर है
मैं GLM 4.7 को opencode में इस्तेमाल कर रहा हूँ
यह सबसे बेहतरीन नहीं है, लेकिन उदार usage limits की वजह से इसे पूरे दिन इस्तेमाल किया जा सकता है
नए model की पहुँच अभी सीमित है, लेकिन उम्मीद बनी हुई है
मैंने opencode में नए model को थोड़ी देर चलाकर देखा, और यह काफ़ी प्रभावशाली लगा
यह कोई क्रांतिकारी छलांग नहीं है, लेकिन 4.7 से साफ़ बेहतर है
memory और लंबे कामों में स्थिरता में खास सुधार दिखा

jinifor 2026-02-12

लगता है subscription की कीमत बढ़ गई है।

princox 2026-02-13

शुरुआत में साइन अप करने पर मिलने वाली 50% छूट अब हटा दी गई है..

fanotify 2026-02-12

Max के आधार पर शुरुआती डिस्काउंट कीमत सालाना $360 थी, जो अब $672 हो गई है...