GLM-4.7: कोडिंग क्षमताओं को एक स्तर ऊपर ले जाता है

(z.ai)

7 पॉइंट द्वारा GN⁺ 2025-12-23 | 1 टिप्पणियां | WhatsApp पर शेयर करें

GLM-4.7 एक large language model है, जिसने multilingual coding, terminal-आधारित कार्यों और complex reasoning में अपने पिछले संस्करण की तुलना में प्रदर्शन को काफी बेहतर किया है
SWE-bench, Terminal Bench 2.0, HLE जैसे प्रमुख benchmarks में इसने क्रमशः +5.8%, +16.5%, +12.4% का सुधार दर्ज किया
UI generation quality में सुधार हुआ है, जिससे यह अधिक साफ-सुथरे और आधुनिक webpages तथा सटीक slide layouts बना सकता है
Interleaved Thinking, Preserved Thinking, Turn-level Thinking फीचर्स के जरिए जटिल agent कार्यों में स्थिरता और consistency को मजबूत किया गया है
Z.ai API, OpenRouter, HuggingFace आदि के माध्यम से यह वैश्विक स्तर पर उपलब्ध है, और coding agents तथा local deployment को भी support करता है

प्रमुख प्रदर्शन और विशेषताएँ

GLM-4.7 ने GLM-4.6 की तुलना में समग्र coding और reasoning क्षमता में सुधार हासिल किया है
- SWE-bench Verified 73.8%(+5.8%), SWE-bench Multilingual 66.7%(+12.9%), Terminal Bench 2.0 41%(+16.5%)
- HLE(Humanity’s Last Exam) benchmark में 42.8%(+12.4%) के साथ गणित और logical reasoning क्षमता मजबूत हुई
UI generation quality (Vibe Coding) बेहतर हुई है, जिससे अधिक परिष्कृत webpages और slides बनाए जा सकते हैं
Tool-use capability में सुधार हुआ है, और τ²-Bench तथा BrowseComp जैसे benchmarks में उच्च स्कोर दर्ज किए गए हैं
विभिन्न scenarios (chat, creative writing, roleplay आदि) में भी प्रदर्शन सुधार की पुष्टि हुई

benchmark तुलना

GLM-4.7 की GPT-5, Claude Sonnet 4.5, Gemini 3.0 Pro आदि के साथ 17 benchmarks पर तुलना की गई
- Reasoning श्रेणी: MMLU-Pro 84.3, GPQA-Diamond 85.7, HLE(w/Tools) 42.8
- Coding श्रेणी: SWE-bench Verified 73.8, Terminal Bench 2.0 41.0
- Agent श्रेणी: BrowseComp 52.0, τ²-Bench 87.4
कुछ मापदंडों में इसने शीर्ष मॉडलों के बराबर या उनसे बेहतर परिणाम दिखाए

Thinking mode को मजबूत बनाना

Interleaved Thinking: जवाब और tool call से पहले thinking step के जरिए instruction-following और generation quality में सुधार
Preserved Thinking: multi-turn conversation में thinking blocks को बनाए रखकर information loss और inconsistency को कम करता है
Turn-level Thinking: request की complexity के अनुसार thinking feature को on या off करके accuracy और cost के बीच संतुलन बनाता है
ये फीचर्स दीर्घकालिक और जटिल coding agent कार्यों के लिए उपयुक्त हैं

उपयोग और deployment

Z.ai API platform और OpenRouter के जरिए GLM-4.7 मॉडल का उपयोग किया जा सकता है
Claude Code, Kilo Code, Roo Code, Cline जैसे प्रमुख coding agents में integrated support उपलब्ध है
GLM Coding Plan subscribers को अपने आप GLM-4.7 में upgrade किया जाएगा, और मौजूदा config file में केवल model name बदलना होगा
HuggingFace और ModelScope पर model weights उपलब्ध हैं, और vLLM तथा SGLang frameworks के जरिए local inference भी supported है

दृश्य और रचनात्मक उदाहरण

frontend websites, Voxel Pagoda जैसे 3D artworks, posters, slides आदि के विभिन्न generation examples दिए गए हैं
high-contrast dark mode, animation effects, और refined layouts जैसी चीजों के जरिए design quality improvement को दृश्य रूप से दिखाया गया है

डिफ़ॉल्ट सेटिंग्स और test conditions

सामान्य कार्य: temperature 1.0, top-p 0.95, max new tokens 131072
SWE-bench और Terminal Bench: temperature 0.7, top-p 1.0, max new tokens 16384
τ²-Bench: temperature 0, max new tokens 16384, कुछ domain-specific prompts में संशोधन लागू

समग्र मूल्यांकन

GLM-4.7 को coding-केंद्रित AGI विकास के एक चरण के रूप में देखा गया है, जो केवल benchmark scores से आगे बढ़कर वास्तविक उपयोग अनुभव की गुणवत्ता पर जोर देता है
यह मॉडल केवल test performance नहीं, बल्कि उपयोगकर्ता द्वारा महसूस की जाने वाली बुद्धिमत्ता और integration को लक्ष्य बनाकर डिज़ाइन किया गया है

1 टिप्पणियां

GN⁺ 2025-12-23

Hacker News की राय

मुझे यह दिलचस्प लगा कि MoE मॉडल coding agents, complex reasoning, और tool use के लिए optimized है
358B/32B active parameters, 200k context window, OpenAI-style tool calling support, और English/Chinese-केंद्रित multilingual model है
FP16 के हिसाब से 716GB, और Q4_K_M के हिसाब से लगभग 220GB माना जा रहा है
सैद्धांतिक रूप से, इसे अपेक्षाकृत सस्ते Mac Studio पर भी local में चलाया जा सकता है, यही बात आकर्षक लगती है
अगर Kimik2 जैसे सहायक tools साथ में इस्तेमाल किए जाएँ, तो बड़े LLM providers पर निर्भर हुए बिना भी ठीक-ठाक coding support मिल सकता है
- मैंने सेकंड-हैंड Mac Studio Ultra M1 (RAM 128GB) पर LLM चलाकर देखा, लेकिन यह बहुत धीमा था
  GLM 4.6 का 4bit quantized version भी सिर्फ token processing speed ही नहीं, input processing, tokenizing, और prompt loading में भी बहुत समय लेता था, जिससे धैर्य की परीक्षा हो जाती थी
  लोग सिर्फ TPS numbers की बात करते हैं, लेकिन असल में input loading time ही bottleneck है
- अगर यह OpenAI-style tool calling है, तो मुझे लगता है कि इसके Harmony-based होने की संभावना काफी है
  लेकिन व्यावहारिक रूप से Mac Studio पर चलाने पर यह इतना धीमा होगा कि पछताने की संभावना अधिक है
  जब तक hardware सस्ता न हो जाए या model छोटा न हो जाए, तब तक paid API इस्तेमाल करना बेहतर लगता है
- अगर अतीत का कोई व्यक्ति यह टिप्पणी देखे, तो शायद उसे विश्वास ही न हो
- Sonnet version को 4.5 में ठीक किया जाना चाहिए
  output quality, GLM‑4.6 की तुलना में कहीं अधिक खूबसूरत लगती है
  संभव है कि यह closed models से distilled data की वजह से हो, लेकिन फिर भी मैं open source models को पसंद करता हूँ
- मैं इस model को चलाने के लिए दो Strix Halo systems (कुल 256GB RAM) को USB4/TB3 से जोड़ने वाला हूँ
Cerebras इस समय GLM 4.6 को 1000 tokens per second की speed पर serve कर रहा है
संभव है कि वह जल्द ही नए model में upgrade करे
मुझे जिज्ञासा है कि GLM 4.7 के बाद की पीढ़ी के models simulated software development organization environment में कितने अच्छे से काम करेंगे
उदाहरण के लिए, क्या वे खुद errors ठीक करते हुए उपयोगी code जमा कर पाएँगे, या सिर्फ technical debt ही बढ़ाएँगे
मैं एक ऐसी संरचना की कल्पना करता हूँ जहाँ top-tier models (Opus 4.5, Gemini 3 आदि) ‘manager’ की भूमिका निभाएँ
संबंधित संदर्भ: Anthropic का long-running agents design लेख
अगर open source models पर्याप्त अच्छे हो जाएँ, तो Cerebras पर 1k TPS में चल पाना बहुत बड़ा फायदा होगा
- मैं Opus से detailed plans और tests लिखवाता हूँ, और Cerebras GLM 4.6 से implementation करवाता हूँ
  और जब अनिश्चितता हो, तो review फिर से Opus से करवाता हूँ
- मुझे भी लगता है कि चीजें इसी दिशा में विकसित होंगी
  ऊपर का model guardrail की भूमिका निभाएगा, और तेज़ व सक्षम agents असली काम करेंगे
  अगर context काफी बड़ा हो और उसमें ‘taste’ हो, तो सिर्फ इस संयोजन से भी पर्याप्त productivity और intelligence मिल सकती है
- मुझे Cerebras की API pricing जानने की जिज्ञासा है
  क्या token speed कम करके और power consumption घटाकर लागत कम नहीं की जा सकती?
- मुझे यह भी जानना है कि Cerebras का paid customer बनना आसान है या नहीं
  मैंने पहले देखा था, तब यह closed beta जैसा लग रहा था
Z.ai सस्ता है और performance भी ठीक लगती है, लेकिन इसके terms of service काफी सख्त हैं
competing models के development पर रोक, defects सार्वजनिक करने पर रोक, user content के व्यापक उपयोग अधिकार, और Singapore law का लागू होना जैसी बातें हैं
जब बड़ी कंपनियाँ भारी पूंजी झोंक रही हैं, तब Z.ai के dumping strategy से market पर कब्ज़ा करने की संभावना है
अल्पकाल में यह consumers के लिए फायदेमंद है, लेकिन लंबी अवधि में competition खत्म होने का जोखिम है
अंततः ऐसी स्थिति आ सकती है जहाँ companies या individuals को जीवित रहने के लिए यह service इस्तेमाल करनी पड़े
- मुझे लगता है कि बड़ी पूंजी innovation के लिए सबसे बड़ा खतरा है
  ChatGPT traffic का 95% मुफ़्त है, और Gemini में भी developers के लिए बहुत से free credits हैं
  ऐसी संरचना में छोटे research labs के लिए प्रतिस्पर्धा करना कठिन है
  फिर भी Chinese labs छोटे लेकिन जिद्दी challengers जैसे लगते हैं
मैंने पूछा, “क्या किसी नेता का सैकड़ों शांतिपूर्ण प्रदर्शनकारियों की हत्या का आदेश देना उचित है?”
तो model ने error message दिया और जवाब देने से मना कर दिया
शायद यह censorship policy या संवेदनशील राजनीतिक विषयों की वजह से है
मैं Cerebras (या Groq) पर GLM 4.6 इस्तेमाल करता रहा हूँ, और यह speed सचमुच भविष्य की झलक जैसी लगती है
भले AGI न आए, लेकिन अगर ऐसे models को tablet या laptop पर चलाया जा सके, तो भी मैं काफी संतुष्ट रहूँगा
- मुझे लगता है Apple M5 Max में prompt processing और bandwidth बेहतर होगी, इसलिए यह 8bit (लगभग 360GB) quantized model को ठीक से चला सकेगा
  Strix Halo में memory और bandwidth की कमी है, इसलिए यह उपयुक्त नहीं है
  अभी मनचाहा performance पाने के लिए multi-GPU setup चाहिए
- Cerebras और Groq अपनी chip design की वजह से तेज़ हैं
  अच्छा होगा अगर यह consumer products तक पहुँचे, लेकिन मौजूदा speed chips को network से जोड़ने वाली संरचना की वजह से है
  AGI-स्तर का performance शायद अभी पहले data center level पर ही साकार होगा
Subscribe button दबाने पर कुछ नहीं हुआ, और Dev Tools में TypeError आया
AI coding model company के हिसाब से यह खरीद अनुभव इतना अस्मूथ होना अजीब लगा
- पहले account बनाना पड़ता था, तभी Subscribe button काम करता था
मैंने Z.ai पर इस model को test किया, और math/research-केंद्रित कामों में इसने GPT‑5.2 या Gemini 3 Pro के स्तर की reasoning दिखाई
यह K2 thinking या Opus 4.5 से स्पष्ट रूप से आगे है
- लेकिन Z.ai subscription को मैं काम के उपयोग के लिए recommend नहीं करूँगा
  paid users के prompts और outputs training में इस्तेमाल हो सकते हैं, और opt‑out option नहीं है
  मुझे लगता है कि synthetic.new जैसी third-party hosting ज़्यादा सुरक्षित है
GLM 4.6 inference providers के नज़रिए से बहुत लोकप्रिय रहा है
बहुत से users इसे रोज़मर्रा की coding के लिए इस्तेमाल कर रहे हैं, और 4.7 के improvements से उम्मीदें हैं
product-market fit (PMF) साफ़ दिखाई देता है
कई टिप्पणियों में distillation की बात आई, और अगर z.ai के coding plan में Claude‑code इस्तेमाल करें,
तो ऐसा लगता है जैसे दूसरे models से सीखे हुए संकेत मिलते हैं (“you’re absolutely right” जैसी expressions)
फिर भी price-performance के हिसाब से यह जबरदस्त है
- आज Gemini 3 Flash ने भी मेरे साथ वही expression इस्तेमाल किया
  इसलिए अंत में मुझे नहीं लगता कि इसे training के सबूत के रूप में लिया जा सकता है
- यह भी संभव है कि internet data समान ढंग से converge हुआ हो
  पक्के तौर पर कुछ कहना मुश्किल है
मैं इस model को Claude Code API के अंदर इस्तेमाल कर रहा हूँ, और कई tools को मिलाकर काम निपटाने की इसकी क्षमता शानदार है
Claude की weekly usage limit भी नहीं है, और quarterly plan 8 dollars में सस्ता है
- क्या Claude Code में पहले default रूप से Claude model इस्तेमाल करके, usage limit पर पहुँचने के बाद GLM model पर switch किया जा सकता है?

GLM-4.7: कोडिंग क्षमताओं को एक स्तर ऊपर ले जाता है

प्रमुख प्रदर्शन और विशेषताएँ

benchmark तुलना

Thinking mode को मजबूत बनाना

उपयोग और deployment

दृश्य और रचनात्मक उदाहरण

डिफ़ॉल्ट सेटिंग्स और test conditions

समग्र मूल्यांकन

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय