GLM-4.7-Flash मॉडल पेश
(huggingface.co)- GLM-4.7-Flash 30B-A3B MoE आर्किटेक्चर वाला एक बड़ा language model है, जो performance और efficiency के बीच संतुलन देने वाला हल्का deployment model है
- AIME 25, GPQA, SWE-bench जैसे विभिन्न benchmark tests में उच्च स्कोर दर्ज करते हुए, समान श्रेणी के मॉडल्स (Qwen3-30B/GPT-OSS-20B) की तुलना में प्रतिस्पर्धी परिणाम दिखाता है
- 30B-स्तर के मॉडल्स में शीर्ष-स्तरीय performance का लक्ष्य रखते हुए, open source आधारित AI research और deployment efficiency के लिए एक महत्वपूर्ण प्रगति
परिचय (Introduction)
- GLM-4.7-Flash एक 30B-A3B Mixture-of-Experts(MoE) मॉडल है, जिसका लक्ष्य 30B-स्तर के मॉडल्स में सबसे शक्तिशाली performance हासिल करना है
- performance और efficiency के संतुलन पर जोर देने वाला हल्का deployment option प्रदान करता है
- बड़े मॉडलों का अधिक efficient उपयोग संभव बनाने वाला डिज़ाइन
benchmark performance (Performances on Benchmarks)
- विभिन्न मानक benchmark tests में GLM-4.7-Flash के performance metrics प्रस्तुत किए गए हैं
- AIME 25: 91.6 (Qwen3-30B-A3B-Thinking-2507 का 85.0, GPT-OSS-20B का 91.7)
- GPQA: 75.2 (तुलनात्मक मॉडलों से अधिक)
- LCB v6: 64.0
- HLE: 14.4
- SWE-bench Verified: 59.2 (अन्य मॉडलों की तुलना में बड़ा अंतर)
- τ²-Bench: 79.5
- BrowseComp: 42.8
- कई श्रेणियों में Qwen3-30B-A3B-Thinking-2507 और GPT-OSS-20B से बेहतर परिणाम दिखाता है
local deployment (Serve GLM-4.7-Flash Locally)
- GLM-4.7-Flash vLLM और SGLang inference frameworks को support करता है
- दोनों frameworks केवल main branch में supported हैं
- आधिकारिक GitHub repository (zai-org/GLM-4.5) में deployment instructions देखें
4 टिप्पणियां
30B है तो... VRAM कितनी चाहिए होगी? :(
यह 30B A3B है, इसलिए इतना भारी नहीं है।
हालाँकि 30B जितनी space तो चाहिए, लेकिन एक बार space मिल जाने पर active parameters 3B ही होते हैं, इसलिए speed तेज़ रहती है।
इसलिए मुझे लगता है कि मैंने ऐसा optimization तरीका भी देखा है, जिसमें ज़्यादा इस्तेमाल होने वाली layers को ही VRAM में लोड किया जाता है।
VRAM 24GB..? या अगर Mac है, तो कम-से-कम RAM 32GB होना ठीक लगेगा।
Hacker News की राय
VRAM पर्याप्त है, इसलिए 128k context भी आराम से इस्तेमाल कर सकता हूँ
अभी तक Qwen3-coder ने सबसे अच्छे नतीजे दिए हैं। benchmark के हिसाब से Nemotron 3 Nano बेहतर बताया जाता है, लेकिन मेरे मुख्य काम “test code लिखने” में मुझे कोई बड़ा फ़र्क महसूस नहीं हुआ
अगर कोई इसे 4bit GGUF में quantize कर दे तो मैं इसे आज़माऊँगा। Codex की quality ऊँची है, लेकिन बहुत धीमा है। उम्मीद है कि छोटे मॉडल सिर्फ़ benchmark ही नहीं, बल्कि असली quality में भी लगातार बेहतर होते जाएँ
मैं claude-code और opencode दोनों इस्तेमाल करता हूँ, लेकिन हाल में opencode ज़्यादा इस्तेमाल कर रहा हूँ। क्योंकि claude-code को Anthropic मॉडल के लिए optimize किया गया है
यह release “-Flash” version है, और पिछला 4.5-Flash से सीधे 4.6-Flash को छोड़कर यहाँ पहुँचा है। documentation के अनुसार यह Haiku के बराबर का मॉडल है, और
ANTHROPIC_DEFAULT_HAIKU_MODELके रूप में सेट हैopen model अभी भी benchmark में लगभग 1 साल पीछे हैं, लेकिन long term में दिलचस्प हैं
GLM में 355B parameters में से सिर्फ़ 31B active होते हैं, इसलिए self-host करना मुश्किल है, लेकिन Cerebras endpoint पर इस्तेमाल के लिए यह अच्छा candidate लगता है
cached tokens पर भी charge लगता है, इसलिए एक साधारण task पर ही $4 खर्च हो गए। GPT-5.2-Codex से यह $0.5 से भी कम में हो जाता
दो code prompts में इसने गलत code और infinite loop बना दिए। हो सकता है यह LMStudio की quantization method की समस्या हो, लेकिन first impression अच्छा नहीं था
संबंधित links: llama.cpp releases, GLM-4.7-Flash-GGUF, supported backends इसके बाद http://127.0.0.1:8080 पर chat कर सकते हैं या OpenAI-compatible API से access कर सकते हैं
हालाँकि, नए मॉडल release के तुरंत बाद bugs हो सकते हैं, इसलिए कुछ दिनों बाद update करना बेहतर है
ollama run hf.co/ngxson/GLM-4.7-Flash-GGUF:Q4_K_Mकमांड से भी इसे चलाया जा सकता है। speed तेज़ है, लेकिन template अभी पूरा नहीं है, इसलिए output बिखरा हुआ है। ollama.com पर official template आने का इंतज़ार है“GLM-4.7-Flash एक हल्का और उच्च-दक्षता वाला मॉडल है, जो GLM-4.7 का free version है और coding, reasoning, और generation tasks में low latency और high throughput देता है।
translation, roleplay, aesthetic generation जैसी चीज़ों में भी इसकी performance मज़बूत है।”
अधिक जानकारी के लिए official release notes देखें
अब MacBook 32GB RAM पर भी GPT-5-mini स्तर का AI local में चलाया जा सकता है
साथ ही LLM-as-a-service की cost काफ़ी कम हो गई है — Haiku 4.5 की तुलना में यह लगभग 1/10 कीमत है
GLM 4.7 रोज़मर्रा के उपयोग के लिए काफ़ी है, लेकिन कभी-कभी इसकी instruction following कमज़ोर लगती है, जो निराशाजनक है