11 पॉइंट द्वारा GN⁺ 2026-01-20 | 4 टिप्पणियां | WhatsApp पर शेयर करें
  • GLM-4.7-Flash 30B-A3B MoE आर्किटेक्चर वाला एक बड़ा language model है, जो performance और efficiency के बीच संतुलन देने वाला हल्का deployment model है
  • AIME 25, GPQA, SWE-bench जैसे विभिन्न benchmark tests में उच्च स्कोर दर्ज करते हुए, समान श्रेणी के मॉडल्स (Qwen3-30B/GPT-OSS-20B) की तुलना में प्रतिस्पर्धी परिणाम दिखाता है
  • 30B-स्तर के मॉडल्स में शीर्ष-स्तरीय performance का लक्ष्य रखते हुए, open source आधारित AI research और deployment efficiency के लिए एक महत्वपूर्ण प्रगति

परिचय (Introduction)

  • GLM-4.7-Flash एक 30B-A3B Mixture-of-Experts(MoE) मॉडल है, जिसका लक्ष्य 30B-स्तर के मॉडल्स में सबसे शक्तिशाली performance हासिल करना है
    • performance और efficiency के संतुलन पर जोर देने वाला हल्का deployment option प्रदान करता है
    • बड़े मॉडलों का अधिक efficient उपयोग संभव बनाने वाला डिज़ाइन

benchmark performance (Performances on Benchmarks)

  • विभिन्न मानक benchmark tests में GLM-4.7-Flash के performance metrics प्रस्तुत किए गए हैं
    • AIME 25: 91.6 (Qwen3-30B-A3B-Thinking-2507 का 85.0, GPT-OSS-20B का 91.7)
    • GPQA: 75.2 (तुलनात्मक मॉडलों से अधिक)
    • LCB v6: 64.0
    • HLE: 14.4
    • SWE-bench Verified: 59.2 (अन्य मॉडलों की तुलना में बड़ा अंतर)
    • τ²-Bench: 79.5
    • BrowseComp: 42.8
    विज्ञापन
  • कई श्रेणियों में Qwen3-30B-A3B-Thinking-2507 और GPT-OSS-20B से बेहतर परिणाम दिखाता है

local deployment (Serve GLM-4.7-Flash Locally)

  • GLM-4.7-Flash vLLM और SGLang inference frameworks को support करता है
    • दोनों frameworks केवल main branch में supported हैं
    • आधिकारिक GitHub repository (zai-org/GLM-4.5) में deployment instructions देखें

4 टिप्पणियां

 
kimjoin2 2026-01-20

30B है तो... VRAM कितनी चाहिए होगी? :(

 
crawler 2026-01-21

यह 30B A3B है, इसलिए इतना भारी नहीं है।
हालाँकि 30B जितनी space तो चाहिए, लेकिन एक बार space मिल जाने पर active parameters 3B ही होते हैं, इसलिए speed तेज़ रहती है।

इसलिए मुझे लगता है कि मैंने ऐसा optimization तरीका भी देखा है, जिसमें ज़्यादा इस्तेमाल होने वाली layers को ही VRAM में लोड किया जाता है।

 
geekygeek 2026-01-20

VRAM 24GB..? या अगर Mac है, तो कम-से-कम RAM 32GB होना ठीक लगेगा।

 
GN⁺ 2026-01-20
Hacker News की राय
  • मैं हाल ही में OpenCode के साथ प्रयोग कर रहा हूँ, और 32GB GPU पर llama.cpp(4bit) से 30B-A3B मॉडल चला रहा हूँ
    VRAM पर्याप्त है, इसलिए 128k context भी आराम से इस्तेमाल कर सकता हूँ
    अभी तक Qwen3-coder ने सबसे अच्छे नतीजे दिए हैं। benchmark के हिसाब से Nemotron 3 Nano बेहतर बताया जाता है, लेकिन मेरे मुख्य काम “test code लिखने” में मुझे कोई बड़ा फ़र्क महसूस नहीं हुआ
    अगर कोई इसे 4bit GGUF में quantize कर दे तो मैं इसे आज़माऊँगा। Codex की quality ऊँची है, लेकिन बहुत धीमा है। उम्मीद है कि छोटे मॉडल सिर्फ़ benchmark ही नहीं, बल्कि असली quality में भी लगातार बेहतर होते जाएँ
    • मैं GLM-4.7-GGUF मॉडल की सिफारिश करता हूँ। दूसरे अच्छे quantization काम 0xSero पर भी देखे जा सकते हैं
    • Codex आम तौर पर बेहतर quality देता है, लेकिन कभी-कभी AI slop स्तर का output देता है, जिससे Opus पर कुछ मिनट में पूरा होने वाला काम भी बेवजह लंबा इंतज़ार करवाता है
  • मैं z.ai के coding plan पर GLM-4.7 इस्तेमाल कर रहा हूँ, और price-to-performance हैरान करने वाली है
    मैं claude-code और opencode दोनों इस्तेमाल करता हूँ, लेकिन हाल में opencode ज़्यादा इस्तेमाल कर रहा हूँ। क्योंकि claude-code को Anthropic मॉडल के लिए optimize किया गया है
    यह release “-Flash” version है, और पिछला 4.5-Flash से सीधे 4.6-Flash को छोड़कर यहाँ पहुँचा है। documentation के अनुसार यह Haiku के बराबर का मॉडल है, और ANTHROPIC_DEFAULT_HAIKU_MODEL के रूप में सेट है
    • मुझे जानना है कि हाल की performance कैसी है। सुना है कुछ users के लिए limits बदल गई हैं, इसलिए वे इसे लगभग इस्तेमाल ही नहीं कर पा रहे
    • मैं भी वही plan इस्तेमाल कर रहा हूँ। promotion में 12 महीनों के लिए $28 में खरीदा था, और यह Claude Pro से 5 गुना usage देता है। अभी मैं सिर्फ़ claude code इस्तेमाल कर रहा हूँ
  • GLM-4.7 incremental improvement है, लेकिन काफ़ी solid लग रहा है। UI oneshot demo 4.6 से काफ़ी बेहतर था
    open model अभी भी benchmark में लगभग 1 साल पीछे हैं, लेकिन long term में दिलचस्प हैं
    GLM में 355B parameters में से सिर्फ़ 31B active होते हैं, इसलिए self-host करना मुश्किल है, लेकिन Cerebras endpoint पर इस्तेमाल के लिए यह अच्छा candidate लगता है
    • मैंने कल Cerebras पर GLM-4.7 (Flash नहीं) को $10 credit से test किया। 1000 token प्रति सेकंड की speed तेज़ है, लेकिन rate limit की वजह से real-world use असुविधाजनक है। cached tokens भी limit में गिने जाते हैं, इसलिए हर मिनट की शुरुआत में block होकर इंतज़ार करना पड़ता है
      cached tokens पर भी charge लगता है, इसलिए एक साधारण task पर ही $4 खर्च हो गए। GPT-5.2-Codex से यह $0.5 से भी कम में हो जाता
    • benchmark की बहुत बात होती है, लेकिन वह असली workload से अलग है। मैंने claude छोड़कर minimax m2.1 पर switch किया है। open code के साथ इस्तेमाल किया तो मुझे यह ज़्यादा पसंद आया। $10 plan काफ़ी है
    • open model आख़िरकार distillation से ही पीछा करते हैं, इसलिए innovation न हो तो वे हमेशा पीछे रहेंगे। “पकड़ लेना” से ज़्यादा यह चलती ट्रक से बंधे trailer जैसा है
    • UI demo से model quality जज करना सही नहीं है। अगर UI distribution के बाहर हो, तो ज़्यादातर मॉडल fail हो जाते हैं। Codex भी perfect नहीं है
  • मैंने इसे LMStudio में M4 MacBook Pro पर चलाकर देखा, और यह gpt-oss-20b से काफ़ी खराब था
    दो code prompts में इसने गलत code और infinite loop बना दिए। हो सकता है यह LMStudio की quantization method की समस्या हो, लेकिन first impression अच्छा नहीं था
    • क्या आप BF16 full model इस्तेमाल कर रहे हैं, या mlx4 quantization version?
  • मैं उन लोगों से पूछना चाहता हूँ जो इसे local पर पहले से चला रहे हैं — अभी सबसे आसान setup (tooling + quantization format) क्या है? अगर काम करने वाले command examples हों तो कृपया साझा करें
    • मैं llama.cpp के CUDA backend से compile किए हुए llama-server का इस्तेमाल कर रहा हूँ। Lubuntu + RTX 3090 environment में Q4_K_M quant version चला रहा हूँ
      संबंधित links: llama.cpp releases, GLM-4.7-Flash-GGUF, supported backends
      llama-server -ngl 999 --ctx-size 32768 -m GLM-4.7-Flash-Q4_K_M.gguf
      
      इसके बाद http://127.0.0.1:8080 पर chat कर सकते हैं या OpenAI-compatible API से access कर सकते हैं
      हालाँकि, नए मॉडल release के तुरंत बाद bugs हो सकते हैं, इसलिए कुछ दिनों बाद update करना बेहतर है
    • ollama run hf.co/ngxson/GLM-4.7-Flash-GGUF:Q4_K_M कमांड से भी इसे चलाया जा सकता है। speed तेज़ है, लेकिन template अभी पूरा नहीं है, इसलिए output बिखरा हुआ है। ollama.com पर official template आने का इंतज़ार है
    • LM Studio में “4.7-flash” खोजकर mlx community version install कर लें
    • व्यक्तिगत रूप से मैं llama.cpp 4bit quant या उसके wrapper की सिफारिश करूँगा
  • इस release के विवरण के अनुसार,
    “GLM-4.7-Flash एक हल्का और उच्च-दक्षता वाला मॉडल है, जो GLM-4.7 का free version है और coding, reasoning, और generation tasks में low latency और high throughput देता है।
    translation, roleplay, aesthetic generation जैसी चीज़ों में भी इसकी performance मज़बूत है।”
    अधिक जानकारी के लिए official release notes देखें
    • इस साल पोस्ट किए गए दो notes गलती से 2025 के रूप में दिख रहे हैं। लगता है यह manually maintained page हो सकता है
  • जो लोग जानना चाहते हैं कि यह release क्यों महत्वपूर्ण है, उनके लिए,
    अब MacBook 32GB RAM पर भी GPT-5-mini स्तर का AI local में चलाया जा सकता है
    साथ ही LLM-as-a-service की cost काफ़ी कम हो गई है — Haiku 4.5 की तुलना में यह लगभग 1/10 कीमत है
  • SWE-bench Verified score 59.2 है, जो 30B मॉडल के लिए काफ़ी प्रभावशाली है। यह Qwen3-Coder 480B के 55.4 से ऊँचा है
    • Devstral 2 Small(24B) 68.0% के साथ इससे ऊँचा है। official link
    • लेकिन SWE-Bench Verified पर अब भरोसा करना मुश्किल है। repository और language सीमित हैं, और data memorization problem भी है। SWE-Bench Pro ज़्यादा promising है, लेकिन वह भी perfect नहीं है
  • जब मुझे तेज़ काम चाहिए होता है, तो मैं Gemini या Cerebras इस्तेमाल करता हूँ। Cerebras blog देखें
    GLM 4.7 रोज़मर्रा के उपयोग के लिए काफ़ी है, लेकिन कभी-कभी इसकी instruction following कमज़ोर लगती है, जो निराशाजनक है
    • मेरे लिए Opus 4.5 की अच्छी बात भी वही instruction handling है। उम्मीद है अगले version में यह बेहतर होगा
  • GLM 4.7 की तुलना GPT-OSS-20B से की जा रही है, यह मुझे कम भरोसेमंद लगता है। अगर यह Sonnet 4/4.5 स्तर का है, तो Flash version को GPT-OSS-120B को साफ़ तौर पर पीछे छोड़ना चाहिए। काश Aider results भी दिए गए होते
    • 30-A3B से 117-A5.1B को पार करने की उम्मीद करना कुछ ज़्यादा है। लेकिन agent call के मामले में यह GPT-20B से बेहतर लगता है
    • असल में इस्तेमाल करने पर benchmark बढ़ा-चढ़ाकर लगे। साधारण कामों के लिए ठीक है, लेकिन Sonnet से काफ़ी पीछे है। फिर भी value for money अच्छा है
    • code quality के हिसाब से यह Sonnet 3.5 स्तर का है। Sonnet 4/4.5 से अभी दूर है