• GLM-4.7-Flash 30B-A3B MoE आर्किटेक्चर वाला एक बड़ा language model है, जो performance और efficiency के बीच संतुलन देने वाला हल्का deployment model है
  • AIME 25, GPQA, SWE-bench जैसे विभिन्न benchmark tests में उच्च स्कोर दर्ज करते हुए, समान श्रेणी के मॉडल्स (Qwen3-30B/GPT-OSS-20B) की तुलना में प्रतिस्पर्धी परिणाम दिखाता है
  • 30B-स्तर के मॉडल्स में शीर्ष-स्तरीय performance का लक्ष्य रखते हुए, open source आधारित AI research और deployment efficiency के लिए एक महत्वपूर्ण प्रगति

परिचय (Introduction)

  • GLM-4.7-Flash एक 30B-A3B Mixture-of-Experts(MoE) मॉडल है, जिसका लक्ष्य 30B-स्तर के मॉडल्स में सबसे शक्तिशाली performance हासिल करना है
    • performance और efficiency के संतुलन पर जोर देने वाला हल्का deployment option प्रदान करता है
    • बड़े मॉडलों का अधिक efficient उपयोग संभव बनाने वाला डिज़ाइन

benchmark performance (Performances on Benchmarks)

  • विभिन्न मानक benchmark tests में GLM-4.7-Flash के performance metrics प्रस्तुत किए गए हैं
    • AIME 25: 91.6 (Qwen3-30B-A3B-Thinking-2507 का 85.0, GPT-OSS-20B का 91.7)
    • GPQA: 75.2 (तुलनात्मक मॉडलों से अधिक)
    • LCB v6: 64.0
    • HLE: 14.4
    • SWE-bench Verified: 59.2 (अन्य मॉडलों की तुलना में बड़ा अंतर)
    • τ²-Bench: 79.5
    • BrowseComp: 42.8
  • कई श्रेणियों में Qwen3-30B-A3B-Thinking-2507 और GPT-OSS-20B से बेहतर परिणाम दिखाता है

local deployment (Serve GLM-4.7-Flash Locally)

  • GLM-4.7-Flash vLLM और SGLang inference frameworks को support करता है
    • दोनों frameworks केवल main branch में supported हैं
    • आधिकारिक GitHub repository (zai-org/GLM-4.5) में deployment instructions देखें

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.