- 196B parameters में से केवल 11B को सक्रिय करने वाली sparse Mixture of Experts architecture के साथ, यह हाई-स्पीड inference और real-time interaction को सपोर्ट करता है
- अधिकतम 350 tokens प्रति सेकंड की generation speed और 256K context window प्रदान करता है
- SWE-bench Verified 74.4% के साथ coding और agent benchmarks में स्थिर प्रदर्शन दिखाता है, और local environments (Mac Studio M4 Max, NVIDIA DGX Spark) पर भी चल सकता है
- tool-augmented reasoning और multi-agent orchestration के माध्यम से finance, data analysis, research automation जैसे वास्तविक कार्य परिदृश्यों में उच्च विश्वसनीयता और execution capability साबित करता है
- reinforcement learning आधारित MIS-PO optimization technique के साथ long-horizon reasoning stability सुनिश्चित करते हुए, high-performance models की तुलना में कम लागत पर frontier-grade reasoning और action capability प्रदान करता है
मॉडल अवलोकन और प्रदर्शन
- Step 3.5 Flash हाई-speed inference और agent capabilities को जोड़ने वाला open source आधारित foundation model है, जिसने औसत benchmark score 81.0 दर्ज किया
- GLM-4.7(78.5), DeepSeek V3.2(77.3), Kimi K2.5(80.5) जैसे प्रमुख मॉडलों से अधिक औसत स्कोर
- sparse MoE architecture में 196B में से केवल 11B parameters सक्रिय होते हैं, जिससे कुशल computation के साथ real-time response संभव होता है
- MTP-3 के आधार पर सामान्य उपयोग में 100~300 tok/s और coding tasks में अधिकतम 350 tok/s generation speed हासिल
- SWE-bench Verified 74.4%, Terminal-Bench 2.0 51.0% के साथ long-horizon code और agent tasks में स्थिर प्रदर्शन सुनिश्चित
- 256K context window को 3:1 SWA structure के साथ लागू किया गया है, जिससे लंबे context में भी cost efficiency बनी रहती है
वास्तविक उपयोग के मामले और tool उपयोग
- tool-augmented reasoning के जरिए math, coding, data analysis आदि में प्रदर्शन बेहतर होता है
- Python execution integration के साथ AIME 2025(99.8), HMMT 2025(98.0), IMOAnswerBench(86.7) आदि में बेहतर स्कोर दर्ज
- stock investment scenario में 80 से अधिक MCP tools को मिलाकर data collection, analysis और alert automation किया गया
- Autonomous Business Intelligence Engine CSV processing से prediction तक को automate करता है, और data quality gap (1.6x) की पहचान करता है
- Large-Scale Repository Architect बड़े codebase का विश्लेषण करके design patterns और implementation details को जोड़ने वाली विशेषज्ञ wiki तैयार करता है
शोध और agent प्रदर्शन
- ResearchRubrics benchmark में 65.3% के साथ Gemini DeepResearch(63.7), OpenAI DeepResearch(60.7) से अधिक स्कोर
- एकल ReAct-आधारित loop में planning, search, verification और writing process पूरा करता है
- Claude Code environment में data analysis benchmark पर 39.6% हासिल, जो GPT-5.2(39.3) से थोड़ा बेहतर है
- Multi-Agent Framework के जरिए Master Agent search, verification और summary agents का orchestration करके structured results बनाता है
- Cloud-Device Synergy में Step-GUI के साथ जोड़ने पर AndroidDaily Hard benchmark में 57 points (अकेले 40 points की तुलना में) दर्ज किए गए
architecture और तकनीकी विशेषताएँ
- Sparse MoE backbone global capacity (196B) और per-token computation (11B) को अलग करता है, जिससे inference cost और speed optimization संभव होता है
- Sliding-Window Attention + Full Attention(3:1) structure लंबे context processing में भी efficiency बनाए रखता है
- Head-wise Gated Attention सूचना प्रवाह को dynamically नियंत्रित करके numerical stability सुनिश्चित करता है
- NVIDIA Hopper GPU पर 350 tok/s decoding throughput हासिल किया गया
- INT4 GGUF quantized model के जरिए local inference (20 tok/s, 256K context) को सपोर्ट करता है
reinforcement learning framework
- Metropolis Independence Sampling Filtered Policy Optimization(MIS-PO) को अपनाया गया
- importance sampling की जगह binary filtering से unstable samples हटाए जाते हैं
- truncation-aware value bootstrapping और routing confidence monitoring के जरिए long-horizon reasoning को स्थिर किया जाता है
- यह संरचना math, coding और tool use सहित पूरे workflow में continuous self-improvement को संभव बनाती है
benchmark तुलना
- Step 3.5 Flash Reasoning, Coding, Agentic तीनों क्षेत्रों में संतुलित top-tier performance दिखाता है
- AIME 2025: 97.3 / HMMT 2025: 98.4 / LiveCodeBench-V6: 86.4
- τ²-Bench: 88.2 / BrowseComp-ZH: 66.9 / ResearchRubrics: 65.3
- decoding cost 128K context के आधार पर 1.0x है, जो DeepSeek V3.2(6.0x), Kimi K2.5(18.9x) से अधिक efficient है
सीमाएँ और आगे की दिशा
- token efficiency: Gemini 3.0 Pro की तुलना में समान गुणवत्ता के लिए अधिक लंबी generation की आवश्यकता
- expertise integration: generality और specialization के कुशल संयोजन के लिए on-policy distillation पर शोध जारी
- agentic RL expansion: पेशेवर काम और research-level complex tasks तक RL के विस्तार की योजना
- operational stability: long conversations या domain switching के दौरान repetitive reasoning और mixed-language output की संभावना
deployment और accessibility
- OpenClaw platform के साथ integrated है, इसलिए सरल installation और model registration के बाद उपयोग किया जा सकता है
- API platform (अंग्रेज़ी/चीनी), web·mobile apps(iOS/Android) के माध्यम से पहुँच उपलब्ध
- Discord community के जरिए updates और support प्रदान किया जाता है
अभी कोई टिप्पणी नहीं है.