• 196B parameters में से केवल 11B को सक्रिय करने वाली sparse Mixture of Experts architecture के साथ, यह हाई-स्पीड inference और real-time interaction को सपोर्ट करता है
  • अधिकतम 350 tokens प्रति सेकंड की generation speed और 256K context window प्रदान करता है
  • SWE-bench Verified 74.4% के साथ coding और agent benchmarks में स्थिर प्रदर्शन दिखाता है, और local environments (Mac Studio M4 Max, NVIDIA DGX Spark) पर भी चल सकता है
  • tool-augmented reasoning और multi-agent orchestration के माध्यम से finance, data analysis, research automation जैसे वास्तविक कार्य परिदृश्यों में उच्च विश्वसनीयता और execution capability साबित करता है
  • reinforcement learning आधारित MIS-PO optimization technique के साथ long-horizon reasoning stability सुनिश्चित करते हुए, high-performance models की तुलना में कम लागत पर frontier-grade reasoning और action capability प्रदान करता है

मॉडल अवलोकन और प्रदर्शन

  • Step 3.5 Flash हाई-speed inference और agent capabilities को जोड़ने वाला open source आधारित foundation model है, जिसने औसत benchmark score 81.0 दर्ज किया
    • GLM-4.7(78.5), DeepSeek V3.2(77.3), Kimi K2.5(80.5) जैसे प्रमुख मॉडलों से अधिक औसत स्कोर
  • sparse MoE architecture में 196B में से केवल 11B parameters सक्रिय होते हैं, जिससे कुशल computation के साथ real-time response संभव होता है
  • MTP-3 के आधार पर सामान्य उपयोग में 100~300 tok/s और coding tasks में अधिकतम 350 tok/s generation speed हासिल
  • SWE-bench Verified 74.4%, Terminal-Bench 2.0 51.0% के साथ long-horizon code और agent tasks में स्थिर प्रदर्शन सुनिश्चित
  • 256K context window को 3:1 SWA structure के साथ लागू किया गया है, जिससे लंबे context में भी cost efficiency बनी रहती है

वास्तविक उपयोग के मामले और tool उपयोग

  • tool-augmented reasoning के जरिए math, coding, data analysis आदि में प्रदर्शन बेहतर होता है
    • Python execution integration के साथ AIME 2025(99.8), HMMT 2025(98.0), IMOAnswerBench(86.7) आदि में बेहतर स्कोर दर्ज
  • stock investment scenario में 80 से अधिक MCP tools को मिलाकर data collection, analysis और alert automation किया गया
  • Autonomous Business Intelligence Engine CSV processing से prediction तक को automate करता है, और data quality gap (1.6x) की पहचान करता है
  • Large-Scale Repository Architect बड़े codebase का विश्लेषण करके design patterns और implementation details को जोड़ने वाली विशेषज्ञ wiki तैयार करता है

शोध और agent प्रदर्शन

  • ResearchRubrics benchmark में 65.3% के साथ Gemini DeepResearch(63.7), OpenAI DeepResearch(60.7) से अधिक स्कोर
    • एकल ReAct-आधारित loop में planning, search, verification और writing process पूरा करता है
  • Claude Code environment में data analysis benchmark पर 39.6% हासिल, जो GPT-5.2(39.3) से थोड़ा बेहतर है
  • Multi-Agent Framework के जरिए Master Agent search, verification और summary agents का orchestration करके structured results बनाता है
  • Cloud-Device Synergy में Step-GUI के साथ जोड़ने पर AndroidDaily Hard benchmark में 57 points (अकेले 40 points की तुलना में) दर्ज किए गए

architecture और तकनीकी विशेषताएँ

  • Sparse MoE backbone global capacity (196B) और per-token computation (11B) को अलग करता है, जिससे inference cost और speed optimization संभव होता है
  • Sliding-Window Attention + Full Attention(3:1) structure लंबे context processing में भी efficiency बनाए रखता है
  • Head-wise Gated Attention सूचना प्रवाह को dynamically नियंत्रित करके numerical stability सुनिश्चित करता है
  • NVIDIA Hopper GPU पर 350 tok/s decoding throughput हासिल किया गया
  • INT4 GGUF quantized model के जरिए local inference (20 tok/s, 256K context) को सपोर्ट करता है

reinforcement learning framework

  • Metropolis Independence Sampling Filtered Policy Optimization(MIS-PO) को अपनाया गया
    • importance sampling की जगह binary filtering से unstable samples हटाए जाते हैं
    • truncation-aware value bootstrapping और routing confidence monitoring के जरिए long-horizon reasoning को स्थिर किया जाता है
  • यह संरचना math, coding और tool use सहित पूरे workflow में continuous self-improvement को संभव बनाती है

benchmark तुलना

  • Step 3.5 Flash Reasoning, Coding, Agentic तीनों क्षेत्रों में संतुलित top-tier performance दिखाता है
    • AIME 2025: 97.3 / HMMT 2025: 98.4 / LiveCodeBench-V6: 86.4
    • τ²-Bench: 88.2 / BrowseComp-ZH: 66.9 / ResearchRubrics: 65.3
  • decoding cost 128K context के आधार पर 1.0x है, जो DeepSeek V3.2(6.0x), Kimi K2.5(18.9x) से अधिक efficient है

सीमाएँ और आगे की दिशा

  • token efficiency: Gemini 3.0 Pro की तुलना में समान गुणवत्ता के लिए अधिक लंबी generation की आवश्यकता
  • expertise integration: generality और specialization के कुशल संयोजन के लिए on-policy distillation पर शोध जारी
  • agentic RL expansion: पेशेवर काम और research-level complex tasks तक RL के विस्तार की योजना
  • operational stability: long conversations या domain switching के दौरान repetitive reasoning और mixed-language output की संभावना

deployment और accessibility

  • OpenClaw platform के साथ integrated है, इसलिए सरल installation और model registration के बाद उपयोग किया जा सकता है
  • API platform (अंग्रेज़ी/चीनी), web·mobile apps(iOS/Android) के माध्यम से पहुँच उपलब्ध
  • Discord community के जरिए updates और support प्रदान किया जाता है

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.