Step 3.5 Flash – हाई-स्पीड inference को सपोर्ट करने वाला open source LLM

(static.stepfun.com)

20 पॉइंट द्वारा GN⁺ 2026-02-20 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

196B parameters में से केवल 11B को सक्रिय करने वाली sparse Mixture of Experts architecture के साथ, यह हाई-स्पीड inference और real-time interaction को सपोर्ट करता है
अधिकतम 350 tokens प्रति सेकंड की generation speed और 256K context window प्रदान करता है
SWE-bench Verified 74.4% के साथ coding और agent benchmarks में स्थिर प्रदर्शन दिखाता है, और local environments (Mac Studio M4 Max, NVIDIA DGX Spark) पर भी चल सकता है
tool-augmented reasoning और multi-agent orchestration के माध्यम से finance, data analysis, research automation जैसे वास्तविक कार्य परिदृश्यों में उच्च विश्वसनीयता और execution capability साबित करता है
reinforcement learning आधारित MIS-PO optimization technique के साथ long-horizon reasoning stability सुनिश्चित करते हुए, high-performance models की तुलना में कम लागत पर frontier-grade reasoning और action capability प्रदान करता है

मॉडल अवलोकन और प्रदर्शन

Step 3.5 Flash हाई-speed inference और agent capabilities को जोड़ने वाला open source आधारित foundation model है, जिसने औसत benchmark score 81.0 दर्ज किया
- GLM-4.7(78.5), DeepSeek V3.2(77.3), Kimi K2.5(80.5) जैसे प्रमुख मॉडलों से अधिक औसत स्कोर
sparse MoE architecture में 196B में से केवल 11B parameters सक्रिय होते हैं, जिससे कुशल computation के साथ real-time response संभव होता है
MTP-3 के आधार पर सामान्य उपयोग में 100~300 tok/s और coding tasks में अधिकतम 350 tok/s generation speed हासिल
SWE-bench Verified 74.4%, Terminal-Bench 2.0 51.0% के साथ long-horizon code और agent tasks में स्थिर प्रदर्शन सुनिश्चित
256K context window को 3:1 SWA structure के साथ लागू किया गया है, जिससे लंबे context में भी cost efficiency बनी रहती है

वास्तविक उपयोग के मामले और tool उपयोग

tool-augmented reasoning के जरिए math, coding, data analysis आदि में प्रदर्शन बेहतर होता है
- Python execution integration के साथ AIME 2025(99.8), HMMT 2025(98.0), IMOAnswerBench(86.7) आदि में बेहतर स्कोर दर्ज
stock investment scenario में 80 से अधिक MCP tools को मिलाकर data collection, analysis और alert automation किया गया
Autonomous Business Intelligence Engine CSV processing से prediction तक को automate करता है, और data quality gap (1.6x) की पहचान करता है
Large-Scale Repository Architect बड़े codebase का विश्लेषण करके design patterns और implementation details को जोड़ने वाली विशेषज्ञ wiki तैयार करता है

शोध और agent प्रदर्शन

ResearchRubrics benchmark में 65.3% के साथ Gemini DeepResearch(63.7), OpenAI DeepResearch(60.7) से अधिक स्कोर
- एकल ReAct-आधारित loop में planning, search, verification और writing process पूरा करता है
Claude Code environment में data analysis benchmark पर 39.6% हासिल, जो GPT-5.2(39.3) से थोड़ा बेहतर है
Multi-Agent Framework के जरिए Master Agent search, verification और summary agents का orchestration करके structured results बनाता है
Cloud-Device Synergy में Step-GUI के साथ जोड़ने पर AndroidDaily Hard benchmark में 57 points (अकेले 40 points की तुलना में) दर्ज किए गए

architecture और तकनीकी विशेषताएँ

Sparse MoE backbone global capacity (196B) और per-token computation (11B) को अलग करता है, जिससे inference cost और speed optimization संभव होता है
Sliding-Window Attention + Full Attention(3:1) structure लंबे context processing में भी efficiency बनाए रखता है
Head-wise Gated Attention सूचना प्रवाह को dynamically नियंत्रित करके numerical stability सुनिश्चित करता है
NVIDIA Hopper GPU पर 350 tok/s decoding throughput हासिल किया गया
INT4 GGUF quantized model के जरिए local inference (20 tok/s, 256K context) को सपोर्ट करता है

reinforcement learning framework

Metropolis Independence Sampling Filtered Policy Optimization(MIS-PO) को अपनाया गया
- importance sampling की जगह binary filtering से unstable samples हटाए जाते हैं
- truncation-aware value bootstrapping और routing confidence monitoring के जरिए long-horizon reasoning को स्थिर किया जाता है
यह संरचना math, coding और tool use सहित पूरे workflow में continuous self-improvement को संभव बनाती है

benchmark तुलना

Step 3.5 Flash Reasoning, Coding, Agentic तीनों क्षेत्रों में संतुलित top-tier performance दिखाता है
- AIME 2025: 97.3 / HMMT 2025: 98.4 / LiveCodeBench-V6: 86.4
- τ²-Bench: 88.2 / BrowseComp-ZH: 66.9 / ResearchRubrics: 65.3
decoding cost 128K context के आधार पर 1.0x है, जो DeepSeek V3.2(6.0x), Kimi K2.5(18.9x) से अधिक efficient है

सीमाएँ और आगे की दिशा

token efficiency: Gemini 3.0 Pro की तुलना में समान गुणवत्ता के लिए अधिक लंबी generation की आवश्यकता
expertise integration: generality और specialization के कुशल संयोजन के लिए on-policy distillation पर शोध जारी
agentic RL expansion: पेशेवर काम और research-level complex tasks तक RL के विस्तार की योजना
operational stability: long conversations या domain switching के दौरान repetitive reasoning और mixed-language output की संभावना

deployment और accessibility

OpenClaw platform के साथ integrated है, इसलिए सरल installation और model registration के बाद उपयोग किया जा सकता है
API platform (अंग्रेज़ी/चीनी), web·mobile apps(iOS/Android) के माध्यम से पहुँच उपलब्ध
Discord community के जरिए updates और support प्रदान किया जाता है

Step 3.5 Flash – हाई-स्पीड inference को सपोर्ट करने वाला open source LLM

मॉडल अवलोकन और प्रदर्शन

वास्तविक उपयोग के मामले और tool उपयोग

शोध और agent प्रदर्शन

architecture और तकनीकी विशेषताएँ

reinforcement learning framework

benchmark तुलना

सीमाएँ और आगे की दिशा

deployment और accessibility

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.