- 196B parameters में से केवल 11B को सक्रिय करने वाली sparse Mixture of Experts architecture के साथ, यह हाई-स्पीड inference और real-time interaction को सपोर्ट करता है
- अधिकतम 350 tokens प्रति सेकंड की generation speed और 256K context window प्रदान करता है
- SWE-bench Verified 74.4% के साथ coding और agent benchmarks में स्थिर प्रदर्शन दिखाता है, और local environments (Mac Studio M4 Max, NVIDIA DGX Spark) पर भी चल सकता है
- tool-augmented reasoning और multi-agent orchestration के माध्यम से finance, data analysis, research automation जैसे वास्तविक कार्य परिदृश्यों में उच्च विश्वसनीयता और execution capability साबित करता है
- reinforcement learning आधारित MIS-PO optimization technique के साथ long-horizon reasoning stability सुनिश्चित करते हुए, high-performance models की तुलना में कम लागत पर frontier-grade reasoning और action capability प्रदान करता है
मॉडल अवलोकन और प्रदर्शन
- Step 3.5 Flash हाई-speed inference और agent capabilities को जोड़ने वाला open source आधारित foundation model है, जिसने औसत benchmark score 81.0 दर्ज किया
- GLM-4.7(78.5), DeepSeek V3.2(77.3), Kimi K2.5(80.5) जैसे प्रमुख मॉडलों से अधिक औसत स्कोर
- sparse MoE architecture में 196B में से केवल 11B parameters सक्रिय होते हैं, जिससे कुशल computation के साथ real-time response संभव होता है
- MTP-3 के आधार पर सामान्य उपयोग में 100~300 tok/s और coding tasks में अधिकतम 350 tok/s generation speed हासिल
- SWE-bench Verified 74.4%, Terminal-Bench 2.0 51.0% के साथ long-horizon code और agent tasks में स्थिर प्रदर्शन सुनिश्चित
- 256K context window को 3:1 SWA structure के साथ लागू किया गया है, जिससे लंबे context में भी cost efficiency बनी रहती है
वास्तविक उपयोग के मामले और tool उपयोग
- tool-augmented reasoning के जरिए math, coding, data analysis आदि में प्रदर्शन बेहतर होता है
- Python execution integration के साथ AIME 2025(99.8), HMMT 2025(98.0), IMOAnswerBench(86.7) आदि में बेहतर स्कोर दर्ज
- stock investment scenario में 80 से अधिक MCP tools को मिलाकर data collection, analysis और alert automation किया गया
- Autonomous Business Intelligence Engine CSV processing से prediction तक को automate करता है, और data quality gap (1.6x) की पहचान करता है
- Large-Scale Repository Architect बड़े codebase का विश्लेषण करके design patterns और implementation details को जोड़ने वाली विशेषज्ञ wiki तैयार करता है
शोध और agent प्रदर्शन
- ResearchRubrics benchmark में 65.3% के साथ Gemini DeepResearch(63.7), OpenAI DeepResearch(60.7) से अधिक स्कोर
- एकल ReAct-आधारित loop में planning, search, verification और writing process पूरा करता है
- Claude Code environment में data analysis benchmark पर 39.6% हासिल, जो GPT-5.2(39.3) से थोड़ा बेहतर है
- Multi-Agent Framework के जरिए Master Agent search, verification और summary agents का orchestration करके structured results बनाता है
- Cloud-Device Synergy में Step-GUI के साथ जोड़ने पर AndroidDaily Hard benchmark में 57 points (अकेले 40 points की तुलना में) दर्ज किए गए
architecture और तकनीकी विशेषताएँ
- Sparse MoE backbone global capacity (196B) और per-token computation (11B) को अलग करता है, जिससे inference cost और speed optimization संभव होता है
- Sliding-Window Attention + Full Attention(3:1) structure लंबे context processing में भी efficiency बनाए रखता है
- Head-wise Gated Attention सूचना प्रवाह को dynamically नियंत्रित करके numerical stability सुनिश्चित करता है
- NVIDIA Hopper GPU पर 350 tok/s decoding throughput हासिल किया गया
- INT4 GGUF quantized model के जरिए local inference (20 tok/s, 256K context) को सपोर्ट करता है
reinforcement learning framework
- Metropolis Independence Sampling Filtered Policy Optimization(MIS-PO) को अपनाया गया
- importance sampling की जगह binary filtering से unstable samples हटाए जाते हैं
- truncation-aware value bootstrapping और routing confidence monitoring के जरिए long-horizon reasoning को स्थिर किया जाता है
- यह संरचना math, coding और tool use सहित पूरे workflow में continuous self-improvement को संभव बनाती है
benchmark तुलना
- Step 3.5 Flash Reasoning, Coding, Agentic तीनों क्षेत्रों में संतुलित top-tier performance दिखाता है
- AIME 2025: 97.3 / HMMT 2025: 98.4 / LiveCodeBench-V6: 86.4
- τ²-Bench: 88.2 / BrowseComp-ZH: 66.9 / ResearchRubrics: 65.3
- decoding cost 128K context के आधार पर 1.0x है, जो DeepSeek V3.2(6.0x), Kimi K2.5(18.9x) से अधिक efficient है
सीमाएँ और आगे की दिशा
- token efficiency: Gemini 3.0 Pro की तुलना में समान गुणवत्ता के लिए अधिक लंबी generation की आवश्यकता
- expertise integration: generality और specialization के कुशल संयोजन के लिए on-policy distillation पर शोध जारी
- agentic RL expansion: पेशेवर काम और research-level complex tasks तक RL के विस्तार की योजना
- operational stability: long conversations या domain switching के दौरान repetitive reasoning और mixed-language output की संभावना
deployment और accessibility
- OpenClaw platform के साथ integrated है, इसलिए सरल installation और model registration के बाद उपयोग किया जा सकता है
- API platform (अंग्रेज़ी/चीनी), web·mobile apps(iOS/Android) के माध्यम से पहुँच उपलब्ध
- Discord community के जरिए updates और support प्रदान किया जाता है
2 टिप्पणियां
यह मॉडल काफ़ी बढ़िया है
अगर आपकी परिस्थितियाँ अनुमति देती हैं और आप इसे llama.cpp से चलाने वाले हैं, तो नीचे दिए गए थ्रेड की टिप्पणी में मौजूद prompt को अलग से लागू करना होगा। नहीं तो opening
<think>के बिना बीच में सिर्फ़ एक</think>अकेला निकल आने की समस्या होती है।https://huggingface.co/stepfun-ai/Step-3.5-Flash-GGUF-Q4_K_S/…
Hacker News की राय
मेरा मानना है कि पिछले कुछ महीनों में आए LLMs में यह सबसे कम आंका गया रिलीज़ में से एक है
मैंने इसे लोकल पर 4-bit quant वर्ज़न(Step-3.5-Flash-GGUF) के साथ टेस्ट किया, और यह Minimax 2.5 या GLM-4.7 से भी बेहतर निकला (GLM में सिर्फ 2-bit ही संभव था)
इसकी मुख्य विशेषताएँ इस प्रकार हैं
200B parameter class के मॉडल्स में CLI harness पर वास्तव में उपयोगी पहला लोकल मॉडल है। मैं इसे pi.dev के साथ इस्तेमाल कर रहा हूँ, और अब तक का सबसे अच्छा अनुभव रहा
कमी की बात करें तो इसमें infinite reasoning loop bug है (संबंधित इश्यू)
लगता है StepFun वही कंपनी है जिसने ACEStep (music generation model) भी बनाया है, और इसका ज़िक्र ComfyUI docs में भी है
कभी-कभी यह tool call ग़लत कर देता है, लेकिन Qwen द्वारा सुझाए गए temperature=1 सेटिंग पर रुकता नहीं है
Nemotron 3 Nano में tool usage कमज़ोर था, इसलिए वह ज़्यादातर shell tool ही इस्तेमाल करता था
कुल मिलाकर agentic open weight models अक्सर ऐसे tools को अच्छी तरह call नहीं कर पाते जिनसे वे परिचित नहीं हैं
जानना चाहता हूँ कि किसी ने ऐसा हिसाब लगाया है या नहीं
मेरी राय में यह model weights को ही ठीक करने वाली समस्या लगती है
हाल ही में “Walk or drive to the carwash” ट्रिक की reasoning process पढ़ना काफ़ी दिलचस्प लगा
संबंधित लिंक: gist, stepfun.ai बातचीत
कहा गया है कि इसे Terminal-Bench 2.0 पर 51.0% मिला, लेकिन क्या इससे सच में ‘स्थिर long-term task handling ability’ साबित होती है, इस पर संदेह है
leaderboard देखें तो टॉप स्कोर 75% है, इसलिए 51% लगभग SOTA के ⅔ स्तर के बराबर है
संभव है कि मॉडल ने सिर्फ command flags याद किए हों
टेस्ट करने पर hallucination काफ़ी ज़्यादा लगा। “Pokémon champion deck ढूँढो” जैसे सरल सवाल में भी यह सटीक नहीं था
Opus 4.6, Deepseek, और Kimi अपेक्षा के अनुसार अच्छे चले
यह हाल ही में जारी मॉडल Mixture of Experts (MoE) आर्किटेक्चर इस्तेमाल करता है, जिसमें प्रति token 196B में से सिर्फ 11B active होते हैं
यह Kimi K2.5 और GLM 4.7 से अधिक benchmarks में आगे है
128GB मशीन पर भी 4-bit quant वर्ज़न चल सकता है (संदर्भ लिंक)
model page देखें
हाल के मॉडल benchmark scores तो ऊँचे ला रहे हैं, लेकिन साथ में token usage explosion भी हो रहा है
असली innovation के लिए power efficiency की समस्या हल करनी होगी
MoE आर्किटेक्चर का कुशल उपयोग tokens/joule और tokens/sec दोनों पर असर डालता है
SWE-bench Verified ठीक है, लेकिन इससे बेहतर SWE benchmark की ज़रूरत है
निष्पक्ष benchmark बनाना लगातार execution cost की वजह से महँगा पड़ता है
“live benchmark” का विचार अच्छा है, लेकिन यह नए मॉडलों को पर्याप्त रूप से reflect नहीं कर पाता
दस्तावेज़ लिंक
मुझे लगता है parameter count से अधिक महत्वपूर्ण metric tokens per dollar/sec है
क्योंकि शीर्ष मॉडल लोकल inference सपोर्ट नहीं करते
उदाहरण के लिए Qwen3 0.6b का tok/dollar शानदार है, लेकिन अधिकांश उपयोगों के लिए वह पर्याप्त नहीं है
कुछ सरल टेस्ट्स में मैंने ये बातें देखीं
ग्राफ़ का x-axis उल्टा होने की वजह से भ्रम हुआ