Step 3.5 Flash – हाई-स्पीड inference को सपोर्ट करने वाला open source LLM

(static.stepfun.com)

20 पॉइंट द्वारा GN⁺ 2026-02-20 | 2 टिप्पणियां | WhatsApp पर शेयर करें

196B parameters में से केवल 11B को सक्रिय करने वाली sparse Mixture of Experts architecture के साथ, यह हाई-स्पीड inference और real-time interaction को सपोर्ट करता है
अधिकतम 350 tokens प्रति सेकंड की generation speed और 256K context window प्रदान करता है
SWE-bench Verified 74.4% के साथ coding और agent benchmarks में स्थिर प्रदर्शन दिखाता है, और local environments (Mac Studio M4 Max, NVIDIA DGX Spark) पर भी चल सकता है
tool-augmented reasoning और multi-agent orchestration के माध्यम से finance, data analysis, research automation जैसे वास्तविक कार्य परिदृश्यों में उच्च विश्वसनीयता और execution capability साबित करता है
reinforcement learning आधारित MIS-PO optimization technique के साथ long-horizon reasoning stability सुनिश्चित करते हुए, high-performance models की तुलना में कम लागत पर frontier-grade reasoning और action capability प्रदान करता है

मॉडल अवलोकन और प्रदर्शन

Step 3.5 Flash हाई-speed inference और agent capabilities को जोड़ने वाला open source आधारित foundation model है, जिसने औसत benchmark score 81.0 दर्ज किया
- GLM-4.7(78.5), DeepSeek V3.2(77.3), Kimi K2.5(80.5) जैसे प्रमुख मॉडलों से अधिक औसत स्कोर
sparse MoE architecture में 196B में से केवल 11B parameters सक्रिय होते हैं, जिससे कुशल computation के साथ real-time response संभव होता है
MTP-3 के आधार पर सामान्य उपयोग में 100~300 tok/s और coding tasks में अधिकतम 350 tok/s generation speed हासिल
SWE-bench Verified 74.4%, Terminal-Bench 2.0 51.0% के साथ long-horizon code और agent tasks में स्थिर प्रदर्शन सुनिश्चित
256K context window को 3:1 SWA structure के साथ लागू किया गया है, जिससे लंबे context में भी cost efficiency बनी रहती है

वास्तविक उपयोग के मामले और tool उपयोग

tool-augmented reasoning के जरिए math, coding, data analysis आदि में प्रदर्शन बेहतर होता है
- Python execution integration के साथ AIME 2025(99.8), HMMT 2025(98.0), IMOAnswerBench(86.7) आदि में बेहतर स्कोर दर्ज
stock investment scenario में 80 से अधिक MCP tools को मिलाकर data collection, analysis और alert automation किया गया
Autonomous Business Intelligence Engine CSV processing से prediction तक को automate करता है, और data quality gap (1.6x) की पहचान करता है
Large-Scale Repository Architect बड़े codebase का विश्लेषण करके design patterns और implementation details को जोड़ने वाली विशेषज्ञ wiki तैयार करता है

शोध और agent प्रदर्शन

ResearchRubrics benchmark में 65.3% के साथ Gemini DeepResearch(63.7), OpenAI DeepResearch(60.7) से अधिक स्कोर
- एकल ReAct-आधारित loop में planning, search, verification और writing process पूरा करता है
Claude Code environment में data analysis benchmark पर 39.6% हासिल, जो GPT-5.2(39.3) से थोड़ा बेहतर है
Multi-Agent Framework के जरिए Master Agent search, verification और summary agents का orchestration करके structured results बनाता है
Cloud-Device Synergy में Step-GUI के साथ जोड़ने पर AndroidDaily Hard benchmark में 57 points (अकेले 40 points की तुलना में) दर्ज किए गए

architecture और तकनीकी विशेषताएँ

Sparse MoE backbone global capacity (196B) और per-token computation (11B) को अलग करता है, जिससे inference cost और speed optimization संभव होता है
Sliding-Window Attention + Full Attention(3:1) structure लंबे context processing में भी efficiency बनाए रखता है
Head-wise Gated Attention सूचना प्रवाह को dynamically नियंत्रित करके numerical stability सुनिश्चित करता है
NVIDIA Hopper GPU पर 350 tok/s decoding throughput हासिल किया गया
INT4 GGUF quantized model के जरिए local inference (20 tok/s, 256K context) को सपोर्ट करता है

reinforcement learning framework

Metropolis Independence Sampling Filtered Policy Optimization(MIS-PO) को अपनाया गया
- importance sampling की जगह binary filtering से unstable samples हटाए जाते हैं
- truncation-aware value bootstrapping और routing confidence monitoring के जरिए long-horizon reasoning को स्थिर किया जाता है
यह संरचना math, coding और tool use सहित पूरे workflow में continuous self-improvement को संभव बनाती है

benchmark तुलना

Step 3.5 Flash Reasoning, Coding, Agentic तीनों क्षेत्रों में संतुलित top-tier performance दिखाता है
- AIME 2025: 97.3 / HMMT 2025: 98.4 / LiveCodeBench-V6: 86.4
- τ²-Bench: 88.2 / BrowseComp-ZH: 66.9 / ResearchRubrics: 65.3
decoding cost 128K context के आधार पर 1.0x है, जो DeepSeek V3.2(6.0x), Kimi K2.5(18.9x) से अधिक efficient है

सीमाएँ और आगे की दिशा

token efficiency: Gemini 3.0 Pro की तुलना में समान गुणवत्ता के लिए अधिक लंबी generation की आवश्यकता
expertise integration: generality और specialization के कुशल संयोजन के लिए on-policy distillation पर शोध जारी
agentic RL expansion: पेशेवर काम और research-level complex tasks तक RL के विस्तार की योजना
operational stability: long conversations या domain switching के दौरान repetitive reasoning और mixed-language output की संभावना

deployment और accessibility

OpenClaw platform के साथ integrated है, इसलिए सरल installation और model registration के बाद उपयोग किया जा सकता है
API platform (अंग्रेज़ी/चीनी), web·mobile apps(iOS/Android) के माध्यम से पहुँच उपलब्ध
Discord community के जरिए updates और support प्रदान किया जाता है

2 टिप्पणियां

sftblw 2026-02-20

यह मॉडल काफ़ी बढ़िया है
अगर आपकी परिस्थितियाँ अनुमति देती हैं और आप इसे llama.cpp से चलाने वाले हैं, तो नीचे दिए गए थ्रेड की टिप्पणी में मौजूद prompt को अलग से लागू करना होगा। नहीं तो opening <think> के बिना बीच में सिर्फ़ एक </think> अकेला निकल आने की समस्या होती है।
https://huggingface.co/stepfun-ai/Step-3.5-Flash-GGUF-Q4_K_S/…

llama-server \  
  옵션생략 \  
  --jinja \  
  --chat-template-file 경로/step3p5_flash_chat_template.jinja

GN⁺ 2026-02-20

Hacker News की राय

मेरा मानना है कि पिछले कुछ महीनों में आए LLMs में यह सबसे कम आंका गया रिलीज़ में से एक है
मैंने इसे लोकल पर 4-bit quant वर्ज़न(Step-3.5-Flash-GGUF) के साथ टेस्ट किया, और यह Minimax 2.5 या GLM-4.7 से भी बेहतर निकला (GLM में सिर्फ 2-bit ही संभव था)
इसकी मुख्य विशेषताएँ इस प्रकार हैं
- context efficiency बहुत ऊँची है। 128GB Mac पर पूरा 256k context, या 128k के दो stream एक साथ चलाए जा सकते हैं
- M1 Ultra पर स्पीड भी अच्छी है (36 t/s tg, 300 t/s pp), और context बड़ा होने पर भी स्पीड में गिरावट सीमित रहती है
- यह agentic coding के लिए ऑप्टिमाइज़्ड लगता है, और शायद Claude Code के साथ compatible होने के लिए train किया गया है। Codex सिर्फ patch editing tool की समस्या की वजह से अपवाद है
  200B parameter class के मॉडल्स में CLI harness पर वास्तव में उपयोगी पहला लोकल मॉडल है। मैं इसे pi.dev के साथ इस्तेमाल कर रहा हूँ, और अब तक का सबसे अच्छा अनुभव रहा
  कमी की बात करें तो इसमें infinite reasoning loop bug है (संबंधित इश्यू)
  लगता है StepFun वही कंपनी है जिसने ACEStep (music generation model) भी बनाया है, और इसका ज़िक्र ComfyUI docs में भी है
- मैंने Qwen3 Coder Next को OpenCode के साथ टेस्ट किया, और यह काफ़ी अच्छा चला
  कभी-कभी यह tool call ग़लत कर देता है, लेकिन Qwen द्वारा सुझाए गए temperature=1 सेटिंग पर रुकता नहीं है
  Nemotron 3 Nano में tool usage कमज़ोर था, इसलिए वह ज़्यादातर shell tool ही इस्तेमाल करता था
  कुल मिलाकर agentic open weight models अक्सर ऐसे tools को अच्छी तरह call नहीं कर पाते जिनसे वे परिचित नहीं हैं
- सोच रहा हूँ कि M3 Ultra(512GB RAM) पर OSS मॉडल चलाना Claude या Codex subscription से ज़्यादा किफ़ायती होगा या नहीं
  जानना चाहता हूँ कि किसी ने ऐसा हिसाब लगाया है या नहीं
- यह भी सोच रहा हूँ कि infinite reasoning loop की समस्या inference engine बदलने से हल हो सकती है या नहीं
  मेरी राय में यह model weights को ही ठीक करने वाली समस्या लगती है
- जानना चाहता हूँ कि किसी ने इसे MLX वर्ज़न में चलाया है या नहीं। सिद्धांततः यह तेज़ होना चाहिए, लेकिन कई वर्ज़न डाउनलोड करने में हिचक हो रही है
- gpt-oss 120b और 20b भी Codex के साथ अच्छी तरह काम करते थे
हाल ही में “Walk or drive to the carwash” ट्रिक की reasoning process पढ़ना काफ़ी दिलचस्प लगा
संबंधित लिंक: gist, stepfun.ai बातचीत
कहा गया है कि इसे Terminal-Bench 2.0 पर 51.0% मिला, लेकिन क्या इससे सच में ‘स्थिर long-term task handling ability’ साबित होती है, इस पर संदेह है
- 51% का आँकड़ा अपने-आप में बहुत मायने नहीं रखता। ऐसे benchmarks absolute scoring पर चलते हैं, इसलिए 100% का मतलब मानव-स्तर होना नहीं है
  leaderboard देखें तो टॉप स्कोर 75% है, इसलिए 51% लगभग SOTA के ⅔ स्तर के बराबर है
- वह स्कोर Gemini 3 Flash के समान है, लेकिन व्यवहार में लगता है कि मॉडल से ज़्यादा agent configuration स्कोर को प्रभावित करता है
- TerminalBench, अपने नाम के विपरीत, terminal से लगभग असंबंधित है और ज़्यादातर random tool syntax tests जैसा है
  संभव है कि मॉडल ने सिर्फ command flags याद किए हों
टेस्ट करने पर hallucination काफ़ी ज़्यादा लगा। “Pokémon champion deck ढूँढो” जैसे सरल सवाल में भी यह सटीक नहीं था
Opus 4.6, Deepseek, और Kimi अपेक्षा के अनुसार अच्छे चले
- execution के लिए मेरा मानना है कि medium-sized models बेहतर होते हैं
- Gemini जैसे models शायद search feature का सक्रिय उपयोग करते हैं, इसलिए वे तेज़ और अधिक सटीक रहे होंगे
यह हाल ही में जारी मॉडल Mixture of Experts (MoE) आर्किटेक्चर इस्तेमाल करता है, जिसमें प्रति token 196B में से सिर्फ 11B active होते हैं
यह Kimi K2.5 और GLM 4.7 से अधिक benchmarks में आगे है
128GB मशीन पर भी 4-bit quant वर्ज़न चल सकता है (संदर्भ लिंक)
- यह benchmark बढ़त वास्तव में कितनी मायने रखती है, इस पर संदेह है। मैं instruction following, long-context reasoning, और non-hallucination को ज़्यादा महत्व देता हूँ
- जानना चाहता हूँ कि Q4_K_S(116GB), IQ4_NL(112GB), और Q4_0(113GB) में कौन बेहतर है
  model page देखें
हाल के मॉडल benchmark scores तो ऊँचे ला रहे हैं, लेकिन साथ में token usage explosion भी हो रहा है
असली innovation के लिए power efficiency की समस्या हल करनी होगी
- सिर्फ token count ही नहीं, token per energy efficiency (tokens/joule) भी अहम है
  MoE आर्किटेक्चर का कुशल उपयोग tokens/joule और tokens/sec दोनों पर असर डालता है
SWE-bench Verified ठीक है, लेकिन इससे बेहतर SWE benchmark की ज़रूरत है
निष्पक्ष benchmark बनाना लगातार execution cost की वजह से महँगा पड़ता है
“live benchmark” का विचार अच्छा है, लेकिन यह नए मॉडलों को पर्याप्त रूप से reflect नहीं कर पाता
- Terminal Bench 3.0 के विकास में शामिल होने का प्रस्ताव भी था
  दस्तावेज़ लिंक
मुझे लगता है parameter count से अधिक महत्वपूर्ण metric tokens per dollar/sec है
क्योंकि शीर्ष मॉडल लोकल inference सपोर्ट नहीं करते
- लेकिन open source मॉडल हो तो self-hosting पर विचार करने वालों के लिए parameter count भी महत्वपूर्ण है
- parameter count अब भी model capability का एक मोटा संकेतक है
  उदाहरण के लिए Qwen3 0.6b का tok/dollar शानदार है, लेकिन अधिकांश उपयोगों के लिए वह पर्याप्त नहीं है
- इस मॉडल की अहमियत इस बात में है कि यह $3,000 से कम की मशीन पर भी लोकल चल सकता है
कुछ सरल टेस्ट्स में मैंने ये बातें देखीं
1. output trace बहुत verbose था और पैराग्राफ़ LinkedIn style जैसे छोटे-छोटे थे
2. hosted version की token output speed बहुत ऊँची थी
3. instruction adherence और output quality Opus 4.5 जैसे प्रमुख मॉडलों से बेहतर थी
ग्राफ़ का x-axis उल्टा होने की वजह से भ्रम हुआ
- मेरा भी यही विचार है। समझ नहीं आता ऐसा क्यों किया गया
- शायद ग्राफ़ को बेहतर दिखाने की कोशिश रही हो, लेकिन असल में ऐसा नहीं है