- xAI द्वारा घोषित Grok 4 Fast अगली पीढ़ी का reasoning मॉडल है, जो मौजूदा Grok 4 की प्रशिक्षण उपलब्धियों पर आधारित होकर cost efficiency और speed को अधिकतम करता है
- यह मॉडल 2M token context window, web और X search फीचर, तथा reasoning / non-reasoning integrated architecture के साथ आता है, इसलिए real-time उपयोग के लिए उपयुक्त है
- बेंचमार्क में यह Grok 4 जैसी performance देता है, लेकिन औसतन 40% कम token इस्तेमाल करता है, जिससे वही प्रदर्शन बहुत कम लागत पर हासिल किया जा सकता है
- साथ ही tool-use reinforcement learning के ज़रिए code execution, web browsing आदि में उच्च प्रदर्शन दिखाता है, और LMArena Search Arena में पहला स्थान हासिल किया है
लागत-कुशल बुद्धिमत्ता की प्रगति
- Grok 4 Fast, Grok 3 Mini की तुलना में बेहतर प्रदर्शन दिखाते हुए token लागत को काफी कम करता है
- औसतन Grok 4 की तुलना में 40% कम 'Thinking Tokens' का उपयोग कर समान प्रदर्शन हासिल करता है
- benchmark score उदाहरण (pass@1):
- Grok 4 Fast: 85.7%, 92.0%, 93.3%, 20.0%, 80.0%
- प्रतिस्पर्धी मॉडल (GPT-5 आदि) की तुलना में समान या बेहतर परिणाम
- GPQA, AIME, HMMT, LiveCodeBench जैसे विभिन्न reasoning benchmarks में इसने Grok 4 के करीब परिणाम दिखाए
- Grok 4 Fast की token efficiency में 40% सुधार के साथ, प्रति token कीमत भी काफी घटाई गई है
- समान प्रदर्शन हासिल करने पर कीमत Grok 4 की तुलना में 98% कम हो जाती है, जिससे यह सार्वजनिक मॉडलों में 'सर्वश्रेष्ठ price-to-intelligence ratio (SOTA Price-to-Intelligence Ratio)' दर्ज करता है
- स्वतंत्र संस्था Artificial Analysis Intelligence Index के बाहरी मूल्यांकन में इसके उत्कृष्ट परिणाम सत्यापित हुए हैं
Native tool उपयोग और SOTA search
- इसे tool-use reinforcement learning (RL) से प्रशिक्षित किया गया है, इसलिए ज़रूरत पड़ने पर यह अपने आप code execution या web browsing कर सकता है
- यह web और X को real-time में खोजकर multi-hop search और media (image, video) तक संभालने वाली agentic search capability रखता है
- BrowseComp, SimpleQA, X Bench Deepsearch(zh) जैसे विभिन्न benchmarks में इसने Grok 4 से बेहतर प्रदर्शन हासिल किया
General-domain post-training उपलब्धियाँ
- LMArena के Search Arena में Grok 4 Fast(
menlo) ने Elo 1163 के साथ पहला स्थान हासिल किया, और प्रतिस्पर्धी मॉडल से 17 अंकों से आगे रहा
- Text Arena में
grok-4-fast (codename tahoe) 8वें स्थान पर रहा, और समान श्रेणी के अन्य मॉडलों (18वें स्थान या उससे नीचे) की तुलना में कहीं बेहतर साबित हुआ
- वास्तविक search और text कार्यों में इसने बड़े मॉडलों से भी अधिक efficiency दिखाई
Reasoning और Non-Reasoning एकीकृत मॉडल
- पहले जहाँ reasoning / non-reasoning mode के लिए अलग-अलग मॉडल चाहिए होते थे, उन्हें अब single architecture में एकीकृत किया गया है
- केवल system prompt के ज़रिए reasoning (गहन सोच) और non-reasoning (तेज़ जवाब) mode के बीच स्विच किया जा सकता है
- end-to-end latency और token लागत में कमी के कारण यह real-time applications के लिए उपयुक्त है
- xAI API में डेवलपर speed/depth को बारीकी से नियंत्रित कर सकते हैं
Deployment और pricing policy
- Grok 4 Fast अभी तुरंत उपलब्ध है, और OpenRouter तथा Vercel AI Gateway पर सीमित अवधि के लिए मुफ्त दिया जा रहा है
- xAI API में भी यह
grok-4-fast-reasoning और grok-4-fast-non-reasoning दो versions में उपलब्ध है, और 2M token context window को support करता है
- कीमत input token के लिए $0.20/1M, output token के लिए $0.50/1M से शुरू होती है, और 128k token से अधिक पर 2x शुल्क लागू होता है
- cached input token $0.05/1M पर उपलब्ध हैं, जिससे लागत कम करने में मदद मिलती है
आगे की योजना
- user feedback को शामिल करते हुए मॉडल में लगातार सुधार किया जाएगा
- multimodal फीचर और agentic विशेषताओं को मजबूत करना अगली update के मुख्य लक्ष्य हैं
- model card और अतिरिक्त विवरण Grok 4 Fast मॉडल कार्ड (PDF) में देखे जा सकते हैं
2 टिप्पणियां
यह
gpt-ossसे ज़्यादा महंगा और धीमा लगता है, तो लोग इसे इतना ज़्यादा क्यों इस्तेमाल कर रहे हैं, यह जानने की उत्सुकता है..Hacker News राय
grok-code-fast-1मॉडल का काफ़ी आनंद लेकर इस्तेमाल कर रहा हूँ, इसलिए अफ़सोस है कि इस बार आए नए प्रोडक्ट में उसका ज़िक्र नहीं है; उम्मीद है शायद इससे भी बेहतर version आए;grok-code-fast-1भले Gemini 2.5 Pro से थोड़ा कम हो, लेकिन iteration speed के मामले में बेहतरीन हैsonoma-duskदिया गया था, तो यह काफ़ी उपयोगी था; मैंने इसे code reverse engineering task पर test किया था, और speed तथा performancegpt5-miniके बराबर या उससे बेहतर लगी; यह 110k~130k tokens तक अच्छी तरह टिका रहा, और उसके बाद से ऐसी प्रवृत्ति दिखी कि शर्तें पर्याप्त न होने पर भी completion का दावा करने लगता था (जैसे: 400 में से xx tests pass, बाकी बाद में संभव हैं)