Grok 4 Fast

(x.ai)

4 पॉइंट द्वारा GN⁺ 2025-09-21 | 2 टिप्पणियां | WhatsApp पर शेयर करें

xAI द्वारा घोषित Grok 4 Fast अगली पीढ़ी का reasoning मॉडल है, जो मौजूदा Grok 4 की प्रशिक्षण उपलब्धियों पर आधारित होकर cost efficiency और speed को अधिकतम करता है
यह मॉडल 2M token context window, web और X search फीचर, तथा reasoning / non-reasoning integrated architecture के साथ आता है, इसलिए real-time उपयोग के लिए उपयुक्त है
बेंचमार्क में यह Grok 4 जैसी performance देता है, लेकिन औसतन 40% कम token इस्तेमाल करता है, जिससे वही प्रदर्शन बहुत कम लागत पर हासिल किया जा सकता है
साथ ही tool-use reinforcement learning के ज़रिए code execution, web browsing आदि में उच्च प्रदर्शन दिखाता है, और LMArena Search Arena में पहला स्थान हासिल किया है

लागत-कुशल बुद्धिमत्ता की प्रगति

Grok 4 Fast, Grok 3 Mini की तुलना में बेहतर प्रदर्शन दिखाते हुए token लागत को काफी कम करता है
- औसतन Grok 4 की तुलना में 40% कम 'Thinking Tokens' का उपयोग कर समान प्रदर्शन हासिल करता है
- benchmark score उदाहरण (pass@1):
  - Grok 4 Fast: 85.7%, 92.0%, 93.3%, 20.0%, 80.0%
  - प्रतिस्पर्धी मॉडल (GPT-5 आदि) की तुलना में समान या बेहतर परिणाम
GPQA, AIME, HMMT, LiveCodeBench जैसे विभिन्न reasoning benchmarks में इसने Grok 4 के करीब परिणाम दिखाए
Grok 4 Fast की token efficiency में 40% सुधार के साथ, प्रति token कीमत भी काफी घटाई गई है
समान प्रदर्शन हासिल करने पर कीमत Grok 4 की तुलना में 98% कम हो जाती है, जिससे यह सार्वजनिक मॉडलों में 'सर्वश्रेष्ठ price-to-intelligence ratio (SOTA Price-to-Intelligence Ratio)' दर्ज करता है
- स्वतंत्र संस्था Artificial Analysis Intelligence Index के बाहरी मूल्यांकन में इसके उत्कृष्ट परिणाम सत्यापित हुए हैं

Native tool उपयोग और SOTA search

इसे tool-use reinforcement learning (RL) से प्रशिक्षित किया गया है, इसलिए ज़रूरत पड़ने पर यह अपने आप code execution या web browsing कर सकता है
यह web और X को real-time में खोजकर multi-hop search और media (image, video) तक संभालने वाली agentic search capability रखता है
BrowseComp, SimpleQA, X Bench Deepsearch(zh) जैसे विभिन्न benchmarks में इसने Grok 4 से बेहतर प्रदर्शन हासिल किया

General-domain post-training उपलब्धियाँ

LMArena के Search Arena में Grok 4 Fast(menlo) ने Elo 1163 के साथ पहला स्थान हासिल किया, और प्रतिस्पर्धी मॉडल से 17 अंकों से आगे रहा
Text Arena में grok-4-fast (codename tahoe) 8वें स्थान पर रहा, और समान श्रेणी के अन्य मॉडलों (18वें स्थान या उससे नीचे) की तुलना में कहीं बेहतर साबित हुआ
वास्तविक search और text कार्यों में इसने बड़े मॉडलों से भी अधिक efficiency दिखाई

Reasoning और Non-Reasoning एकीकृत मॉडल

पहले जहाँ reasoning / non-reasoning mode के लिए अलग-अलग मॉडल चाहिए होते थे, उन्हें अब single architecture में एकीकृत किया गया है
- केवल system prompt के ज़रिए reasoning (गहन सोच) और non-reasoning (तेज़ जवाब) mode के बीच स्विच किया जा सकता है
- end-to-end latency और token लागत में कमी के कारण यह real-time applications के लिए उपयुक्त है
xAI API में डेवलपर speed/depth को बारीकी से नियंत्रित कर सकते हैं

Deployment और pricing policy

Grok 4 Fast अभी तुरंत उपलब्ध है, और OpenRouter तथा Vercel AI Gateway पर सीमित अवधि के लिए मुफ्त दिया जा रहा है
xAI API में भी यह grok-4-fast-reasoning और grok-4-fast-non-reasoning दो versions में उपलब्ध है, और 2M token context window को support करता है
कीमत input token के लिए $0.20/1M, output token के लिए $0.50/1M से शुरू होती है, और 128k token से अधिक पर 2x शुल्क लागू होता है
cached input token $0.05/1M पर उपलब्ध हैं, जिससे लागत कम करने में मदद मिलती है

आगे की योजना

user feedback को शामिल करते हुए मॉडल में लगातार सुधार किया जाएगा
multimodal फीचर और agentic विशेषताओं को मजबूत करना अगली update के मुख्य लक्ष्य हैं
model card और अतिरिक्त विवरण Grok 4 Fast मॉडल कार्ड (PDF) में देखे जा सकते हैं

2 टिप्पणियां

kuber 2025-09-21

यह gpt-oss से ज़्यादा महंगा और धीमा लगता है, तो लोग इसे इतना ज़्यादा क्यों इस्तेमाल कर रहे हैं, यह जानने की उत्सुकता है..

GN⁺ 2025-09-21

Hacker News राय

मैं Musk के किसी भी प्रोडक्ट का इस्तेमाल नहीं करना चाहूँगा, चाहे उसके लिए मुझे कितने भी पैसे क्यों न दिए जाएँ, खासकर अगर वह जानकारी को फ़िल्टर, बदलने और संक्षेपित करने वाली भूमिका में हो; वह उपयोगी हो सकता है, लेकिन उस पर भरोसा नहीं होता और मैं Musk को और अमीर भी नहीं बनाना चाहता
- भले ही किसी को Musk के प्रति व्यक्तिगत नापसंदगी न हो, फिर भी कई बार देखा गया है कि वह Grok के काम करने के तरीके में सीधे हस्तक्षेप करके अपनी विचारधारा के मुताबिक नतीजे निकलवाता है; अगर ऐसा है तो मुझे नहीं लगता कि उस प्रोडक्ट का इस्तेमाल किया जा सकता है; कुछ लोग Musk की सोच से सहमत हो सकते हैं, लेकिन AI प्रोडक्ट की असली वैल्यू इस बात में है कि वह विविध डेटा और algorithms का उपयोग करके जवाब निकाले, सिर्फ किसी एक व्यक्ति की राय को दोहराना मेरे हिसाब से बेकार है
- सुना है कि Grok जवाब देने से पहले Twitter पर Musk की राय खोजता है; यह सभी Grok versions में होता है या सिर्फ Twitter embedded version में, यह जानने की जिज्ञासा है
- इतने सारे alternatives हैं कि Grok इस्तेमाल करने की कोई वजह ही नहीं दिखती
- एक मामला था जहाँ Musk ने सीधे Grok में दखल दिया क्योंकि उसमें Kirk assassination से जुड़ा Fox News propaganda नहीं आ रहा था उदाहरण1 और ऐसी चीज़ें कई बार हो चुकी हैं NYT लेख Grok propaganda विवादों से जुड़ी तकनीक है, इसे किसी सामान्य तकनीकी सेवा की तरह चर्चा करना ही बेतुका है
मॉडल का नाम "Fast" है, फिर भी token processing speed सार्वजनिक क्यों नहीं की गई, यह समझ नहीं आता; क्या इसका मतलब speed नहीं बल्कि कुछ और है, या फिर speed बहुत fluctuate करती है
- मुझे तो यह असल में सिर्फ “grok 4 mini” लगता है; शायद ‘mini’ कहने पर लोग कम इस्तेमाल करें, इसलिए उसका नाम ‘fast’ रख दिया गया, ताकि उसे चुनने की वजह बन सके
- OpenRouter के हिसाब से अभी लगभग 160 tokens प्रति सेकंड है स्रोत
- लगता है इसे ‘token efficiency’ पर फोकस करके fast के रूप में position किया गया है, यानी कम tokens इस्तेमाल करके जल्दी result देना
Grok 4 NYT Connections extended leaderboard में ऊपर है लिंक
- हाल में OpenRouter पर feedback के लिए उपलब्ध Sonoma sky Alpha शायद यही मॉडल हो सकता है; मैंने इसे free होने की वजह से काफ़ी इस्तेमाल किया, लेकिन यह मौजूदा Grok 4 से कमज़ोर लगा, इसलिए हो सकता है कि यह वही न हो
मैं इन दिनों grok-code-fast-1 मॉडल का काफ़ी आनंद लेकर इस्तेमाल कर रहा हूँ, इसलिए अफ़सोस है कि इस बार आए नए प्रोडक्ट में उसका ज़िक्र नहीं है; उम्मीद है शायद इससे भी बेहतर version आए; grok-code-fast-1 भले Gemini 2.5 Pro से थोड़ा कम हो, लेकिन iteration speed के मामले में बेहतरीन है
- मॉडल थोड़ा simple है, फिर भी मेरे उपयोग में यह somnet से बेहतर लगा
यह समझ नहीं आता कि एक तेज़ मॉडल कई benchmarks में अपने धीमे version से बेहतर कैसे हो सकता है; क्या इसे बस benchmark tests पर ही बार-बार train किया गया है
- यह सभी benchmarks में बेहतर नहीं है; Grok 4 Fast, GPQA Diamond, HLE जैसे बड़े factual क्षेत्रों में Grok 4 से कमज़ोर है; बड़ा (=धीमा) मॉडल ऐसे क्षेत्रों में बेहतर होता है; दूसरी तरफ reasoning या tool use पर केंद्रित benchmarks में token transition क्षमता अधिक महत्वपूर्ण होती है, इसलिए छोटा और तेज़ मॉडल भी competitive हो सकता है; शायद training data को ही कुछ tasks पर ज़्यादा केंद्रित करने के लिए adjust किया गया होगा, और वास्तविक नतीजे भी यही दिखाते हैं कि प्रचार में ऐसे benchmarks चुने गए हैं; उल्टा चाहे तो कोई सिर्फ factual memory benchmarks चुनकर कम performance दिखाने वाला ‘विपरीत प्रचार-सामग्री’ भी बना सकता है
- तकनीकी रूप से देखा जाए तो अलग-अलग architectural changes, अधिक data, RL वगैरह में से क्या इस्तेमाल हुआ, यह अलग हो सकता है; हाल में RL के उपयोग में यह रुझान है कि वे open models की तुलना में काफ़ी आगे निकल रहे हैं
- असल में ये सिर्फ नाम से मिलते-जुलते दो अलग मॉडल हैं; Grok 4 Fast, Grok 4 का सिर्फ तेज़ version है, ऐसा रिश्ता नहीं है; यह gpt-4 और gpt-4o के रिश्ते की तरह पूरी तरह अलग है
- संभव है कि Grok 4 Fast, Grok 4 मॉडल का ऐसा version हो जिसमें real production environment में लगभग इस्तेमाल न होने वाले हिस्सों को कम करके उसे हल्का और ज़्यादा focused बनाया गया हो; इसलिए इसकी बुनियादी logical structure समान हो सकती है, लेकिन इसे अधिक specific goals के लिए optimize किया गया होगा
आजकल बड़े मॉडल लगभग समान आकार, समान तरह के data पर train हो रहे हैं; फर्क बस pricing policy का है… लगता है grok की खासियत filters या safeguards को हटाना है, और benchmarks में भी कई flawed पहलू हैं जिन्हें आसानी से manipulate किया जा सकता है; इंडस्ट्री के लोग यह बात पहले से जानते हैं
benchmark performance कीमत के हिसाब से अच्छी लगती है; असली user tests में यह कैसा करेगा, यह जानना दिलचस्प होगा
- अगर यह वही है जो पहले OpenRouter पर preview के रूप में sonoma-dusk दिया गया था, तो यह काफ़ी उपयोगी था; मैंने इसे code reverse engineering task पर test किया था, और speed तथा performance gpt5-mini के बराबर या उससे बेहतर लगी; यह 110k~130k tokens तक अच्छी तरह टिका रहा, और उसके बाद से ऐसी प्रवृत्ति दिखी कि शर्तें पर्याप्त न होने पर भी completion का दावा करने लगता था (जैसे: 400 में से xx tests pass, बाकी बाद में संभव हैं)
हम सब तेज़ और accurate मॉडल चाहते हैं, लेकिन सवाल यह है कि क्या यह सच में ‘accuracy’ भी दे सकता है; अगर यह बहुत accurate हो, तो मैं कुछ सेकंड और इंतज़ार करने को तैयार हूँ
- इसे भरोसेमंद तरीके से हासिल करने का एकमात्र तरीका tools का उपयोग करना है
बड़े मॉडलों की तुलना तालिका के लिए संदर्भ लिंक
मैं व्यक्तिगत रूप से custom frontend इस्तेमाल करता हूँ, इसलिए Qwen3 coder के उलट grok4 fast के लिए free API test न होना थोड़ा निराशाजनक है; जिन tools के साथ इसकी partnership है, वे भी वे नहीं हैं जिन्हें मैं आमतौर पर इस्तेमाल करता हूँ
- grok-4-fast मुफ्त ट्रायल लिंक