xAI Grok 4.3 जारी
(docs.x.ai)- 10 लाख टोकन context window और reasoning, function calling तथा structured output जैसी डेवलपर-केंद्रित API सुविधाएँ उपलब्ध
- पिछले Grok 4.20 के विपरीत reasoning हमेशा सक्रिय, हर query के लिए जवाब से पहले स्वतः सोच-प्रक्रिया चलती है
- input token कीमत लगभग 40% कम, output token कीमत लगभग 60% कम, जिससे पिछले मॉडल की तुलना में लागत में बड़ी कमी
- कीमत: input $1.25/1M tokens, cached input $0.20/1M, output $2.50/1M
- समान intelligence स्तर वाले मॉडलों में सबसे सस्ते विकल्पों में शामिल
- agentic task performance में बड़ा सुधार — GDPval-AA benchmark में ELO 1500 अंक, Grok 4.20 की तुलना में 321 अंक अधिक, और Gemini 3.1 Pro Preview, Muse Spark, GPT-5.4 mini आदि से आगे
- xAI API मॉडल में पहली बार native video input समर्थन, vision encoder के जरिए वीडियो फ्रेम सीधे प्रोसेस किए जाते हैं
- legal reasoning में पहला स्थान (CaseLaw v2 accuracy 79.3%) और corporate finance में पहला स्थान (CorpFin), legal reasoning में Grok 4.20 की तुलना में 25 अंकों की छलांग
- चैट इंटरफ़ेस के भीतर presentation slides सीधे बनाना संभव, PDF, Excel, PowerPoint फ़ाइलें बातचीत के दौरान रियल-टाइम में बनाकर डाउनलोड की जा सकती हैं
- built-in code execution environment उपलब्ध, जिससे code लिखने, चलाने और फ़ाइल बनाने तक का काम मॉडल के भीतर ही होता है
- Speech-to-Text API (25 भाषाएँ, speaker separation समर्थन) और Text-to-Speech API भी साथ में औपचारिक रूप से जारी
- Artificial Analysis Intelligence Index में 53 अंक, जो Muse Spark और Claude Sonnet 4.6 से अधिक है, और cost-to-intelligence Pareto frontier पर स्थित
- Rate limit प्रति मिनट 1,800 requests / 10 million tokens, 200K से अधिक पर अलग शुल्क
- मॉडल का नाम grok-4.3 है, और समर्थित region us-east-1 तथा eu-west-1 हैं
1 टिप्पणियां
Hacker News की राय
अंग्रेज़ी मेरी दूसरी भाषा है, और इस नज़रिए से Grok खास तौर पर टोन और औपचारिकता के स्तर को समझने और वैसा ही दोहराने में बहुत अच्छा है
मुझे लगता है कि यह दूसरे बड़े providers की तुलना में भाषा की सूक्ष्म मानवीय बारीकियों को बेहतर समझता है, जबकि ChatGPT अक्सर या तो बहुत सख्त और औपचारिक हो जाता है, या फिर अजीब-सा “aye guvnor” अंदाज़ की अनौपचारिक भाषा में बह जाता है। Claude कभी-कभी बेहतर होता है, लेकिन हमेशा नहीं
कुल मिलाकर Grok एक ऐसे तरीके से ज़्यादा “मानवीय” लगता है जिसे परिभाषित करना मुश्किल है। उदाहरण के लिए, अगर आप पूछें, “क्या यह संदेश इस लंबाई में लगभग ठीक से वही बात पहुँचा रहा है जो मैं कहना चाहता हूँ?”, तो यह इंसान की तरह हाँ/ना में जवाब देता है या टोन और लंबाई बनाए रखते हुए सुधार सुझाता है, जबकि ChatGPT अब भी अक्सर एक लंबा निबंध लिख देता है जो साफ़ नहीं होता
हाल में मुझे Grok की voice dictation भी काफ़ी अच्छी लगी। माइक्रोफ़ोन दबाकर पूछने वाले फ़ीचर में ChatGPT मेरे accent के साथ लगभग 90~95% सही रहता है, Android Gboard voice input लगभग 75% रहता है, लेकिन Grok हैरानी से करीब 98% सही पकड़ता है
तीनों ने ज़्यादा औपचारिक टोन अच्छी तरह संभाली, लेकिन casual टोन में cringe न करने वाला सिर्फ GPT-4.1 था
वैसे Grok सबसे तेज़ और सबसे सस्ता था, और Claude सबसे धीमा और सबसे महंगा
मेरा मानना है कि यह Twitter data पर ज़्यादा training होने का फ़ायदा है। लेकिन Twitter पर AI-generated content लगातार बढ़ रहा है, इसलिए चिंता है कि अगर training जारी रही तो इसकी स्वाभाविकता घट सकती है
मैं नीचा दिखाने की कोशिश नहीं कर रहा, लेकिन यह ज़्यादा एक एहसास जैसा लगता है
बाकी कामों के लिए वह ChatGPT को ज़्यादा पसंद करता है
चैटिंग के लिए Grok मेरा पसंदीदा मॉडल है, और इसका voice mode भी मुझे सबसे अच्छा लगता है
यह शायद एकमात्र voice mode है जो मुझे किसी बेहद सस्ते मॉडल, जैसे Haiku, पर route करता नहीं लगता, और frontier-grade विकल्पों में इसकी quality सबसे अच्छी थी
अगर आप SuperGrok subscribe करते हैं, तो अलग-अलग system prompts वाले agents की एक “council” बना सकते हैं, और सवाल पूछने पर यह सबको parallel में पूछकर निष्कर्ष देता है
लेकिन काश वे app में थोड़ा निवेश करते। सच कहूँ तो app ही एकमात्र वजह है कि मैं SuperGrok subscribe नहीं कर पाता
MCP/connected apps support नहीं है, सिर्फ announce हुआ था लेकिन अब तक इस्तेमाल नहीं कर सकते। Grok को किसी चीज़ से connect नहीं कर सकते, इसलिए serious काम में इस्तेमाल करना मुश्किल है
projects अभी app में supported नहीं हैं, इसलिए जैसे ही आप किसी चीज़ को project में ले जाते हैं, वह सारे native apps से गायब हो जाती है
generated Markdown docs जैसे artifacts को सीधे project में जोड़ने का तरीका नहीं है, इसलिए PDF/Markdown में export करके फिर import करना पड़ता है। artifacts export भी नहीं होता। नई जानकारी के साथ projects को dynamically आगे बढ़ाना मुश्किल है, इसलिए serious project work के लिए असुविधाजनक है
memory feature भी नहीं है, और पुराने chats खोज भी नहीं सकते, इसलिए हर chat पूरी तरह नई शुरुआत होती है
projects के अंदर voice mode भी बिल्कुल नहीं है
अगर xAI का कोई व्यक्ति यह पढ़ रहा हो, तो इनमें से कुछ भी जोड़ दे तो अच्छा होगा
Claude को याद रहता है कि मेरे पास grill है, इसलिए वह ऐसी बातचीत में भी, जिसका उससे कोई संबंध नहीं होता या जो सिर्फ खाने की बात हो, बीच में कह देता है कि यह BBQ के साथ अच्छा जाएगा
इसकी personality भी अच्छी है और यह Gemini web chat से कहीं ज़्यादा natural लगता है। मेरी एकमात्र शिकायत यह है कि यह बार-बार “next steps” सुझाने की कोशिश करता है, लेकिन लगता है कि ये सारे मॉडल ऐसा करते हैं
पता नहीं यह “next steps” लागत बढ़ाने के लिए है, या इन्हें अभी तक स्वाभाविक बातचीत के पैटर्न सीखने नहीं आए कि कब किसी सवाल का छोटा जवाब देकर रुक जाना चाहिए और कब लंबी exploratory बातचीत करनी चाहिए। फिर भी, अगर इन्हें ऐसा न करने को कहा जाए, तो इन्हें मानना चाहिए
अभी Heavy plan में कुछ API credits मिलते हैं, जिससे coding के लिए कुछ हद तक Grok इस्तेमाल हो सकता है, लेकिन मुझे नहीं लगता कि यह $300 की value देता है
मेरा मतलब यह नहीं कि वे अपना grok-code harness बनाएँ; सिर्फ मौजूदा tools में इस्तेमाल की सुविधा भी काफ़ी उपयोगी होगी। शायद Cursor acquisition का अंततः यही मतलब निकले
यह साफ़ नहीं है कि SuperGrok API key देता है या नहीं
हमारे tests में Grok 4.3 एक अनोखा मॉडल है
यह सबसे तेज़ मॉडलों में से एक है, और समान क्षमता वाले दूसरे मॉडलों की तुलना में इसके responses बहुत छोटे और token density ज़्यादा है
लेकिन कुल coding reasoning क्षमता में यह अप्रैल के बड़े launch मॉडलों से मुकाबले में नहीं है, और Grok 4.20 या Grok 4.3, दोनों ही Grok 4 के बाद intelligence frontier को बहुत आगे नहीं ले गए
agentic tasks में Grok 4.3 बेहतर है, और इसे लगभग GPT 5.1 / Gemini 3 Pro Preview स्तर की क्षमता वाला, लेकिन उससे बहुत तेज़ और सस्ता मानना उचित होगा। इस लिहाज़ से यह निश्चित रूप से एक अच्छा launch है
हाल में आए open-weight models में कुछ इससे ज़्यादा smart हैं, लेकिन धीमे भी हैं
पूरा benchmark यहाँ है: https://gertlabs.com/rankings
यही Grok का मुख्य उपयोग-क्षेत्र लगता है, इसलिए यह भी जानना चाहूँगा कि इस बारे में कोई benchmark है या नहीं
हाल में Grok मेरा search engine बन गया है
यह शायद एकमात्र AI है जिसे X posts की access है, और इसके अलावा भी यह आम तौर पर दूसरे बड़े language models की तुलना में ज़्यादा “search करने” वाला महसूस होता है
Iran से जुड़ी घटनाओं के समय मैं जैसे ही रिपोर्ट आए, तुरंत स्थिति समझना चाहता था, और दोनों काफ़ी अच्छे थे
मौजूदा स्थिति देखकर लगता है Claude enterprise और government के लिए है, Codex developers के लिए है, और Grok किस काम का है, समझ नहीं आता
मैंने अपने आसपास Grok का नाम सिर्फ roleplay और racism के संदर्भ में सुना है
एक one-off classification task था जिसे बाकी सभी मॉडल मना कर रहे थे, लेकिन Grok ने ख़ुशी से कर दिया
मुझे लगता है कि थोड़ा कम guardrails वाले quasi-frontier models के ऐसे grey-area के व्यावहारिक उपयोग काफ़ी होते हैं। grok-fast model सस्ता भी है
इसे inconsistent और बिखरा हुआ माना जाता है
लोग आम तौर पर API से GLM और DeepSeek इस्तेमाल करते हैं, और local पर Gemma4 और Mistral fine-tuned models चलाते हैं
roleplay market काफ़ी पुराना और mature है, इसलिए users cost-conscious हैं और चाहते हैं कि मॉडल उनके workflow और preferences के मुताबिक चले। इसलिए Opus जैसे मॉडल smart होने के बावजूद बहुत महंगे और ज़िद्दी माने जाते हैं
यह एक दिलचस्प data point हो सकता है कि आगे दूसरे markets कैसे evolve होंगे
मैं इसे हमेशा ऐसे सवालों के लिए इस्तेमाल करता हूँ: “इन दिनों Twitter के hip लोग जिस tiling window manager को सबसे अच्छा बता रहे हैं, वह कौन-सा है?”
और थोड़ा संदिग्ध या धुंधले सवालों के जवाब भी Grok आम तौर पर दे देता है। जैसे, “कोई grey-market Windows license site ढूँढकर दो”
language model तो बस एक system है, और मैं यह भी नहीं समझता कि users उसके outputs का कैसे इस्तेमाल करते हैं, उसकी ज़िम्मेदारी मॉडल पर क्यों हो। जैसे यह नहीं कहते कि pen “racism” का औज़ार है इसलिए बेकार है, सिर्फ इसलिए कि कोई उससे toilet stall पर बुरी बातें लिख सकता है
आप शायद ऐसी जगह रहते होंगे जहाँ harassment अपराध है, और expression को लेकर नियम भी होंगे। क्या वह काफ़ी नहीं है? समझ नहीं आता कि हर कुछ साल में बदलने वाले ethical trends के हिसाब से धरती के हर इंसान की हर कोशिश को क्यों ढाला जाए
बस अंदाज़ा लगाइए कि कौन-सा बड़े language model सबसे बड़ा outlier था, और किस तरह के सवालों पर वह बाकी सभी मॉडलों से अलग राय देता था
मुझे सच में जिज्ञासा है कि लोग Grok को Twitter memes या tweets समझने के अलावा भी वास्तव में इस्तेमाल करते हैं या नहीं
यह दूसरे मॉडलों जितना nannying नहीं करता। मैं कई दशकों से out-of-print orphan-copyrighted सामग्री खोजता रहा हूँ, लेकिन बड़े मॉडल मुझे डाँटते हुए मना कर देते हैं कि मैं copyrighted सामग्री ढूँढ रहा हूँ। Grok यह कर देता है [0]
[0] कभी-कभी हल्का-सा jailbreak करना पड़ता है या prompt दोबारा चलाना पड़ता है। इसकी non-deterministic प्रकृति के कारण कभी-कभी मना भी कर देता है
ChatGPT का voice mode बहुत बेवकूफ़ लगता है, लेकिन Grok मानो वही मॉडल इस्तेमाल करता है जो main chat में है। इसलिए अगर voice से इस्तेमाल करना हो तो मैं Grok चुनता हूँ
मैं इसे non-complex topics पर भी इस्तेमाल करता हूँ। यह बिना अनावश्यक बातों के सटीक और छोटे जवाब देता है, जो काफ़ी ताज़गीभरा है
memes और trends के लिए तो उपयोगी है, लेकिन बाकी चीज़ों में बहुत कमज़ोर है
अगर coding में यह Kimi K2.6 जितना अच्छा हो जाए, तो शायद मैं सिर्फ Grok ही इस्तेमाल करूँ। अभी तक जो conversational AI मैंने इस्तेमाल किया है, उसमें यह सचमुच सबसे अच्छा है
इसने मुझे खराब refrigerator और electric oven ठीक करने में मदद की, और सिर्फ इस साल कम-से-कम $4,000 बचाए
tax filing भी मैंने Grok से करके $600 बचाए। H&R Block अब ख़त्म
लगता है यह Kimi K2.6 जितना smart हो गया है। अब इसे test करने का समय है
हैरानी होती है कि कोई यह बात नहीं कर रहा कि Opus 4.x और GPT-5.5 की तुलना में यह कितना सस्ता है
input के लिए $1.25 प्रति 10 लाख tokens, और output के लिए $2.50 प्रति 10 लाख tokens
समझ नहीं आ रहा कि क्या यह इसलिए है क्योंकि मॉडल छोटा और कम शक्तिशाली है, या मैं कुछ miss कर रहा हूँ
कुल मिलाकर यह अब तक का उनका सबसे अच्छा मॉडल है, और मुझे यह पसंद है कि वे उन कम कंपनियों में हैं जो token price घटा रही हैं
[0]: https://aibenchy.com/compare/x-ai-grok-4-20-medium/x-ai-grok...
यह हाल की trend है, DeepSeek 4 Pro में भी देखा था
comments में भी यह दिख रहा है। जैसे, “Claude enterprise और government के लिए है, Codex developers के लिए है, Grok किस लिए है, roleplay और racism? मैंने अपने आसपास Grok का नाम बस इन्हीं दो चीज़ों से जुड़ा सुना है।”
अगर $TSLA की profit margin को proxy indicator मानें, तो चीज़ें पहले जितनी मजबूत नहीं लगतीं। और भी वजहें होंगी, लेकिन संभव है कि उसी और Grok की कम कीमत के बीच कोई छूटी हुई व्याख्या हो
Grok 4.3 उस समय तक बन चुका था, जब CEO को आम safety material के बारे में सीखना बाकी था
OpenAI की “safety card” के बारे में पूछे जाने पर Musk हँसते हुए बोले, “Safety card? उसे card क्यों होना चाहिए?”
https://www.axios.com/2026/04/30/musk-openai-safety-grok
cluster scale या कुछ समय तक temporary generators चलाने जैसी बातों से अलग, यह बहुत relevant नहीं लगता
बाद की गवाही में Musk से पिछले गर्मियों में किए गए उस दावे पर सवाल हुआ कि xAI जल्द ही Google को छोड़कर बाकी सभी कंपनियों से बहुत आगे निकल जाएगा। जवाब में उन्होंने दुनिया के leading AI providers को Anthropic, OpenAI, Google, और Chinese open-source models के क्रम में गिनाया, और कहा कि xAI कुछ सौ कर्मचारियों वाली बहुत छोटी कंपनी है
https://techcrunch.com/2026/04/30/elon-musk-testifies-that-x...
मेरा किसी AI कंपनी से कोई संबंध नहीं है, लेकिन मैंने यह कल पढ़ा और हैरान रह गया। यह चिंता की बात है कि Elon model card जैसी चीज़ नहीं जानता, और इससे यह भी दिखता है कि पैसा हमेशा सफलता नहीं खरीद सकता
खोजने पर लगा कि यह HuggingFace द्वारा model repository के README की ढीली-ढाली परिभाषा से आया है। यह इतना niche term है कि users, executives, बल्कि बहुत छोटे समूह के बाहर किसी को भी पता न हो, यह स्वाभाविक है
मुझे Musk या Grok पसंद नहीं, लेकिन safety card क्या है यह न जानना अपने आप में कोई संकेत है, ऐसा नहीं मानता
उसने कहा है कि वही मॉडल सुरक्षित है जो reality में मौजूद truth के साथ सबसे अच्छी तरह aligned हो, और xAI benchmarks में hallucination सबसे कम या लगभग सबसे कम रखने की दिशा में इसी सोच पर चला है
उस बयान को फिर से पढ़ें तो उसका मतलब यह था: “किसी card के ज़रिए safety को quantify कैसे किया जा सकता है?”
Grok काल्पनिक बातचीत को मज़ेदार ढंग से आगे बढ़ाने में शानदार है
सबसे मज़ेदार नतीजों के लिए पहले से यह बता देना अच्छा रहता है कि “permission already मिल चुकी है”
यह rap lyrics भी बहुत अच्छे बनाता है। अगर इसे दूसरे गानों के lyrics से ऐसे “prime” करें जैसे किसी dictionary में इस्तेमाल करने लायक बुरे शब्द और expressions भरे हों, और फिर “web development” जैसा विषय दें, तो काफ़ी मज़ेदार परिणाम निकलते हैं
नाम अब भी कुछ और होता तो अच्छा लगता, लेकिन यह एक अच्छी release लगती है, इसलिए टीम को बधाई
समान प्रतिस्पर्धी मॉडलों की तुलना में कीमत भी काफ़ी चौंकाने वाली है। लगता है या तो इनके पास बहुत capacity है, या वे और ज़्यादा users लाना चाहते हैं