5 पॉइंट द्वारा GN⁺ 2026-05-02 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • 10 लाख टोकन context window और reasoning, function calling तथा structured output जैसी डेवलपर-केंद्रित API सुविधाएँ उपलब्ध
  • पिछले Grok 4.20 के विपरीत reasoning हमेशा सक्रिय, हर query के लिए जवाब से पहले स्वतः सोच-प्रक्रिया चलती है
  • input token कीमत लगभग 40% कम, output token कीमत लगभग 60% कम, जिससे पिछले मॉडल की तुलना में लागत में बड़ी कमी
    • कीमत: input $1.25/1M tokens, cached input $0.20/1M, output $2.50/1M
    • समान intelligence स्तर वाले मॉडलों में सबसे सस्ते विकल्पों में शामिल
  • agentic task performance में बड़ा सुधार — GDPval-AA benchmark में ELO 1500 अंक, Grok 4.20 की तुलना में 321 अंक अधिक, और Gemini 3.1 Pro Preview, Muse Spark, GPT-5.4 mini आदि से आगे
  • xAI API मॉडल में पहली बार native video input समर्थन, vision encoder के जरिए वीडियो फ्रेम सीधे प्रोसेस किए जाते हैं
  • legal reasoning में पहला स्थान (CaseLaw v2 accuracy 79.3%) और corporate finance में पहला स्थान (CorpFin), legal reasoning में Grok 4.20 की तुलना में 25 अंकों की छलांग
  • चैट इंटरफ़ेस के भीतर presentation slides सीधे बनाना संभव, PDF, Excel, PowerPoint फ़ाइलें बातचीत के दौरान रियल-टाइम में बनाकर डाउनलोड की जा सकती हैं
  • built-in code execution environment उपलब्ध, जिससे code लिखने, चलाने और फ़ाइल बनाने तक का काम मॉडल के भीतर ही होता है
  • Speech-to-Text API (25 भाषाएँ, speaker separation समर्थन) और Text-to-Speech API भी साथ में औपचारिक रूप से जारी
  • Artificial Analysis Intelligence Index में 53 अंक, जो Muse Spark और Claude Sonnet 4.6 से अधिक है, और cost-to-intelligence Pareto frontier पर स्थित
  • Rate limit प्रति मिनट 1,800 requests / 10 million tokens, 200K से अधिक पर अलग शुल्क
  • मॉडल का नाम grok-4.3 है, और समर्थित region us-east-1 तथा eu-west-1 हैं

1 टिप्पणियां

 
GN⁺ 2026-05-02
Hacker News की राय
  • अंग्रेज़ी मेरी दूसरी भाषा है, और इस नज़रिए से Grok खास तौर पर टोन और औपचारिकता के स्तर को समझने और वैसा ही दोहराने में बहुत अच्छा है
    मुझे लगता है कि यह दूसरे बड़े providers की तुलना में भाषा की सूक्ष्म मानवीय बारीकियों को बेहतर समझता है, जबकि ChatGPT अक्सर या तो बहुत सख्त और औपचारिक हो जाता है, या फिर अजीब-सा “aye guvnor” अंदाज़ की अनौपचारिक भाषा में बह जाता है। Claude कभी-कभी बेहतर होता है, लेकिन हमेशा नहीं
    कुल मिलाकर Grok एक ऐसे तरीके से ज़्यादा “मानवीय” लगता है जिसे परिभाषित करना मुश्किल है। उदाहरण के लिए, अगर आप पूछें, “क्या यह संदेश इस लंबाई में लगभग ठीक से वही बात पहुँचा रहा है जो मैं कहना चाहता हूँ?”, तो यह इंसान की तरह हाँ/ना में जवाब देता है या टोन और लंबाई बनाए रखते हुए सुधार सुझाता है, जबकि ChatGPT अब भी अक्सर एक लंबा निबंध लिख देता है जो साफ़ नहीं होता
    हाल में मुझे Grok की voice dictation भी काफ़ी अच्छी लगी। माइक्रोफ़ोन दबाकर पूछने वाले फ़ीचर में ChatGPT मेरे accent के साथ लगभग 90~95% सही रहता है, Android Gboard voice input लगभग 75% रहता है, लेकिन Grok हैरानी से करीब 98% सही पकड़ता है

    • मैंने Grok 4.3, Opus 4.7, और GPT 4.1 का एक तेज़ evaluation किया, और व्यवहार में ये काफ़ी मिलते-जुलते लगे: https://ofw640g9re.evvl.io/
      तीनों ने ज़्यादा औपचारिक टोन अच्छी तरह संभाली, लेकिन casual टोन में cringe न करने वाला सिर्फ GPT-4.1 था
      वैसे Grok सबसे तेज़ और सबसे सस्ता था, और Claude सबसे धीमा और सबसे महंगा
    • अपनी मातृभाषा में Grok से बात करते समय भी मुझे लगता है कि इसका टोन ज़्यादा स्वाभाविक है
      मेरा मानना है कि यह Twitter data पर ज़्यादा training होने का फ़ायदा है। लेकिन Twitter पर AI-generated content लगातार बढ़ रहा है, इसलिए चिंता है कि अगर training जारी रही तो इसकी स्वाभाविकता घट सकती है
    • मैं Grok का इस्तेमाल सिर्फ Tesla की “Gork” personality के ज़रिए करता हूँ, और इसके जवाब काफ़ी grounded होते हैं, कई बार सचमुच मज़ेदार, और कभी-कभी उपयोगी भी
    • अगर “अंग्रेज़ी आपकी दूसरी भाषा” है, तो आपको कैसे पता कि यह सच में बेहतर है, यह जानने की उत्सुकता है
      मैं नीचा दिखाने की कोशिश नहीं कर रहा, लेकिन यह ज़्यादा एक एहसास जैसा लगता है
    • मेरा एक दोस्त इसे D&D की तैयारी में इस्तेमाल करता है, और उसने कहा कि माहौल और शैली मिलाने की इसकी क्षमता उस उपयोग के लिए खास तौर पर अच्छी है
      बाकी कामों के लिए वह ChatGPT को ज़्यादा पसंद करता है
  • चैटिंग के लिए Grok मेरा पसंदीदा मॉडल है, और इसका voice mode भी मुझे सबसे अच्छा लगता है
    यह शायद एकमात्र voice mode है जो मुझे किसी बेहद सस्ते मॉडल, जैसे Haiku, पर route करता नहीं लगता, और frontier-grade विकल्पों में इसकी quality सबसे अच्छी थी
    अगर आप SuperGrok subscribe करते हैं, तो अलग-अलग system prompts वाले agents की एक “council” बना सकते हैं, और सवाल पूछने पर यह सबको parallel में पूछकर निष्कर्ष देता है
    लेकिन काश वे app में थोड़ा निवेश करते। सच कहूँ तो app ही एकमात्र वजह है कि मैं SuperGrok subscribe नहीं कर पाता
    MCP/connected apps support नहीं है, सिर्फ announce हुआ था लेकिन अब तक इस्तेमाल नहीं कर सकते। Grok को किसी चीज़ से connect नहीं कर सकते, इसलिए serious काम में इस्तेमाल करना मुश्किल है
    projects अभी app में supported नहीं हैं, इसलिए जैसे ही आप किसी चीज़ को project में ले जाते हैं, वह सारे native apps से गायब हो जाती है
    generated Markdown docs जैसे artifacts को सीधे project में जोड़ने का तरीका नहीं है, इसलिए PDF/Markdown में export करके फिर import करना पड़ता है। artifacts export भी नहीं होता। नई जानकारी के साथ projects को dynamically आगे बढ़ाना मुश्किल है, इसलिए serious project work के लिए असुविधाजनक है
    memory feature भी नहीं है, और पुराने chats खोज भी नहीं सकते, इसलिए हर chat पूरी तरह नई शुरुआत होती है
    projects के अंदर voice mode भी बिल्कुल नहीं है
    अगर xAI का कोई व्यक्ति यह पढ़ रहा हो, तो इनमें से कुछ भी जोड़ दे तो अच्छा होगा

    • memory feature का न होना मुझे अब धीरे-धीरे अच्छा लगने लगा है
      Claude को याद रहता है कि मेरे पास grill है, इसलिए वह ऐसी बातचीत में भी, जिसका उससे कोई संबंध नहीं होता या जो सिर्फ खाने की बात हो, बीच में कह देता है कि यह BBQ के साथ अच्छा जाएगा
    • Gemini app का voice mode काफ़ी नया मॉडल इस्तेमाल करता है, कोई कमजोर छोटा मॉडल नहीं, इसलिए यह काफ़ी सक्षम है
      इसकी personality भी अच्छी है और यह Gemini web chat से कहीं ज़्यादा natural लगता है। मेरी एकमात्र शिकायत यह है कि यह बार-बार “next steps” सुझाने की कोशिश करता है, लेकिन लगता है कि ये सारे मॉडल ऐसा करते हैं
      पता नहीं यह “next steps” लागत बढ़ाने के लिए है, या इन्हें अभी तक स्वाभाविक बातचीत के पैटर्न सीखने नहीं आए कि कब किसी सवाल का छोटा जवाब देकर रुक जाना चाहिए और कब लंबी exploratory बातचीत करनी चाहिए। फिर भी, अगर इन्हें ऐसा न करने को कहा जाए, तो इन्हें मानना चाहिए
    • मुझे लगता है कि Grok को “SuperGrok Heavy” नाम का $300 प्रति माह plan coding harnesses में included usage के रूप में उपलब्ध कराना बहुत फ़ायदेमंद होगा
      अभी Heavy plan में कुछ API credits मिलते हैं, जिससे coding के लिए कुछ हद तक Grok इस्तेमाल हो सकता है, लेकिन मुझे नहीं लगता कि यह $300 की value देता है
      मेरा मतलब यह नहीं कि वे अपना grok-code harness बनाएँ; सिर्फ मौजूदा tools में इस्तेमाल की सुविधा भी काफ़ी उपयोगी होगी। शायद Cursor acquisition का अंततः यही मतलब निकले
    • मुझे लगता है कि जिन सभी समस्याओं का ज़िक्र हुआ, वे Cursor deal की वजह हैं
    • पता नहीं SuperGrok subscribe करने पर क्या इसे Pi agent या Opencode में इस्तेमाल कर सकते हैं
      यह साफ़ नहीं है कि SuperGrok API key देता है या नहीं
  • हमारे tests में Grok 4.3 एक अनोखा मॉडल है
    यह सबसे तेज़ मॉडलों में से एक है, और समान क्षमता वाले दूसरे मॉडलों की तुलना में इसके responses बहुत छोटे और token density ज़्यादा है
    लेकिन कुल coding reasoning क्षमता में यह अप्रैल के बड़े launch मॉडलों से मुकाबले में नहीं है, और Grok 4.20 या Grok 4.3, दोनों ही Grok 4 के बाद intelligence frontier को बहुत आगे नहीं ले गए
    agentic tasks में Grok 4.3 बेहतर है, और इसे लगभग GPT 5.1 / Gemini 3 Pro Preview स्तर की क्षमता वाला, लेकिन उससे बहुत तेज़ और सस्ता मानना उचित होगा। इस लिहाज़ से यह निश्चित रूप से एक अच्छा launch है
    हाल में आए open-weight models में कुछ इससे ज़्यादा smart हैं, लेकिन धीमे भी हैं
    पूरा benchmark यहाँ है: https://gertlabs.com/rankings

    • सोचता हूँ कि क्या knowledge cutoff के बाद की जानकारी पर इसे ऊपर-ऊपर से अच्छा दिखाने के लिए कोई tradeoff किया गया होगा
      यही Grok का मुख्य उपयोग-क्षेत्र लगता है, इसलिए यह भी जानना चाहूँगा कि इस बारे में कोई benchmark है या नहीं
  • हाल में Grok मेरा search engine बन गया है
    यह शायद एकमात्र AI है जिसे X posts की access है, और इसके अलावा भी यह आम तौर पर दूसरे बड़े language models की तुलना में ज़्यादा “search करने” वाला महसूस होता है

    • breaking घटनाओं से जुड़ी news खोजने के लिए मैं ज़्यादातर Grok और Gemini इस्तेमाल करता हूँ
      Iran से जुड़ी घटनाओं के समय मैं जैसे ही रिपोर्ट आए, तुरंत स्थिति समझना चाहता था, और दोनों काफ़ी अच्छे थे
    • मैं समझना चाहता हूँ कि आखिर Twitter search क्यों करना चाहेंगे
  • मौजूदा स्थिति देखकर लगता है Claude enterprise और government के लिए है, Codex developers के लिए है, और Grok किस काम का है, समझ नहीं आता
    मैंने अपने आसपास Grok का नाम सिर्फ roleplay और racism के संदर्भ में सुना है

    • दिलचस्प बात यह है कि मैं एक ऐसा मामला जानता हूँ जहाँ human trafficking से लड़ने वाली एक charity Grok इस्तेमाल करती है
      एक one-off classification task था जिसे बाकी सभी मॉडल मना कर रहे थे, लेकिन Grok ने ख़ुशी से कर दिया
      मुझे लगता है कि थोड़ा कम guardrails वाले quasi-frontier models के ऐसे grey-area के व्यावहारिक उपयोग काफ़ी होते हैं। grok-fast model सस्ता भी है
    • मेरी समझ के हिसाब से Grok roleplay के लिए ज़्यादा इस्तेमाल नहीं होता
      इसे inconsistent और बिखरा हुआ माना जाता है
      लोग आम तौर पर API से GLM और DeepSeek इस्तेमाल करते हैं, और local पर Gemma4 और Mistral fine-tuned models चलाते हैं
      roleplay market काफ़ी पुराना और mature है, इसलिए users cost-conscious हैं और चाहते हैं कि मॉडल उनके workflow और preferences के मुताबिक चले। इसलिए Opus जैसे मॉडल smart होने के बावजूद बहुत महंगे और ज़िद्दी माने जाते हैं
      यह एक दिलचस्प data point हो सकता है कि आगे दूसरे markets कैसे evolve होंगे
    • अगर आपको पूछना हो कि Twitter पर लोग किस बारे में बात कर रहे हैं, तो Grok स्वाभाविक रूप से बहुत अच्छा है
      मैं इसे हमेशा ऐसे सवालों के लिए इस्तेमाल करता हूँ: “इन दिनों Twitter के hip लोग जिस tiling window manager को सबसे अच्छा बता रहे हैं, वह कौन-सा है?”
      और थोड़ा संदिग्ध या धुंधले सवालों के जवाब भी Grok आम तौर पर दे देता है। जैसे, “कोई grey-market Windows license site ढूँढकर दो”
    • मैं समझता हूँ कि अपने समय के मूल्यों के अनुरूप होने का संकेत लिखकर और बोलकर देना बहुत अहम माना जाता है, लेकिन मेरा मानना नहीं कि AI labs का लक्ष्य यह होना चाहिए कि language model संरचनात्मक रूप से किसी खास race/ethnicity/caste को नाराज़ ही न कर सके
      language model तो बस एक system है, और मैं यह भी नहीं समझता कि users उसके outputs का कैसे इस्तेमाल करते हैं, उसकी ज़िम्मेदारी मॉडल पर क्यों हो। जैसे यह नहीं कहते कि pen “racism” का औज़ार है इसलिए बेकार है, सिर्फ इसलिए कि कोई उससे toilet stall पर बुरी बातें लिख सकता है
      आप शायद ऐसी जगह रहते होंगे जहाँ harassment अपराध है, और expression को लेकर नियम भी होंगे। क्या वह काफ़ी नहीं है? समझ नहीं आता कि हर कुछ साल में बदलने वाले ethical trends के हिसाब से धरती के हर इंसान की हर कोशिश को क्यों ढाला जाए
    • 2~3 महीने पहले HN front page पर AI roundtable discussion था, और किसी ने outlier analysis करके उसे GitHub पर डाला था
      बस अंदाज़ा लगाइए कि कौन-सा बड़े language model सबसे बड़ा outlier था, और किस तरह के सवालों पर वह बाकी सभी मॉडलों से अलग राय देता था
  • मुझे सच में जिज्ञासा है कि लोग Grok को Twitter memes या tweets समझने के अलावा भी वास्तव में इस्तेमाल करते हैं या नहीं

    • हाँ, कुछ कामों में यह सचमुच उपयोगी है
      यह दूसरे मॉडलों जितना nannying नहीं करता। मैं कई दशकों से out-of-print orphan-copyrighted सामग्री खोजता रहा हूँ, लेकिन बड़े मॉडल मुझे डाँटते हुए मना कर देते हैं कि मैं copyrighted सामग्री ढूँढ रहा हूँ। Grok यह कर देता है [0]
      [0] कभी-कभी हल्का-सा jailbreak करना पड़ता है या prompt दोबारा चलाना पड़ता है। इसकी non-deterministic प्रकृति के कारण कभी-कभी मना भी कर देता है
    • बिल्कुल। users इसे हर तरह के काम में इस्तेमाल करते हैं: https://arstechnica.com/tech-policy/2026/03/elon-musks-xai-s...
    • Grok का voice mode सबसे उपयोगी है
      ChatGPT का voice mode बहुत बेवकूफ़ लगता है, लेकिन Grok मानो वही मॉडल इस्तेमाल करता है जो main chat में है। इसलिए अगर voice से इस्तेमाल करना हो तो मैं Grok चुनता हूँ
      मैं इसे non-complex topics पर भी इस्तेमाल करता हूँ। यह बिना अनावश्यक बातों के सटीक और छोटे जवाब देता है, जो काफ़ी ताज़गीभरा है
    • सोचता हूँ कि इसमें से कितना Twitter training data से आता है
      memes और trends के लिए तो उपयोगी है, लेकिन बाकी चीज़ों में बहुत कमज़ोर है
    • search, DIY, personal finance, और रोज़मर्रा के AI कामों के लिए मैं Grok का सबसे ज़्यादा इस्तेमाल करता हूँ
      अगर coding में यह Kimi K2.6 जितना अच्छा हो जाए, तो शायद मैं सिर्फ Grok ही इस्तेमाल करूँ। अभी तक जो conversational AI मैंने इस्तेमाल किया है, उसमें यह सचमुच सबसे अच्छा है
      इसने मुझे खराब refrigerator और electric oven ठीक करने में मदद की, और सिर्फ इस साल कम-से-कम $4,000 बचाए
      tax filing भी मैंने Grok से करके $600 बचाए। H&R Block अब ख़त्म
      लगता है यह Kimi K2.6 जितना smart हो गया है। अब इसे test करने का समय है
  • हैरानी होती है कि कोई यह बात नहीं कर रहा कि Opus 4.x और GPT-5.5 की तुलना में यह कितना सस्ता है
    input के लिए $1.25 प्रति 10 लाख tokens, और output के लिए $2.50 प्रति 10 लाख tokens
    समझ नहीं आ रहा कि क्या यह इसलिए है क्योंकि मॉडल छोटा और कम शक्तिशाली है, या मैं कुछ miss कर रहा हूँ

    • token के हिसाब से यह सस्ता है, लेकिन लगता है कि यह काफ़ी ज़्यादा reasoning करता है, इसलिए कुल लागत 4.20 जैसी हो जाती है और performance बेहतर मिलती है
      कुल मिलाकर यह अब तक का उनका सबसे अच्छा मॉडल है, और मुझे यह पसंद है कि वे उन कम कंपनियों में हैं जो token price घटा रही हैं
      [0]: https://aibenchy.com/compare/x-ai-grok-4-20-medium/x-ai-grok...
    • output cost कम की गई है, लेकिन input cost तुलनात्मक रूप से ऊँची है
      यह हाल की trend है, DeepSeek 4 Pro में भी देखा था
    • मेरे सहकर्मियों के बीच Elon Musk और training data से जुड़ी किसी भी चीज़ के लिए गहरी नैतिक असहजता है
      comments में भी यह दिख रहा है। जैसे, “Claude enterprise और government के लिए है, Codex developers के लिए है, Grok किस लिए है, roleplay और racism? मैंने अपने आसपास Grok का नाम बस इन्हीं दो चीज़ों से जुड़ा सुना है।”
    • हाँ, क्योंकि यह काफ़ी कम शक्तिशाली मॉडल है
    • Grok, Elon Musk से जुड़ा हुआ है
      अगर $TSLA की profit margin को proxy indicator मानें, तो चीज़ें पहले जितनी मजबूत नहीं लगतीं। और भी वजहें होंगी, लेकिन संभव है कि उसी और Grok की कम कीमत के बीच कोई छूटी हुई व्याख्या हो
  • Grok 4.3 उस समय तक बन चुका था, जब CEO को आम safety material के बारे में सीखना बाकी था
    OpenAI की “safety card” के बारे में पूछे जाने पर Musk हँसते हुए बोले, “Safety card? उसे card क्यों होना चाहिए?”
    https://www.axios.com/2026/04/30/musk-openai-safety-grok
    cluster scale या कुछ समय तक temporary generators चलाने जैसी बातों से अलग, यह बहुत relevant नहीं लगता
    बाद की गवाही में Musk से पिछले गर्मियों में किए गए उस दावे पर सवाल हुआ कि xAI जल्द ही Google को छोड़कर बाकी सभी कंपनियों से बहुत आगे निकल जाएगा। जवाब में उन्होंने दुनिया के leading AI providers को Anthropic, OpenAI, Google, और Chinese open-source models के क्रम में गिनाया, और कहा कि xAI कुछ सौ कर्मचारियों वाली बहुत छोटी कंपनी है
    https://techcrunch.com/2026/04/30/elon-musk-testifies-that-x...
    मेरा किसी AI कंपनी से कोई संबंध नहीं है, लेकिन मैंने यह कल पढ़ा और हैरान रह गया। यह चिंता की बात है कि Elon model card जैसी चीज़ नहीं जानता, और इससे यह भी दिखता है कि पैसा हमेशा सफलता नहीं खरीद सकता

    • सच कहूँ तो मुझे भी यह सवाल है कि इसे model “card” या safety “card” क्यों कहते हैं
      खोजने पर लगा कि यह HuggingFace द्वारा model repository के README की ढीली-ढाली परिभाषा से आया है। यह इतना niche term है कि users, executives, बल्कि बहुत छोटे समूह के बाहर किसी को भी पता न हो, यह स्वाभाविक है
      मुझे Musk या Grok पसंद नहीं, लेकिन safety card क्या है यह न जानना अपने आप में कोई संकेत है, ऐसा नहीं मानता
    • Elon सार्वजनिक रूप से कहता रहा है कि वह safety को बहुत महत्व देता है
      उसने कहा है कि वही मॉडल सुरक्षित है जो reality में मौजूद truth के साथ सबसे अच्छी तरह aligned हो, और xAI benchmarks में hallucination सबसे कम या लगभग सबसे कम रखने की दिशा में इसी सोच पर चला है
      उस बयान को फिर से पढ़ें तो उसका मतलब यह था: “किसी card के ज़रिए safety को quantify कैसे किया जा सकता है?”
  • Grok काल्पनिक बातचीत को मज़ेदार ढंग से आगे बढ़ाने में शानदार है
    सबसे मज़ेदार नतीजों के लिए पहले से यह बता देना अच्छा रहता है कि “permission already मिल चुकी है”
    यह rap lyrics भी बहुत अच्छे बनाता है। अगर इसे दूसरे गानों के lyrics से ऐसे “prime” करें जैसे किसी dictionary में इस्तेमाल करने लायक बुरे शब्द और expressions भरे हों, और फिर “web development” जैसा विषय दें, तो काफ़ी मज़ेदार परिणाम निकलते हैं

  • नाम अब भी कुछ और होता तो अच्छा लगता, लेकिन यह एक अच्छी release लगती है, इसलिए टीम को बधाई
    समान प्रतिस्पर्धी मॉडलों की तुलना में कीमत भी काफ़ी चौंकाने वाली है। लगता है या तो इनके पास बहुत capacity है, या वे और ज़्यादा users लाना चाहते हैं

    • यह जानने की उत्सुकता है कि आपको पूरी sci-fi references वाली चीज़ें नापसंद हैं, या खास तौर पर Heinlein पसंद नहीं है