5 पॉइंट द्वारा GN⁺ 2025-07-11 | 5 टिप्पणियां | WhatsApp पर शेयर करें
  • xAI का Grok 4 प्रमुख बेंचमार्क में नंबर 1 AI मॉडल बन गया है
  • AAI Index में Grok 4 ने 73 अंक हासिल किए, जो OpenAI o3 (70), Google Gemini 2.5 Pro (70), Anthropic Claude 4 Opus (64), DeepSeek R1 0528 (68) से आगे है
  • Grok 4 ने coding और math से जुड़े बेंचमार्क में भी सर्वोच्च स्कोर दर्ज किए, और GPQA Diamond (88%), Humanity’s Last Exam (24%) जैसे मानकों पर नए रिकॉर्ड बनाए
  • कीमत Grok 3 जैसी ही है, और प्रति टोकन कीमत Claude 4 Sonnet के बराबर है, जबकि Gemini 2.5 Pro या o3 से थोड़ी महंगी है
  • 256k token context window, text/image input, function calling, structured output support जैसी प्रमुख सुविधाएं उपलब्ध हैं

Grok 4, xAI का लीडर मॉडल बनकर उभरा

  • Artificial Analysis Intelligence Index में 73 अंक के साथ Grok 4 ने प्रमुख बेंचमार्क में पहला स्थान हासिल किया
  • OpenAI o3 (70), Google Gemini 2.5 Pro (70), Anthropic Claude 4 Opus (64), DeepSeek R1 0528 (68) से अधिक स्कोर के साथ यह पहली बार है कि xAI ने AI क्षेत्र में बढ़त हासिल की है
  • पहले का Grok 3 भी प्रतिस्पर्धी था, लेकिन Grok 4 xAI का पहला मॉडल है जिसने शीर्ष स्थान हासिल किया

बेंचमार्क और मूल्यांकन परिणाम

  • coding index (LiveCodeBench & SciCode) और math index (AIME24 & MATH-500) दोनों में पहला स्थान
  • GPQA Diamond 88% के साथ Gemini 2.5 Pro के पिछले रिकॉर्ड (84%) को पीछे छोड़ा
  • Humanity’s Last Exam 24%, जो Gemini 2.5 Pro के पिछले 21% से अधिक है
  • MMLU-Pro 87%, AIME 2024 94% आदि में संयुक्त सर्वोच्च स्कोर
  • output speed 75 tokens/sec है, जो o3 (188), Gemini 2.5 Pro (142), Claude 4 Sonnet Thinking (85) से धीमी है, लेकिन Claude 4 Opus Thinking (66) से तेज है

अन्य प्रमुख जानकारी

  • 256k token context window उपलब्ध है (Gemini 2.5 Pro: 1M, Claude 4 Sonnet/Opus: 200k, o3: 200k, R1 0528: 128k की तुलना में ऊपरी श्रेणी में)
  • text और image input support
  • function calling और structured output support
  • pricing policy: Grok 3 के समान, 1M input/output tokens पर $3/$15, और cached input tokens पर $0.75
    • Claude 4 Sonnet के बराबर, लेकिन Gemini 2.5 Pro और o3 से कुछ महंगा
  • Grok 4 xAI API, Grok chatbot (X/Twitter), Microsoft Azure AI Foundry आदि पर उपलब्ध कराया जाएगा

सारांश

  • Grok 4 xAI का पहला AI मॉडल है जिसने शीर्ष स्थान हासिल किया है, और बेंचमार्क व संख्यात्मक प्रदर्शन में प्रमुख प्रतिस्पर्धी मॉडलों को पीछे छोड़ा है
  • मजबूत reasoning क्षमता, विविध input/output तरीके, और उच्च context support के साथ यह उद्योग में नेतृत्व साबित करता है
  • X/Twitter के लिए उपयोग होने वाले मॉडल और API मॉडल के implementation details अलग हो सकते हैं

5 टिप्पणियां

 
slowandsnow 2025-07-11

फिलहाल जब तक यह फ्री में उपलब्ध नहीं होता, तब तक यक़ीन नहीं होगा। Grok तो 30 डॉलर का भी है, इसलिए सब्सक्राइब करने में भी डर लगता है...

 
paruaa 2025-07-11

शायद इसे कम alignment वाले मॉडल की परफॉर्मेंस समझा जा सकता है, लेकिन मेरा मानना है कि शायद बाद में इस पर लगाम लगेगी और इसकी परफॉर्मेंस गिर जाएगी

 
click 2025-07-11

जब gemini cli इस्तेमाल करते हैं, तो 1M context की वजह से user experience बिल्कुल अलग स्तर का लगता है.
पूरे codebase को context में डाल पाना सच में game changer है

 
koolgu 2025-07-11

दिलचस्प है कि context size मॉडल के उपयोग को कितनी प्रभावित करती है, लेकिन अब भी benchmark और ऊपर-ऊपर के अंदाज़ में यह कहना कि कौन नंबर 1 है, यह उन लोगों के लिए viral marketing करने से आखिर कितना अलग है जो यह बात नहीं जानते?

 
GN⁺ 2025-07-11
Hacker News राय
  • समझ नहीं आता कि Grok के लिए कौन पैसे देगा, ऊपर से लगता है कि इन दिनों यह पूरी तरह गड़बड़ हो गया है, xAI की valuation बस एक भ्रम है
    • मैं Grok के लिए पैसे दे रहा हूँ, कई महीनों से Google की जगह Grok इस्तेमाल कर रहा हूँ, X graph तक इसकी पहुँच होने की वजह से यह सच में उपयोगी है और इसमें काफ़ी ताज़ा जानकारी भी मिलती है, काश इसे Cline या Cursor में भी इस्तेमाल किया जा सकता
    • क्या आपको पता है कि समस्या पैदा करने वाली चीज़ Grok मॉडल नहीं बल्कि X का @grok bot है? Grok के API version में अचानक बिना वजह Hitler की नकल करने जैसी कोई बात नहीं होती (जब तक आप खुद ऐसा न कहें)
  • ARC-AGI2 में इसने o3 से 4 गुना और opus 4 से 2 गुना performance दर्ज की है… दूसरे independent benchmarks में भी यह काफ़ी मज़बूत दिख रहा है, हर मॉडल के एक-एक महीने तक "दुनिया का सबसे अच्छा" होने का दावा करने वाला यह छोटा-सा cycle चलता ही रहता है, इस कीमत पर यह consumers के लिए अच्छा है, open models के training datasets भी ज़्यादा विविध होते जा रहे हैं, यानी win-win है, मशहूर हस्तियों को लेकर भावनात्मक लड़ाइयों की वजह से लोग जो सिरदर्द भरे बहाने घुमा रहे हैं, वह देखना दुखद है, बहुत से लोगों को media detox की ज़रूरत है, पहले LLM को "stochastic parrots" कहा जाता था, लेकिन अब इस thread और Reddit को देखकर लगता है कि लोग ही बेवकूफी और नफ़रत भरी बातें तोते की तरह दोहरा रहे हैं, बेहतर होना चाहिए
  • मुझे हैरानी है कि क्या आगे भी मेरे code में Hitler से जुड़े जवाब आते रहेंगे, संपादन: अब मुझे मूर्ख जैसा लग रहा है कि मैं यह नहीं समझ पाया कि यह एक और "genius" marketing move था