- xAI का Grok 4 प्रमुख बेंचमार्क में नंबर 1 AI मॉडल बन गया है
- AAI Index में Grok 4 ने 73 अंक हासिल किए, जो OpenAI o3 (70), Google Gemini 2.5 Pro (70), Anthropic Claude 4 Opus (64), DeepSeek R1 0528 (68) से आगे है
- Grok 4 ने coding और math से जुड़े बेंचमार्क में भी सर्वोच्च स्कोर दर्ज किए, और GPQA Diamond (88%), Humanity’s Last Exam (24%) जैसे मानकों पर नए रिकॉर्ड बनाए
- कीमत Grok 3 जैसी ही है, और प्रति टोकन कीमत Claude 4 Sonnet के बराबर है, जबकि Gemini 2.5 Pro या o3 से थोड़ी महंगी है
- 256k token context window, text/image input, function calling, structured output support जैसी प्रमुख सुविधाएं उपलब्ध हैं
Grok 4, xAI का लीडर मॉडल बनकर उभरा
- Artificial Analysis Intelligence Index में 73 अंक के साथ Grok 4 ने प्रमुख बेंचमार्क में पहला स्थान हासिल किया
- OpenAI o3 (70), Google Gemini 2.5 Pro (70), Anthropic Claude 4 Opus (64), DeepSeek R1 0528 (68) से अधिक स्कोर के साथ यह पहली बार है कि xAI ने AI क्षेत्र में बढ़त हासिल की है
- पहले का Grok 3 भी प्रतिस्पर्धी था, लेकिन Grok 4 xAI का पहला मॉडल है जिसने शीर्ष स्थान हासिल किया
बेंचमार्क और मूल्यांकन परिणाम
- coding index (LiveCodeBench & SciCode) और math index (AIME24 & MATH-500) दोनों में पहला स्थान
- GPQA Diamond 88% के साथ Gemini 2.5 Pro के पिछले रिकॉर्ड (84%) को पीछे छोड़ा
- Humanity’s Last Exam 24%, जो Gemini 2.5 Pro के पिछले 21% से अधिक है
- MMLU-Pro 87%, AIME 2024 94% आदि में संयुक्त सर्वोच्च स्कोर
- output speed 75 tokens/sec है, जो o3 (188), Gemini 2.5 Pro (142), Claude 4 Sonnet Thinking (85) से धीमी है, लेकिन Claude 4 Opus Thinking (66) से तेज है
अन्य प्रमुख जानकारी
- 256k token context window उपलब्ध है (Gemini 2.5 Pro: 1M, Claude 4 Sonnet/Opus: 200k, o3: 200k, R1 0528: 128k की तुलना में ऊपरी श्रेणी में)
- text और image input support
- function calling और structured output support
- pricing policy: Grok 3 के समान, 1M input/output tokens पर $3/$15, और cached input tokens पर $0.75
- Claude 4 Sonnet के बराबर, लेकिन Gemini 2.5 Pro और o3 से कुछ महंगा
- Grok 4 xAI API, Grok chatbot (X/Twitter), Microsoft Azure AI Foundry आदि पर उपलब्ध कराया जाएगा
सारांश
- Grok 4 xAI का पहला AI मॉडल है जिसने शीर्ष स्थान हासिल किया है, और बेंचमार्क व संख्यात्मक प्रदर्शन में प्रमुख प्रतिस्पर्धी मॉडलों को पीछे छोड़ा है
- मजबूत reasoning क्षमता, विविध input/output तरीके, और उच्च context support के साथ यह उद्योग में नेतृत्व साबित करता है
- X/Twitter के लिए उपयोग होने वाले मॉडल और API मॉडल के implementation details अलग हो सकते हैं
5 टिप्पणियां
फिलहाल जब तक यह फ्री में उपलब्ध नहीं होता, तब तक यक़ीन नहीं होगा। Grok तो 30 डॉलर का भी है, इसलिए सब्सक्राइब करने में भी डर लगता है...
शायद इसे कम alignment वाले मॉडल की परफॉर्मेंस समझा जा सकता है, लेकिन मेरा मानना है कि शायद बाद में इस पर लगाम लगेगी और इसकी परफॉर्मेंस गिर जाएगी
जब gemini cli इस्तेमाल करते हैं, तो 1M context की वजह से user experience बिल्कुल अलग स्तर का लगता है.
पूरे codebase को context में डाल पाना सच में game changer है
दिलचस्प है कि context size मॉडल के उपयोग को कितनी प्रभावित करती है, लेकिन अब भी benchmark और ऊपर-ऊपर के अंदाज़ में यह कहना कि कौन नंबर 1 है, यह उन लोगों के लिए viral marketing करने से आखिर कितना अलग है जो यह बात नहीं जानते?
Hacker News राय