Grok 4 लॉन्च
(twitter.com/xai)- Grok 4 xAI का लगभग 2 साल बाद जारी किया गया नवीनतम AI मॉडल है, जो सभी क्षेत्रों में स्नातकोत्तर छात्रों को पीछे छोड़ देने वाली बुद्धिमत्ता और तर्क क्षमता हासिल करने का दावा करता है
- ट्रेनिंग स्केल और कम्प्यूट संसाधन 100 गुना से अधिक बढ़े हैं, और reinforcement learning (RL) केंद्रित विकास के जरिए मानव-स्तर से आगे की समस्या-समाधान क्षमता साबित करने का दावा किया गया है
- ARC-AGI स्कोर 15.9% हासिल किया, और मौजूदा AI में सबसे उच्च स्तर के अमूर्त तर्क और सामान्य बुद्धिमत्ता मूल्यांकन में उत्कृष्ट प्रदर्शन दर्ज किया
- Humanity’s Last Exam(HLE) सहित विभिन्न बेंचमार्क में, बाहरी टूल्स के बिना 26.9%, टूल्स के साथ 41~50.7% जैसे उल्लेखनीय परिणाम दिखाए
- Native Voice Mode की शुरुआत से, रियल-टाइम बातचीत, भावनात्मक अभिव्यक्ति और low-latency response जैसी इंसानों के करीब इंटरैक्शन संभव हुए
Grok 4
- Elon Musk द्वारा स्थापित xAI ने लगभग 2 साल बाद Grok 4 पेश किया और इसे “दुनिया का सर्वश्रेष्ठ AI मॉडल” बताया
- SAT, GRE जैसे मानकीकृत परीक्षाओं में पूर्ण अंक हासिल करने और सभी शैक्षणिक क्षेत्रों के स्नातकोत्तर व PhD स्तर के प्रश्नों पर अभूतपूर्व प्रदर्शन का दावा किया गया
> "शैक्षणिक सवालों के मामले में Grok 4 सभी विषयों में स्नातकोत्तर छात्रों से अधिक बुद्धिमान है" - Grok 2 एक conceptual model था, Grok 3 विभिन्न data sources पर आधारित pretraining पर केंद्रित था, और Grok 4 को Grok 2 की तुलना में 100 गुना तथा Grok 3 की तुलना में 10 गुना अधिक कम्प्यूट संसाधन और डेटा से प्रशिक्षित किया गया
- Colossus सुपरकंप्यूटर (200,000 GPU) पर pretraining और RL-केंद्रित प्रशिक्षण किया गया
- reinforcement learning (RL) पर ध्यान देते हुए, मॉडल को समस्या-समाधान प्रक्रिया में feedback देकर धीरे-धीरे प्रदर्शन सुधारने वाली self-correction संरचना अपनाई गई
- तार्किक समस्या-समाधान क्षमता और “first principles” सोच के आधार पर कम समय में अधिकतम प्रगति हासिल करने पर जोर दिया गया
मॉडल के 2 संस्करण
- बेस मॉडल Grok 4 और enhanced performance संस्करण Grok 4 Heavy
- Grok 4 Heavy multi-agent तरीके से कई एजेंटों को एक साथ समस्या हल करने देता है और परिणामों की तुलना करके सबसे बेहतर उत्तर खोजने वाली collective intelligence लागू करता है
- SuperGrok Heavy subscription service में उपलब्ध (मासिक 300 डॉलर)
AGI Scoring Breakthrough
- Grok 4 ने ARC-AGI टेस्ट में 15.9% का, उद्योग के शीर्ष स्तर का स्कोर दर्ज किया
- ARC-AGI मॉडल की सामान्य बुद्धिमत्ता और अमूर्त समस्या-समाधान क्षमता का मूल्यांकन करता है, जिसमें visual pattern recognition और नए scenarios पर लागू करने की क्षमता को प्रमुखता से मापा जाता है
Humanity's Last Exam (HLE) में प्रदर्शन
-
जनवरी 2025 में पेश किया गया Humanity’s Last Exam(HLE) गणित, जीवविज्ञान, सामाजिक विज्ञान, भौतिकी, AI, इंजीनियरिंग, रसायन विज्ञान आदि 100 से अधिक क्षेत्रों और 2,500 प्रश्नों वाला बेहद कठिन benchmark है
-
Grok 4 का प्रदर्शन: "ऐसे स्तर का, जिसे वास्तविक इंसान या मौजूदा AI भी हासिल नहीं कर सकते"
- टूल्स के बिना: 26.9%
- टूल्स के साथ (Grok 4 Heavy): 41%
- टेस्ट के दौरान अतिरिक्त कम्प्यूट (32x) लागू करने पर: अधिकतम 50.7%
-
टूल्स के बिना का मतलब है केवल अंतर्निहित भाषा और तर्क क्षमता से समस्या हल करना, जबकि टूल्स के साथ का मतलब है code execution, web search, external data usage आदि के साथ जुड़े multi-agent system का उपयोग
-
training compute के लिए 200,000 GPU आधारित Colossus सुपरकंप्यूटर से मॉडल का ज्ञान और टूल उपयोग क्षमता प्रशिक्षित की गई, जबकि test-time compute में समस्या हल करते समय कई मॉडल parallel चलाकर परिणामों का सत्यापन शामिल है
> “Grok 4 हर क्षेत्र में PhD स्तर या उससे ऊपर है”
> "जल्द ही नई तकनीक/नई भौतिकी की खोज तक की उम्मीद है"
प्रमुख AI बेंचमार्क स्कोर
- AIME: हाई-स्कूल स्तर के जटिल गणितीय प्रश्न हल करने की क्षमता
- GPQA: भौतिकी आदि में स्नातकोत्तर स्तर के वैज्ञानिक तर्क का मूल्यांकन
- LiveCodeBench: Python programming challenge आधारित coding क्षमता का मापन
- MMLU-Pro: विभिन्न विशेषज्ञता क्षेत्रों के कठिन multiple-choice प्रश्न हल करने की क्षमता
- LOFT: लंबे टेक्स्ट से जटिल queries के लिए आवश्यक जानकारी निकालने की क्षमता का मूल्यांकन
व्यावहारिक उपयोग और रियल-वर्ल्ड अनुप्रयोग
- business simulation (VendingBench) में Grok 4 ने पिछले मॉडलों की तुलना में 2 गुना से अधिक प्रदर्शन और स्थिरता दिखाई, जिससे दीर्घकालिक रणनीति चलाने की क्षमता साबित हुई
- life science research labs आदि में बड़े पैमाने के experiment logs का analysis, hypothesis generation और medical imaging interpretation में इसका उपयोग कर वास्तविक कार्यकुशलता साबित की गई
- गेम डेवलपमेंट में गेम एसेट्स का ऑटोमैटिक संग्रह और code generation तक का समर्थन देकर एक अकेले डेवलपर को तेज़ी से 3D गेम पूरा करने में मदद मिलती है
Native Voice Mode में नवाचार
- Grok 4 रियल-टाइम voice conversation सपोर्ट करता है, और बीच में स्वाभाविक interrupt, भावनात्मक intonation को समझना/दोहराना, ultra-low-latency response जैसी क्षमताओं के जरिए पारंपरिक TTS systems से आगे का human-like interaction देता है
- कई तरह की आवाज़ें (British style, trailer style आदि) जोड़कर और लाइव डेमो के माध्यम से रियल-टाइम बातचीत की सहजता, गति और विविध उपयोगिता दिखाई गई
API और ecosystem विस्तार
- Grok 4 को API के रूप में भी जारी किया गया है, ताकि कोई भी benchmark testing और business application कर सके
- वित्त, विज्ञान, मनोरंजन सहित विभिन्न क्षेत्रों के पार्टनर इसे अपना रहे हैं, जिससे रियल-वर्ल्ड impact बढ़ रहा है
- 256k context length उपलब्ध कराई गई है, जिससे लंबे और जटिल कार्यों को संभालने की क्षमता बढ़ती है
सीमाएँ और आगे का विकास
- फिलहाल Grok 4 की सबसे बड़ी कमजोरी image और video जैसी multimodal समझ/जनरेशन क्षमता की कमी है
- जल्द ट्रेनिंग पूरी करने वाले v7 foundation model और अतिरिक्त मजबूत RL के साथ vision, video, audio में व्यापक सुधार की योजना है
- video generation मॉडल (100,000+ GB200 GPU उपयोग) के विकास और लॉन्च की घोषणा की गई
xAI का आगे का रोडमैप
- अगस्त 2025: coding model लॉन्च होने की योजना
- सितंबर 2025: multimodal agent पेश किया जाएगा
- अक्टूबर 2025: video generation model की घोषणा की योजना
- टूल्स और मॉडल प्रदर्शन को लगातार बेहतर किया जाएगा
निष्कर्ष और संकेत
- Grok 4 ने तर्क क्षमता और शैक्षणिक समस्या-समाधान में मौजूदा शीर्ष AI मॉडलों के साथ वास्तविक प्रतिस्पर्धा करने या उनसे आगे निकलने का स्तर दिखाने का दावा किया
- अभूतपूर्व बुद्धिमत्ता और तर्क क्षमता, रियल-टाइम voice interaction, टूल उपयोग और multi-agent संरचना के साथ यह अगली पीढ़ी के AGI की दिशा में एक ठोस मोड़ पेश करता है
- वास्तविक काम, बिज़नेस, गेम, रिसर्च और एंटरटेनमेंट जैसे कई क्षेत्रों में विस्तार क्षमता के साथ xAI खुद को सबसे तेज़ AGI कंपनी के रूप में स्थापित करना चाहती है
- xAI की तेज़ विकास गति और आक्रामक रणनीति दिखाती है कि AI उद्योग में प्रतिस्पर्धा लगातार तेज़ हो रही है
6 टिप्पणियां
Grok 4 अब अग्रणी AI मॉडल है
Simon Willison की Grok 4 समीक्षा
Grok इज़राइल-फ़िलिस्तीन मुद्दे पर यह खोजता है कि Elon Musk ने X पर क्या कहा है
खैर, असल में इस्तेमाल करके ही पता चलेगा, लेकिन 2 लाख GPU और इतना बड़ा talent pool हो तो इस तरह आक्रामक growth भी संभव है।
जब Colossus 10 लाख GPU तक पहुंच जाएगा, तब यह और कितना बेहतर होगा, सोचने वाली बात है।
अगर H100 की कीमत 5 करोड़ वॉन मानें, तो सिर्फ GPU की कीमत ही 50 ट्रिलियन वॉन होती है। डेटा सेंटर बनाने हैं, और आसपास बिजली की भी ज़रूरत होगी, तो कहा जा रहा है कि इसमें लगभग 20 ट्रिलियन वॉन और लगेंगे, यानी कुल 70 ट्रिलियन वॉन। लगता है AI धीरे-धीरे पैसों की लड़ाई बनता जा रहा है।
अचानक ग्रैजुएट स्टूडेंट्स को घसीटकर लाकर क्यों पीट रहे हैं lol
हाहाहाहा अचानक पिट गए graduate student पूरी तरह हैरान ..
यह समझ में आता है कि Grok 4 काफ़ी प्रभावशाली है, लेकिन 'जल्द ही नई तकनीक/नई physics की खोज तक की उम्मीद है' जैसी अंग्रेज़ीभाषी दुनिया की विशिष्ट अभिव्यक्तियाँ मज़ेदार लगती हैं। अगर यह जल्द ही Riemann hypothesis को सिद्ध/खंडित कर दे, तो फिर किसी benchmark वगैरह की ज़रूरत ही नहीं रहेगी, है न?
Hacker News राय
"Heavy"मॉडल की कीमत महीने की 300 डॉलर है, और लग रहा है कि दाम बार-बार बढ़ रहे हैं; पहले तो जैसे यह वादा किया गया था कि कीमतें लगातार घटेंगी। शायद ऐसा इसलिए हो रहा है क्योंकि बहुत-सी कंपनियों के पास GPU की कमी है; Google जैसी कंपनियों को शायद यह समस्या नहीं होगी। Gemini 2.5 Pro तो पहले से AI studio में मुफ्त इस्तेमाल हो रहा है, और 32k तक सेट करने पर भी कोई शुल्क नहीं लगता। शायद Gemini 3.0 भी मुफ्त जारी हो जाए, ऐसी उम्मीद है#!/bin/bashकमांड) बनाते समय इसने GitHub से नवीनतम software artifact को सही पते सेwgetभी कर दिया। वाकई कमाल हैllm-consortiumजैसा है, फर्क सिर्फ़ इतना है कि इसमें model diversity कम है। karpathy का ट्वीट और llm-consortium open source देख सकते हैंlldbचलाते समय आने वाले inconsistent behavior की समस्या हल की। Docker और मेरे local Linux environment में अंतर था, और वजह यह निकली कि address sanitizer अलग-अलग environment में अलग तरह से काम कर रहा था। O3 इसे पकड़ नहीं पाया था, लेकिन Grok 4 ने इसे सही पहचान लिया, यह देखकर प्रभावित हुआ"Grok 4 (Thinking)"ने ARC-AGI-2 में 15.9% हासिल किया। इसने मौजूदा commercial SOTA को लगभग दोगुना कर दिया और मौजूदा Kaggle प्रतियोगिता का शीर्ष रिकॉर्ड भी तोड़ दिया, विस्तृत जानकारी<deep research>से आपका मतलब क्या है, क्या इसे थोड़ा और ठोस तरीके से समझा सकते हैं?