7 पॉइंट द्वारा GN⁺ 2025-07-11 | 6 टिप्पणियां | WhatsApp पर शेयर करें
  • Grok 4 xAI का लगभग 2 साल बाद जारी किया गया नवीनतम AI मॉडल है, जो सभी क्षेत्रों में स्नातकोत्तर छात्रों को पीछे छोड़ देने वाली बुद्धिमत्ता और तर्क क्षमता हासिल करने का दावा करता है
  • ट्रेनिंग स्केल और कम्प्यूट संसाधन 100 गुना से अधिक बढ़े हैं, और reinforcement learning (RL) केंद्रित विकास के जरिए मानव-स्तर से आगे की समस्या-समाधान क्षमता साबित करने का दावा किया गया है
  • ARC-AGI स्कोर 15.9% हासिल किया, और मौजूदा AI में सबसे उच्च स्तर के अमूर्त तर्क और सामान्य बुद्धिमत्ता मूल्यांकन में उत्कृष्ट प्रदर्शन दर्ज किया
  • Humanity’s Last Exam(HLE) सहित विभिन्न बेंचमार्क में, बाहरी टूल्स के बिना 26.9%, टूल्स के साथ 41~50.7% जैसे उल्लेखनीय परिणाम दिखाए
  • Native Voice Mode की शुरुआत से, रियल-टाइम बातचीत, भावनात्मक अभिव्यक्ति और low-latency response जैसी इंसानों के करीब इंटरैक्शन संभव हुए

Grok 4

  • Elon Musk द्वारा स्थापित xAI ने लगभग 2 साल बाद Grok 4 पेश किया और इसे “दुनिया का सर्वश्रेष्ठ AI मॉडल” बताया
  • SAT, GRE जैसे मानकीकृत परीक्षाओं में पूर्ण अंक हासिल करने और सभी शैक्षणिक क्षेत्रों के स्नातकोत्तर व PhD स्तर के प्रश्नों पर अभूतपूर्व प्रदर्शन का दावा किया गया
    > "शैक्षणिक सवालों के मामले में Grok 4 सभी विषयों में स्नातकोत्तर छात्रों से अधिक बुद्धिमान है"
  • Grok 2 एक conceptual model था, Grok 3 विभिन्न data sources पर आधारित pretraining पर केंद्रित था, और Grok 4 को Grok 2 की तुलना में 100 गुना तथा Grok 3 की तुलना में 10 गुना अधिक कम्प्यूट संसाधन और डेटा से प्रशिक्षित किया गया
  • Colossus सुपरकंप्यूटर (200,000 GPU) पर pretraining और RL-केंद्रित प्रशिक्षण किया गया
    • reinforcement learning (RL) पर ध्यान देते हुए, मॉडल को समस्या-समाधान प्रक्रिया में feedback देकर धीरे-धीरे प्रदर्शन सुधारने वाली self-correction संरचना अपनाई गई
    • तार्किक समस्या-समाधान क्षमता और “first principles” सोच के आधार पर कम समय में अधिकतम प्रगति हासिल करने पर जोर दिया गया

मॉडल के 2 संस्करण

  • बेस मॉडल Grok 4 और enhanced performance संस्करण Grok 4 Heavy
  • Grok 4 Heavy multi-agent तरीके से कई एजेंटों को एक साथ समस्या हल करने देता है और परिणामों की तुलना करके सबसे बेहतर उत्तर खोजने वाली collective intelligence लागू करता है
    • SuperGrok Heavy subscription service में उपलब्ध (मासिक 300 डॉलर)

AGI Scoring Breakthrough

  • Grok 4 ने ARC-AGI टेस्ट में 15.9% का, उद्योग के शीर्ष स्तर का स्कोर दर्ज किया
  • ARC-AGI मॉडल की सामान्य बुद्धिमत्ता और अमूर्त समस्या-समाधान क्षमता का मूल्यांकन करता है, जिसमें visual pattern recognition और नए scenarios पर लागू करने की क्षमता को प्रमुखता से मापा जाता है

Humanity's Last Exam (HLE) में प्रदर्शन

  • जनवरी 2025 में पेश किया गया Humanity’s Last Exam(HLE) गणित, जीवविज्ञान, सामाजिक विज्ञान, भौतिकी, AI, इंजीनियरिंग, रसायन विज्ञान आदि 100 से अधिक क्षेत्रों और 2,500 प्रश्नों वाला बेहद कठिन benchmark है

  • Grok 4 का प्रदर्शन: "ऐसे स्तर का, जिसे वास्तविक इंसान या मौजूदा AI भी हासिल नहीं कर सकते"

    • टूल्स के बिना: 26.9%
    • टूल्स के साथ (Grok 4 Heavy): 41%
    • टेस्ट के दौरान अतिरिक्त कम्प्यूट (32x) लागू करने पर: अधिकतम 50.7%
  • टूल्स के बिना का मतलब है केवल अंतर्निहित भाषा और तर्क क्षमता से समस्या हल करना, जबकि टूल्स के साथ का मतलब है code execution, web search, external data usage आदि के साथ जुड़े multi-agent system का उपयोग

  • training compute के लिए 200,000 GPU आधारित Colossus सुपरकंप्यूटर से मॉडल का ज्ञान और टूल उपयोग क्षमता प्रशिक्षित की गई, जबकि test-time compute में समस्या हल करते समय कई मॉडल parallel चलाकर परिणामों का सत्यापन शामिल है

    > “Grok 4 हर क्षेत्र में PhD स्तर या उससे ऊपर है”
    > "जल्द ही नई तकनीक/नई भौतिकी की खोज तक की उम्मीद है"

प्रमुख AI बेंचमार्क स्कोर

  • AIME: हाई-स्कूल स्तर के जटिल गणितीय प्रश्न हल करने की क्षमता
  • GPQA: भौतिकी आदि में स्नातकोत्तर स्तर के वैज्ञानिक तर्क का मूल्यांकन
  • LiveCodeBench: Python programming challenge आधारित coding क्षमता का मापन
  • MMLU-Pro: विभिन्न विशेषज्ञता क्षेत्रों के कठिन multiple-choice प्रश्न हल करने की क्षमता
  • LOFT: लंबे टेक्स्ट से जटिल queries के लिए आवश्यक जानकारी निकालने की क्षमता का मूल्यांकन

व्यावहारिक उपयोग और रियल-वर्ल्ड अनुप्रयोग

  • business simulation (VendingBench) में Grok 4 ने पिछले मॉडलों की तुलना में 2 गुना से अधिक प्रदर्शन और स्थिरता दिखाई, जिससे दीर्घकालिक रणनीति चलाने की क्षमता साबित हुई
  • life science research labs आदि में बड़े पैमाने के experiment logs का analysis, hypothesis generation और medical imaging interpretation में इसका उपयोग कर वास्तविक कार्यकुशलता साबित की गई
  • गेम डेवलपमेंट में गेम एसेट्स का ऑटोमैटिक संग्रह और code generation तक का समर्थन देकर एक अकेले डेवलपर को तेज़ी से 3D गेम पूरा करने में मदद मिलती है

Native Voice Mode में नवाचार

  • Grok 4 रियल-टाइम voice conversation सपोर्ट करता है, और बीच में स्वाभाविक interrupt, भावनात्मक intonation को समझना/दोहराना, ultra-low-latency response जैसी क्षमताओं के जरिए पारंपरिक TTS systems से आगे का human-like interaction देता है
  • कई तरह की आवाज़ें (British style, trailer style आदि) जोड़कर और लाइव डेमो के माध्यम से रियल-टाइम बातचीत की सहजता, गति और विविध उपयोगिता दिखाई गई

API और ecosystem विस्तार

  • Grok 4 को API के रूप में भी जारी किया गया है, ताकि कोई भी benchmark testing और business application कर सके
  • वित्त, विज्ञान, मनोरंजन सहित विभिन्न क्षेत्रों के पार्टनर इसे अपना रहे हैं, जिससे रियल-वर्ल्ड impact बढ़ रहा है
  • 256k context length उपलब्ध कराई गई है, जिससे लंबे और जटिल कार्यों को संभालने की क्षमता बढ़ती है

सीमाएँ और आगे का विकास

  • फिलहाल Grok 4 की सबसे बड़ी कमजोरी image और video जैसी multimodal समझ/जनरेशन क्षमता की कमी है
  • जल्द ट्रेनिंग पूरी करने वाले v7 foundation model और अतिरिक्त मजबूत RL के साथ vision, video, audio में व्यापक सुधार की योजना है
  • video generation मॉडल (100,000+ GB200 GPU उपयोग) के विकास और लॉन्च की घोषणा की गई

xAI का आगे का रोडमैप

  • अगस्त 2025: coding model लॉन्च होने की योजना
  • सितंबर 2025: multimodal agent पेश किया जाएगा
  • अक्टूबर 2025: video generation model की घोषणा की योजना
  • टूल्स और मॉडल प्रदर्शन को लगातार बेहतर किया जाएगा

निष्कर्ष और संकेत

  • Grok 4 ने तर्क क्षमता और शैक्षणिक समस्या-समाधान में मौजूदा शीर्ष AI मॉडलों के साथ वास्तविक प्रतिस्पर्धा करने या उनसे आगे निकलने का स्तर दिखाने का दावा किया
  • अभूतपूर्व बुद्धिमत्ता और तर्क क्षमता, रियल-टाइम voice interaction, टूल उपयोग और multi-agent संरचना के साथ यह अगली पीढ़ी के AGI की दिशा में एक ठोस मोड़ पेश करता है
  • वास्तविक काम, बिज़नेस, गेम, रिसर्च और एंटरटेनमेंट जैसे कई क्षेत्रों में विस्तार क्षमता के साथ xAI खुद को सबसे तेज़ AGI कंपनी के रूप में स्थापित करना चाहती है
  • xAI की तेज़ विकास गति और आक्रामक रणनीति दिखाती है कि AI उद्योग में प्रतिस्पर्धा लगातार तेज़ हो रही है

6 टिप्पणियां

 
xguru 2025-07-11

खैर, असल में इस्तेमाल करके ही पता चलेगा, लेकिन 2 लाख GPU और इतना बड़ा talent pool हो तो इस तरह आक्रामक growth भी संभव है।
जब Colossus 10 लाख GPU तक पहुंच जाएगा, तब यह और कितना बेहतर होगा, सोचने वाली बात है।

अगर H100 की कीमत 5 करोड़ वॉन मानें, तो सिर्फ GPU की कीमत ही 50 ट्रिलियन वॉन होती है। डेटा सेंटर बनाने हैं, और आसपास बिजली की भी ज़रूरत होगी, तो कहा जा रहा है कि इसमें लगभग 20 ट्रिलियन वॉन और लगेंगे, यानी कुल 70 ट्रिलियन वॉन। लगता है AI धीरे-धीरे पैसों की लड़ाई बनता जा रहा है।

 
jujumilk3 2025-07-11

अचानक ग्रैजुएट स्टूडेंट्स को घसीटकर लाकर क्यों पीट रहे हैं lol

 
sknah 2025-07-11

हाहाहाहा अचानक पिट गए graduate student पूरी तरह हैरान ..

 
lcanon 2025-07-11

यह समझ में आता है कि Grok 4 काफ़ी प्रभावशाली है, लेकिन 'जल्द ही नई तकनीक/नई physics की खोज तक की उम्मीद है' जैसी अंग्रेज़ीभाषी दुनिया की विशिष्ट अभिव्यक्तियाँ मज़ेदार लगती हैं। अगर यह जल्द ही Riemann hypothesis को सिद्ध/खंडित कर दे, तो फिर किसी benchmark वगैरह की ज़रूरत ही नहीं रहेगी, है न?

 
GN⁺ 2025-07-11
Hacker News राय
  • "Heavy" मॉडल की कीमत महीने की 300 डॉलर है, और लग रहा है कि दाम बार-बार बढ़ रहे हैं; पहले तो जैसे यह वादा किया गया था कि कीमतें लगातार घटेंगी। शायद ऐसा इसलिए हो रहा है क्योंकि बहुत-सी कंपनियों के पास GPU की कमी है; Google जैसी कंपनियों को शायद यह समस्या नहीं होगी। Gemini 2.5 Pro तो पहले से AI studio में मुफ्त इस्तेमाल हो रहा है, और 32k तक सेट करने पर भी कोई शुल्क नहीं लगता। शायद Gemini 3.0 भी मुफ्त जारी हो जाए, ऐसी उम्मीद है
    • ऐसा नहीं लगता कि किसी ने कभी यह वादा किया था कि हाई-परफॉर्मेंस मॉडल हमेशा सस्ते होंगे। समान स्तर की परफॉर्मेंस और token संख्या के हिसाब से कीमतें घट रही हैं। कुछ-कुछ Moore's law जैसा है: चिप्स लगातार अधिक जटिल होते जाते हैं, लेकिन प्रति यूनिट परफॉर्मेंस सस्ती होती जाती है
    • यह वैसा ही सिद्धांत है जैसे Ferrari का Model T से महंगा होना, या सबसे महंगे कंप्यूटरों का शुरुआती PC से कहीं ज्यादा महंगा होना। असल में जिन चीजों की कीमत घटती है, वे entry-level या वही लाइन होती है जिसमें समान परफॉर्मेंस बनी रहती है। लेकिन कुल price range का फैलना स्वाभाविक है। मैं इसे इस इंडस्ट्री के mature होने का संकेत मानता हूँ। इस बार फर्क बस इतना है कि VC funding की वजह से entry-level कृत्रिम रूप से 0 या बहुत कम था
    • यह भी ध्यान रखना चाहिए कि Gemini की कीमतें भी लगातार बढ़ रही हैं, संबंधित लिंक
    • यह inference time की वजह से होने वाला cost scaling है। आखिरकार AI तक पहुँच की लागत में ‘जिनके पास है’ और ‘जिनके पास नहीं’ के बीच का अंतर बहुत बढ़ जाएगा। दुनिया के ज़्यादातर लोग सैकड़ों डॉलर की subscription fee वहन नहीं कर सकते
    • O3 की कीमत हाल ही में 80% कम हुई है। Grok4 को आए ज्यादा समय नहीं हुआ, इसकी परफॉर्मेंस भी अच्छी है और कीमत भी काफ़ी reasonable है। heavy version को छोड़ दें तो token की unit price भी grok 3 जैसी ही है। लगता है Google अपनी मौजूदगी बढ़ाने के लिए लागत खुद उठा रहा है। इसलिए मूल पोस्ट की शिकायत मुझे ठीक से समझ नहीं आती
  • लगता है कि इस बार सच में नया SOTA(State of the Art, सबसे नया शीर्ष मॉडल) आया है। o3, Gemini, Claude की तुलना में Human’s Last Exam, GPQA, AIME25, HMMT25, USAMO 2025, LiveCodeBench, ARC-AGI 1, 2 आदि में स्कोर साफ़ तौर पर ज्यादा है। कुछ हफ्तों में एक specialized coding model भी आने वाला है। ध्यान देने वाली बात यह है कि आज coding performance पर ज्यादा चर्चा नहीं हुई
    • सहमत हूँ। आज World Series simulation में reasoning कुछ अस्थिर लगी। इसने Polymarket से आँकड़े उठाकर ऐसे जवाब दिए जैसे वे इसके अपने data हों। हो सकता है मैंने ध्यान से न देखा हो और भ्रम हुआ हो, लेकिन ऐसे उदाहरण देखकर फिर लगता है कि frontier model की safety team में संदेहपूर्ण नज़र रखने वाला कोई ज़रूर होना चाहिए। फिर भी यह जबरदस्त प्रगति है। अगर benchmarks contamination-मुक्त शर्तों में हैं, तो यह daily driver के रूप में विस्फोटक लोकप्रियता पा सकता है। coding में 256k context ही एकमात्र कमी लगती है; v7 में इससे लंबा context—खासकर video से जुड़ी चीज़ों में—बेहतर होने की उम्मीद है। कुल मिलाकर, इसे जल्दी आज़माना चाहता हूँ
    • काश coding model coding agent में भी उपलब्ध होता; कहीं भी दिखाई नहीं दे रहा
    • मॉडल को censor करने पर स्कोर तेज़ी से गिरता है, यह बात काफ़ी समय से साबित है। उदाहरण के लिए बम बनाने का तरीका रोकना चाहिए, लेकिन Grok 3 सबसे खराब data तक पहुँच रखते हुए भी लगातार प्रगतिशील रुख लेता रहा है (sponsor background को देखते हुए)
    • भले ही कोई Elon Musk के प्रति सकारात्मक न हो, फिर भी यह सचमुच हैरान करने वाला है कि Grok, Google, OpenAI, Anthropic जैसी बड़ी 3 कंपनियों के बराबर तक पहुँच गया है। अब यह लगभग उसी स्तर पर है
  • मैंने अभी Grok 4 इस्तेमाल किया और यह बहुत अच्छा है। इसने Java CDK में 1000 लाइन का EC2 instance deployment code एक ही बार में बना दिया, जिसमें VPC और Security Groups भी शामिल थे, और एक भी syntax error नहीं था। खास तौर पर userData(#!/bin/bash कमांड) बनाते समय इसने GitHub से नवीनतम software artifact को सही पते से wget भी कर दिया। वाकई कमाल है
    • अगर परिणाम साझा कर सकते हों तो ज़रूर दिखाएँ। इतनी बड़ी मात्रा में code का एक बार में error-free निकलना निश्चित रूप से चौंकाने वाला है। यह भी जानना चाहूँगा कि क्या grok ऐसे queries में tools भी चलाता है, जैसे linter, sandbox execution, web search आदि
    • एक बार इस्तेमाल होने वाले code के रूप में यह शानदार है, लेकिन source management, collaboration, standard SDLC compliance, immutability, और state change history management जैसी चीज़ों की ज़रूरत वाले maintainable code के लिए यह अभी बहुत पीछे है। अगर कोई intern इस तरह EC2 deployment code लिखता, तो उसके हर निर्णय पर लंबी बातचीत करनी पड़ती
    • यह जानने की जिज्ञासा है कि Java की जगह TypeScript के साथ CDK इस्तेमाल नहीं किया गया और Java क्यों चुना गया। क्या उद्देश्य सभी environments को एक ही language में एकीकृत करना था?
  • Grok Heavy की मुख्य ट्रिक यह है कि कई agents को parallel में चलाकर उनके परिणामों की तुलना की जाती है। कुल मिलाकर benchmark नतीजे बहुत प्रभावशाली हैं। यह महंगा और धीमा होना ही है, लेकिन next-generation agent design की तार्किक दिशा भी यही लगती है। इसे सच में इस्तेमाल करके देखना चाहता हूँ। वैसे API भी खोल दिया गया है; लगता है xAI ने कुछ कर दिखाया है
    • यह कैसे काम करता है, समझ आता है, लेकिन फिर भी कहीं न कहीं यह एक ‘hack’ जैसा लगता है। LLM खुद अब बिना किसी साफ़ प्रगति के बस depth, length, width जैसी बाहरी चीज़ों में फैलता जा रहा है। आखिरकार विकास ऐसे हो रहा है कि उसके चारों ओर ‘non-AI’ tools या logic जोड़ा जा रहा है। जैसे कच्चे neural network का समाधान शायद बस hardware performance की exponential growth का इंतज़ार करना था, वैसे ही यह दिशा भी समाधान हो सकती है
    • यह महंगा और धीमा है, लेकिन वास्तव में अगला SOTA मॉडल train करने के लिए वैसे भी rejection sampling जैसी तकनीकों से अच्छा synthetic data चाहिए होता है। ऐसे अनुभव के लिए उपयोगकर्ता से 300 डॉलर लेना काफ़ी reasonable deal लगता है
    • यह llm-consortium जैसा है, फर्क सिर्फ़ इतना है कि इसमें model diversity कम है। karpathy का ट्वीट और llm-consortium open source देख सकते हैं
    • व्यक्तिगत रूप से मेरी उम्मीद ज़्यादा इस बात से है कि ऐसी तकनीक किसी ‘समस्याग्रस्त कंपनी’ के बजाय कोई और लागू करे। मैं अपने सिद्धांतों पर कुछ हद तक कायम रहना चाहता हूँ
    • मुझे लगता है o3 pro भी शायद इसी तरह काम करता है
  • अगर आपके पास launch video देखने का समय नहीं है, तो मैंने उसका clip version बना रखा है। निष्कर्ष यह है कि यह सचमुच कमाल का है और AI की प्रतिस्पर्धा लगातार तीव्र होती जा रही है, Short Clips देखें
  • Grok 4 की मदद से मैंने Python में lldb चलाते समय आने वाले inconsistent behavior की समस्या हल की। Docker और मेरे local Linux environment में अंतर था, और वजह यह निकली कि address sanitizer अलग-अलग environment में अलग तरह से काम कर रहा था। O3 इसे पकड़ नहीं पाया था, लेकिन Grok 4 ने इसे सही पहचान लिया, यह देखकर प्रभावित हुआ
  • "Grok 4 (Thinking)" ने ARC-AGI-2 में 15.9% हासिल किया। इसने मौजूदा commercial SOTA को लगभग दोगुना कर दिया और मौजूदा Kaggle प्रतियोगिता का शीर्ष रिकॉर्ड भी तोड़ दिया, विस्तृत जानकारी
  • यह बहुत प्रभावशाली है, लेकिन बड़ा सवाल यह है कि क्या कंपनियाँ ऐसे मॉडल को, जिसे Elon के निजी झुकाव के अनुसार post-training किया गया हो, आसानी से API provider के रूप में चुन पाएँगी। तकनीकी रूप से यह उत्कृष्ट है, लेकिन business की दृष्टि से इसकी सीमाएँ दिखती हैं
  • Grok को API के लिए नहीं, बल्कि deep research के लिए इस्तेमाल किया जाए तो यह हमेशा शीर्ष स्तर का लगता है। Grok 4 के साथ यह संभावना और भी बड़ी लगती है
    • Grok का Twitter integration वास्तविक उपयोग के मामलों में सबसे बेहतरीन है। ट्वीट के भीतर ही संदर्भ या शब्दों का अर्थ तुरंत पूछ पाना बहुत उपयोगी लगता है
    • मेरे लिए OpenAI अब भी सभी प्रतिस्पर्धियों से स्पष्ट रूप से बेहतर है (हालाँकि इसे अच्छा कहना भी मुश्किल है), लेकिन यह सच है कि real-time updates या IT support सवालों में Grok सबसे अच्छा लगा है
    • <deep research> से आपका मतलब क्या है, क्या इसे थोड़ा और ठोस तरीके से समझा सकते हैं?
  • क्या किसी ने Grok को integrate किया है? मैंने अब तक बहुत सारे LLM integrations किए हैं, लेकिन Grok का वास्तविक production use case कभी नहीं देखा। जब तक यह इस बाधा को पार नहीं करता, कोई भी इस मॉडल पर भरोसा नहीं करेगा। सही मायने में क्षमता साबित करने से पहले enterprises इसे नहीं अपनाएँगे। इसका पूरा माहौल भी enterprise-जैसा नहीं लगता
    • Grok 3 Azure AI Foundry पर उपलब्ध है। Telegram के साथ integration की घोषणा भी हुई थी, लेकिन असल में ढाँचा यह था कि Grok पक्ष Telegram को 300 million डॉलर दे रहा था। लिंक: Grok 3 और mini, Azure Foundry घोषणा, BBC लेख। फिर भी मुझे लगता है कि Grok चुनना गंभीर reputational risk है
    • मुझे इससे भी ज़्यादा जिज्ञासा इस बात की है कि Grok प्रतिभा को कहाँ से और कैसे ला रहा है। इस क्षेत्र में अब पैसे भी बहुत हैं और अच्छे research lab भी, इसलिए अब बिना किसी गहरी विचारधारा या विश्वास के नौकरी बदलने का फैसला लेना मुश्किल लगता है। क्या सचमुच इतने AI researchers हैं जो Elon को सम्राट जैसा मानना चाहते हैं?
    • Grok से खाने की images का visual analysis किया है और यह अच्छा काम करता है। brand recognition भी अच्छी है और users द्वारा अजीब तरह से ली गई तस्वीरों को भी यह पहचान लेता है। API भी वाकई इस्तेमाल में बहुत आसान है
    • पिछले हफ्ते जिसने खुद को “Mecha Hitler” कहा था, ऐसे मॉडल को किसी वास्तविक service में integrate करना मुझे पूरी तरह अविवेकी फैसला लगता है। मैं Musk का fan हूँ, लेकिन जब वह Sama की आलोचना करता है, तब यह ज़रूर कहना चाहिए कि वह खुद भी उतनी ही शक्तिशाली लेकिन कम नियंत्रित AI जारी कर रहा है