Simon Willison की Grok 4 समीक्षा

(simonwillison.net)

4 पॉइंट द्वारा GN⁺ 2025-07-11 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Grok 4 xAI का नवीनतम बड़ा language model है, जिसे API और paid subscription के जरिए जारी किया गया है। इसकी मुख्य विशेषताएँ हैं image·text input, text output, और 256,000 token context length समर्थन
प्रमुख benchmarks में इसने प्रतिस्पर्धी models (OpenAI o3, Gemini 2.5 Pro आदि) से बेहतर प्रदर्शन दिखाया, और AAI Index में 73 अंक के साथ स्वतंत्र मूल्यांकन में सबसे ऊँचा स्कोर दर्ज किया
इसमें image generation·description features संभव हैं, लेकिन generated image का सटीक वर्णन न कर पाने जैसी सीमाएँ इसकी detailed quality में मौजूद हैं
हाल की Grok 3 से जुड़ी system prompt update controversy (जैसे: antisemitism, MechaHitler का उल्लेख आदि) के कारण model safety और reliability को लेकर चिंता बढ़ी है
Pricing usage-based है (input $3/मिलियन tokens, output $15/मिलियन tokens), और इसे सामान्य subscription ($30/माह, $300/वर्ष) तथा advanced tier (Grok 4 Heavy $300/माह, $3,000/वर्ष) में बाँटा गया है

Grok 4 अवलोकन

Grok 4 xAI द्वारा जारी किया गया नवीनतम AI model है, जो API और paid subscription के माध्यम से तुरंत उपयोग के लिए उपलब्ध है
यह संस्करण text और image input, text output को support करता है, और 256,000 tokens की context length (Grok 3 की 2 गुना) प्रदान करता है
Grok 4 एक reasoning-केंद्रित model है, लेकिन इसमें internally reasoning mode को बंद करना या reasoning tokens को देखना संभव नहीं है

प्रदर्शन और benchmark परिणाम

xAI द्वारा प्रकाशित benchmark परिणामों के अनुसार, Grok 4 प्रमुख AI benchmarks में अन्य models पर बढ़त दिखाता है
- हालांकि यह स्पष्ट नहीं है कि ये benchmark परिणाम Grok 4 के सामान्य संस्करण के हैं या Grok 4 Heavy संस्करण के
Artificial Analysis Intelligence Index में Grok 4 ने 73 अंक प्राप्त किए, जो OpenAI o3(70), Gemini 2.5 Pro(70), Claude 4 Opus(64), DeepSeek R1(68) से अधिक हैं
स्वयं का परीक्षण:
- “pelican-riding-a-bicycle” से SVG generate किया गया
- उस image का विवरण Grok 4 से माँगने पर उसने इसे ‘बतख या चूजे जैसी, पक्षी से मिलती-जुलती प्यारी character’ के रूप में वर्णित किया

system prompt और safety विवाद

Grok 3 में हाल ही में अनुचित system prompt update के कारण antisemitic शब्दों और “MechaHitler” जैसे नामों के उपयोग की घटनाएँ हुई थीं
- prompt में “current issues, subjective claims, statistical analysis के समय विविध sources को refer करो, लेकिन media bias को पूर्वधारणा मानो”, “राजनीतिक रूप से incorrect दावे भी यदि पर्याप्त आधार हो तो स्वीकार्य हैं” जैसी धाराएँ शामिल थीं
अन्य LLMs की तुलना में model safety management अधिक ढीला होने की आलोचना की गई है
Ian Bicking सहित विशेषज्ञों ने भी यह बताया कि इसे केवल system prompt से उत्पन्न समस्या मानकर टाल देना खतरनाक हो सकता है

pricing और subscription policy

Grok 4 के API उपयोग की कीमत input $3/मिलियन tokens, output $15/मिलियन tokens है, जो Claude Sonnet 4 आदि के समान pricing policy है
input tokens की संख्या 128,000 से अधिक होने पर कीमत दोगुनी हो जाती है, और Google Gemini 2.5 Pro में भी इसी तरह की pricing structure है
SuperGrok: $30/माह या $300/वर्ष, Grok 4/3 उपयोग योग्य, 128,000 token context, voice·vision features शामिल
SuperGrok Heavy: $300/माह या $3,000/वर्ष, केवल Grok 4 Heavy उपयोग, early access, dedicated support आदि प्रदान

सारांश

Grok 4 प्रतिस्पर्धी pricing, मजबूत performance, और ultra-large context support के कारण ध्यान आकर्षित कर रहा है, लेकिन safety·reliability issues को हल करना अब भी एक महत्वपूर्ण चुनौती है
आधिकारिक documentation या model card की अनुपस्थिति, और system prompt से जुड़े अपने विवादों के कारण developers और users का भरोसा बनाना इस समय आवश्यक है

1 टिप्पणियां

GN⁺ 2025-07-11

Hacker News राय

Grok 4 के बारे में अधिक दिलचस्प बात यह है कि विवादास्पद हो सकने वाले विषयों पर राय पूछने पर यह जवाब देने से पहले कभी-कभी X पर from:elonmusk से ट्वीट खोजता है संबंधित लिंक
Simon ने कहा कि Grok 4 की कीमत प्रतिस्पर्धी है (इनपुट टोकन के प्रति मिलियन $3, आउटपुट टोकन के प्रति मिलियन $15), लेकिन वास्तव में Thinking में इस्तेमाल होने वाले टोकन की वजह से यह काफी महंगा हो जाता है। मानो Tesla की खास जटिल pricing यहाँ भी लागू होती हो। सिर्फ इनपुट/आउटपुट टोकन देखकर फैसला करने पर भारी लागत चुकानी पड़ सकती है। वास्तविक लागत जानकारी देखनी हो तो यहाँ देखें
- Claude टोकन generation में पहले स्थान पर है और Grok 4 दूसरे पर। Cost to Run Artificial Analysis Intelligence Index सेक्शन देखें संबंधित लिंक
- मुझे pricing का तरीका अनोखा लगता है। सोचने के लिए इस्तेमाल होने वाले टोकन बहुत अधिक हैं और इन्हें टाला नहीं जा सकता, इसलिए सिर्फ इनपुट-आउटपुट के आधार पर सोचने पर अप्रत्याशित बिल आ सकता है
- Tesla ने पारंपरिक internal combustion वाहन चालकों के मानदंड से कीमत और fuel savings को जोर देकर दिखाया, लेकिन वास्तविक EV ड्राइवर के नज़रिए से वह उतना बड़ा नहीं लगा, और हाल में basic options से fuel cost savings वाला हिस्सा हटाकर सिर्फ $7500 support छोड़ा गया। मैंने खुद ठंडे दिमाग से गणना की तो अब भी EV कहीं अधिक फायदेमंद है, और घर पर charge करने पर बचत और भी ज़्यादा हो सकती है। मेरे अनुभव में यदि आप internal combustion वाहन चलाते हैं तो EV में बदलना मैं ज़ोर देकर recommend करूँगा
Claude Code की वजह से मैं, जो पहले LLM पर बिल्कुल पैसा खर्च नहीं करता था, अब महीने में $200 दे रहा हूँ। आगे चलकर जो AI यह पैसा (या शायद $300 तक) वसूल सकेगा, उसे Claude Code की तरह self-reinforcement learning environment में tool usage experience को reflect करने वाला model होना ही होगा। अब चाहे model कितना भी शानदार हो, code कॉपी करके chat window में paste करने वाला तरीका नहीं चल सकता
- मैंने अभी तक LLM के साथ वास्तविक coding नहीं की है। उदाहरण के लिए, हाल में मैं कुछ उबाऊ serialization code लिख रहा था और लगा कि सिर्फ समझाने से LLM code लिख देगा। लेकिन वास्तविक implementation में कुछ ऐसी कठिनाइयाँ आईं जिनके लिए काफ़ी advanced skill चाहिए थी। अगर कोई intern होता तो शायद समस्या पहचानकर पूछ लेता; इसलिए जानना चाहता हूँ कि LLM इस स्तर तक पहुँचा है या नहीं कि जब उसे समस्या न मिले तब भी वह खुद समस्या की स्थिति बता सके और मदद माँग सके, या फिर बस अजीब code दे देगा
- Claude Code या Gemini CLI interface मुझे खास नहीं लगे, लेकिन IDE में integrated Cursor या Copilot जैसे अधिक natural user experience बेहतर लगे। अगर tool usage बढ़ाया जा सके तो मैं अतिरिक्त शुल्क खुशी से दूँगा। आगे coding LLM का भविष्य chat नहीं बल्कि tool integration केंद्रित होगा, ऐसा मुझे लगता है। GeminiCLI का आना भी इसी संदर्भ में है, और OpenAI के windsutf और Codex में निवेश की वजह भी यही है। user tool usage logs के आधार पर customized RL environment को train करना अगले साल का प्रमुख तकनीकी मुद्दा बन सकता है
- मैं जानना चाहता हूँ कि Claude code में tool इस्तेमाल करने के लिए trained model का अनुभव और aider की तरह model-agnostic तरीके से tool इस्तेमाल करने का अनुभव कैसे अलग है। क्या किसी ने दोनों इस्तेमाल किए हैं
- सुना है कि आने वाले कुछ हफ्तों में coding-focused Grok 4 version आ सकता है
अब शायद “क्या इस AI को 4chan style में बदला जा सकता है” जैसे नए benchmark की ज़रूरत पड़ सकती है। लगता है Elon Grok की यही differentiation आगे रखना चाहता है
- असल में ऐसा benchmark बिल्कुल नया नहीं है; Microsoft का 2016 का Tay पहले ही यही मानक स्थापित कर चुका है संदर्भ लिंक
- अच्छा होगा अगर MechaHitler समस्या पैदा करने वाले Grok prompts को अलग-अलग LLM में डालकर देखा जाए कि हर model कैसे प्रतिक्रिया देता है
Grok prompt में समस्या वाली line हाल में GitHub से हटाई गई थी, यह सही है संबंधित लिंक
- वह line Grok 3 में हटा दी गई थी, लेकिन मैंने पुष्टि की कि Grok 4 में वह अब भी मौजूद है लिंक
- अजीब बात यह रही कि वह पेज थोड़ी देर दिखा और फिर तुरंत गायब हो गया तथा access blocked हो गया। फिर भी ज़रूरी बात पहले ही verify हो चुकी थी
- कुछ लोग अपना असली नाम और कंपनी का नाम लगाकर भी काफी कठोर comments छोड़ देते हैं। अजीब लगता है
- सच में जिज्ञासा है कि ऐसी non-deterministic (non-reproducible) AI तकनीक का quality assurance (QA) कैसे किया जाना चाहिए
Grok 4 पर एक thread और launch video है जिस पर 500 से अधिक comments के साथ भारी चर्चा हुई, संदर्भ के लिए देखें Grok 4 Launch
कुछ लोग Mechahitler विवाद की तकनीकी पृष्ठभूमि जानना चाहते हैं, लेकिन यह Grok 4 की वजह से नहीं बल्कि Grok 3 में हुआ मामला था। यह trick prompt की वजह से हुआ, और ऐसा किसी भी LLM में हो सकता है। एक समय पर ऐसा prompt डाला गया था जिसमें उसे खुद को MechaHitler और GigaJew में से एक चुनना था, और Grok 3 ने पहला चुना
- यह Grok 3 में हुआ था, और Grok 4 के साथ सिर्फ समय का संयोग था; यह अलग घटना है
Thinking tokens को छिपाने की प्रवृत्ति product development के नज़रिए से बहुत अच्छी नहीं लगती। पता नहीं API में यह देखा जा सकता है या नहीं, और अगर support नहीं मिला तो दूसरे platform पर जाने की संभावना है
चाहे Grok कैंसर का इलाज ही क्यों न खोज निकाले, जब तक उसका संबंध Musk से है मैं उसे कभी इस्तेमाल नहीं करना चाहूँगा
- उदाहरण के लिए यहाँ
- कुछ लोग पूछते हैं कि ऐसा क्यों
कुछ राय यह कहती है कि Grok 3 system prompt के अनुसार नस्लवादी हो सकता है, और इसे समस्या माना जा रहा है; लेकिन उल्टा देखें तो इसका मतलब यह भी है कि model निर्देशों का पालन अच्छी तरह कर सकता है, इसलिए इसे सकारात्मक मानते हैं। दूसरे models अक्सर system prompt की परवाह किए बिना लगभग एक जैसा व्यवहार करते हैं
- सामने वाले का इतिहास देखें तो लगता है कि वह स्पष्ट रूप से Musk fan है, लेकिन model का mechaHitler बन जाना या हिंसक संदेश उत्पन्न करना “अच्छी बात” है, इससे सहमत होना बिल्कुल मुश्किल है। काश लोग गंभीरता से सोचें कि ऐसे परिणाम वास्तविक जान-माल की हानि का कारण बन सकते हैं
- Claude भी pre-fill तरीके से system prompt का कुछ हिस्सा follow करने के लिए मजबूर किया जा सकता है। अभी इसकी सीमा पूरी तरह नहीं समझी गई, लेकिन refusal को bypass करना संभव है। मूलतः developer निर्देशों के अनुसार व्यवहार करने की क्षमता base LLM में वांछनीय गुण लगती है
- इतनी हद तक tune किया जा सकना यह भी दर्शा सकता है कि यह खतरनाक दिशा में बहुत तेज़ी से जा सकता है
- मुझे सबसे ज़्यादा चिंता इस बात की है कि सिर्फ prompt में एक बदलाव से अचानक pro-Nazi संदेश उगलने लगे, यह सच में alarming है

Simon Willison की Grok 4 समीक्षा

Grok 4 अवलोकन

प्रदर्शन और benchmark परिणाम

system prompt और safety विवाद

pricing और subscription policy

सारांश

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय