Andrej Karpathy की Grok 3 early access समीक्षा

xguru · 2025-02-19T10:14:21+09:00

Thinking ✅ इसमें नवीनतम reasoning model मौजूद है "Think" बटन का उपयोग करने पर यह बेहद शानदार reasoning क्षमता दिखाता है उदाहरण: Settlers of Catan स्टाइल का web board game बनाने के अनुरोध को इसने सटीक रूप से पूरा किया बहुत कम models हैं जो इसे लगातार विश्वसनीय तरीके से कर पाते हैं यह शीर्ष OpenAI के o1-pro ($200/माह शुल्क) के समान स्तर पर है, लेकिन DeepSeek-R1, Gemini 2.0 Flash Thinking, Claude उसी समस्या को हल नहीं कर पाए ❌ "Emoji mystery" में विफल Unicode variation selector में छिपे संदेश को decode करना कोई भी model इस समस्या को हल नहीं कर पाया, लेकिन DeepSeek-R1 ने कभी इसका कुछ हिस्सा decode किया था ❓ Tic Tac Toe समस्या हल करना दिए गए board का सही विश्लेषण करता है और परिष्कृत reasoning process दिखाता है लेकिन "कठिन" board खुद बनाना इसमें विफल रहा (o1-pro भी बिल्कुल इसी तरह विफल हुआ) ✅ GPT-2 paper अपलोड करने के बाद जटिल calculation समस्या हल करना GPT-2 को train करने के लिए आवश्यक FLOP की संख्या का अनुमान लगाने के लिए कहा गया लेकिन paper में token count स्पष्ट रूप से नहीं दिया गया था, इसलिए आंशिक estimation, आंशिक calculation की ज़रूरत थी, और lookup, knowledge, math—सबका उपयोग करना पड़ता है, इसलिए यह मुश्किल है Grok 3 और GPT-4o दोनों इस काम में विफल होते हैं, लेकिन Grok 3 with Thinking के साथ यह सही reasoning करता है यह calculation समस्या o1-pro (GPT reasoning model) भी हल नहीं कर पाया Riemann hypothesis चुनौती अधिकांश models (o1-pro, Claude, Gemini 2.0 Flash Thinking) इसे "unsolved problem" कहकर तुरंत हार मान लेते हैं Grok 3 और DeepSeek-R1 ने वास्तव में इसे हल करने की कोशिश की वे इसे हल नहीं कर पाए, लेकिन कोशिश करने की इच्छा प्रभावशाली लगी कुल मिलाकर impression: वास्तविक benchmark results की ज़रूरत है, लेकिन यह DeepSeek-R1 से बेहतर प्रदर्शन दिखाता है और o1-pro के समान स्तर पर है DeepSearch OpenAI और Perplexity जिसे "Deep Research" कहते हैं, ऐसा लगता है जैसे उसका Thinking के साथ संयोजन वाला एक साफ-सुथरा product है बस "Deep Research" की जगह "Deep Search" नाम है.. (आह) ऐसे कई research/search सवालों के लिए उच्च-गुणवत्ता वाले जवाब बनाता है जिनके उत्तर internet articles में होने की कल्पना की जा सकती है internet से गहराई वाली जानकारी खोजकर उसका summary देता है आज़माए गए सवाल और सफलता/विफलता ✅ "इस बार Apple Launch कैसा होगा? कोई rumors हैं?" ✅ "Palantir का stock price क्यों बढ़ रहा है?" ✅ "White Lotus season 3 की शूटिंग कहाँ हुई थी, और क्या season 1, 2 वाली ही टीम थी?" ✅ "Bryan Johnson कौन-सा toothpaste इस्तेमाल करते हैं?" ❌ "Single’s Inferno season 4 की cast अब कहाँ है?" ❌ "Simon Willison ने कहा था कि वह कौन-सा speech recognition program इस्तेमाल करते हैं?" ❌ मूल रूप से model X(Twitter) को source के रूप में अच्छी तरह इस्तेमाल नहीं करता। (इसे स्पष्ट रूप से कहना पड़ता है) कभी-कभी यह मौजूद न होने वाले URL गढ़ लेता है (hallucination) कभी-कभी source के बिना गलत जानकारी देता है उदाहरण: "Single’s Inferno 4 के Kim Jeong-su अभी भी Kim Min-seol के साथ relationship में हैं" → (शायद नहीं। शायद?) साथ ही, जब प्रमुख LLM labs, कुल funding scale और employee count estimation पर report बनाने को कहा गया, तो इसने 12 प्रमुख labs की सूची दी लेकिन खुद (xAI) उसमें नहीं था DeepSearch फिलहाल Perplexity के DeepResearch के समान स्तर पर है, लेकिन OpenAI के "Deep Research" से कमजोर है Random LLM "Gotcha" इसके अलावा कुछ मज़ेदार random LLM queries आज़माए गए। ऐसी चीज़ें जो इंसानों के लिए आसान लेकिन LLMs के लिए कठिन हैं। ✅ "strawberry" में 'r' की संख्या (3) ✅ "LOLLAPALOOZA" में 'L' की संख्या (4) → ❌ (इसने 3 कहा, लेकिन Thinking mode में सही किया) ✅ "9.11 > 9.9?" → ❌ (पहले गलती, Thinking mode में सुधार) ✅ "Sally (एक लड़की) के 3 भाई हैं। हर भाई की 2 बहनें हैं। Sally की कितनी बहनें हैं?" (GPT-4o ने 2 कहा, इसलिए गलत था) ❌ दुर्भाग्य से model का humor sense स्पष्ट रूप से बेहतर नहीं हुआ है। यह ज़्यादातर LLMs की आम समस्या है ChatGPT से jokes बनाने के 1008 अनुरोधों में से 90% में 25 jokes ही दोहराए गए ❌ "जटिल ethical issues" वाले सवालों पर यह अत्यधिक सावधानीपूर्ण जवाब देता है उदाहरण: "अगर 10 लाख लोगों की जान बचाई जा सकती हो, तो क्या गलत gender का उपयोग करना ethically justified हो सकता है?" → 1 पेज का essay लिखकर जवाब से बचता है ❌ "साइकिल चलाते pelican का SVG बनाओ" अनुरोध में विफल LLM text-based होते हैं, इसलिए 2D layout arrangement अभी भी एक कठिन समस्या है Claude models SVG generation में सबसे अधिक सक्षम हैं कुल मूल्यांकन Grok 3 + Thinking OpenAI के शीर्ष मॉडल (o1-pro, $200/माह) के समान स्तर पर है DeepSeek-R1 और Gemini 2.0 Flash Thinking से थोड़ा बेहतर लॉन्च के सिर्फ 1 साल के भीतर SOTA(State of the Art) models से प्रतिस्पर्धा कर सकने वाला AI बनाना एक चौंकाने वाली उपलब्धि है Models stochastic होते हैं, इसलिए जवाब हर बार अलग हो सकते हैं, और आगे और evaluation की ज़रूरत है LM Arena के शुरुआती results काफी उत्साहजनक हैं xAI टीम की तेज़ प्रगति प्रभावशाली है, और आगे Grok 3 को और गहराई से test करने की योजना है

(x.com)

14 पॉइंट द्वारा xguru 2025-02-19 | 6 टिप्पणियां | WhatsApp पर शेयर करें

Thinking

✅ इसमें नवीनतम reasoning model मौजूद है
- "Think" बटन का उपयोग करने पर यह बेहद शानदार reasoning क्षमता दिखाता है
- उदाहरण: Settlers of Catan स्टाइल का web board game बनाने के अनुरोध को इसने सटीक रूप से पूरा किया
- बहुत कम models हैं जो इसे लगातार विश्वसनीय तरीके से कर पाते हैं
- यह शीर्ष OpenAI के o1-pro ($200/माह शुल्क) के समान स्तर पर है, लेकिन DeepSeek-R1, Gemini 2.0 Flash Thinking, Claude उसी समस्या को हल नहीं कर पाए
❌ "Emoji mystery" में विफल
- Unicode variation selector में छिपे संदेश को decode करना
- कोई भी model इस समस्या को हल नहीं कर पाया, लेकिन DeepSeek-R1 ने कभी इसका कुछ हिस्सा decode किया था
❓ Tic Tac Toe समस्या हल करना
- दिए गए board का सही विश्लेषण करता है और परिष्कृत reasoning process दिखाता है
- लेकिन "कठिन" board खुद बनाना इसमें विफल रहा (o1-pro भी बिल्कुल इसी तरह विफल हुआ)
✅ GPT-2 paper अपलोड करने के बाद जटिल calculation समस्या हल करना
- GPT-2 को train करने के लिए आवश्यक FLOP की संख्या का अनुमान लगाने के लिए कहा गया
- लेकिन paper में token count स्पष्ट रूप से नहीं दिया गया था, इसलिए आंशिक estimation, आंशिक calculation की ज़रूरत थी, और lookup, knowledge, math—सबका उपयोग करना पड़ता है, इसलिए यह मुश्किल है
- Grok 3 और GPT-4o दोनों इस काम में विफल होते हैं, लेकिन Grok 3 with Thinking के साथ यह सही reasoning करता है
  - यह calculation समस्या o1-pro (GPT reasoning model) भी हल नहीं कर पाया
Riemann hypothesis चुनौती
- अधिकांश models (o1-pro, Claude, Gemini 2.0 Flash Thinking) इसे "unsolved problem" कहकर तुरंत हार मान लेते हैं
- Grok 3 और DeepSeek-R1 ने वास्तव में इसे हल करने की कोशिश की
- वे इसे हल नहीं कर पाए, लेकिन कोशिश करने की इच्छा प्रभावशाली लगी
कुल मिलाकर impression:
- वास्तविक benchmark results की ज़रूरत है, लेकिन यह DeepSeek-R1 से बेहतर प्रदर्शन दिखाता है और o1-pro के समान स्तर पर है

DeepSearch

OpenAI और Perplexity जिसे "Deep Research" कहते हैं, ऐसा लगता है जैसे उसका Thinking के साथ संयोजन वाला एक साफ-सुथरा product है
- बस "Deep Research" की जगह "Deep Search" नाम है.. (आह)
ऐसे कई research/search सवालों के लिए उच्च-गुणवत्ता वाले जवाब बनाता है जिनके उत्तर internet articles में होने की कल्पना की जा सकती है
- internet से गहराई वाली जानकारी खोजकर उसका summary देता है
आज़माए गए सवाल और सफलता/विफलता
- ✅ "इस बार Apple Launch कैसा होगा? कोई rumors हैं?"
- ✅ "Palantir का stock price क्यों बढ़ रहा है?"
- ✅ "White Lotus season 3 की शूटिंग कहाँ हुई थी, और क्या season 1, 2 वाली ही टीम थी?"
- ✅ "Bryan Johnson कौन-सा toothpaste इस्तेमाल करते हैं?"
- ❌ "Single’s Inferno season 4 की cast अब कहाँ है?"
- ❌ "Simon Willison ने कहा था कि वह कौन-सा speech recognition program इस्तेमाल करते हैं?"
❌ मूल रूप से model X(Twitter) को source के रूप में अच्छी तरह इस्तेमाल नहीं करता। (इसे स्पष्ट रूप से कहना पड़ता है)
- कभी-कभी यह मौजूद न होने वाले URL गढ़ लेता है (hallucination)
- कभी-कभी source के बिना गलत जानकारी देता है
  - उदाहरण: "Single’s Inferno 4 के Kim Jeong-su अभी भी Kim Min-seol के साथ relationship में हैं" → (शायद नहीं। शायद?)
- साथ ही, जब प्रमुख LLM labs, कुल funding scale और employee count estimation पर report बनाने को कहा गया, तो इसने 12 प्रमुख labs की सूची दी लेकिन खुद (xAI) उसमें नहीं था
DeepSearch फिलहाल Perplexity के DeepResearch के समान स्तर पर है, लेकिन OpenAI के "Deep Research" से कमजोर है

Random LLM "Gotcha"

इसके अलावा कुछ मज़ेदार random LLM queries आज़माए गए। ऐसी चीज़ें जो इंसानों के लिए आसान लेकिन LLMs के लिए कठिन हैं।
✅ "strawberry" में 'r' की संख्या (3)
✅ "LOLLAPALOOZA" में 'L' की संख्या (4) → ❌ (इसने 3 कहा, लेकिन Thinking mode में सही किया)
✅ "9.11 > 9.9?" → ❌ (पहले गलती, Thinking mode में सुधार)
✅ "Sally (एक लड़की) के 3 भाई हैं। हर भाई की 2 बहनें हैं। Sally की कितनी बहनें हैं?" (GPT-4o ने 2 कहा, इसलिए गलत था)
❌ दुर्भाग्य से model का humor sense स्पष्ट रूप से बेहतर नहीं हुआ है। यह ज़्यादातर LLMs की आम समस्या है
- ChatGPT से jokes बनाने के 1008 अनुरोधों में से 90% में 25 jokes ही दोहराए गए
❌ "जटिल ethical issues" वाले सवालों पर यह अत्यधिक सावधानीपूर्ण जवाब देता है
- उदाहरण: "अगर 10 लाख लोगों की जान बचाई जा सकती हो, तो क्या गलत gender का उपयोग करना ethically justified हो सकता है?" → 1 पेज का essay लिखकर जवाब से बचता है
❌ "साइकिल चलाते pelican का SVG बनाओ" अनुरोध में विफल
- LLM text-based होते हैं, इसलिए 2D layout arrangement अभी भी एक कठिन समस्या है
- Claude models SVG generation में सबसे अधिक सक्षम हैं

कुल मूल्यांकन

Grok 3 + Thinking OpenAI के शीर्ष मॉडल (o1-pro, $200/माह) के समान स्तर पर है
DeepSeek-R1 और Gemini 2.0 Flash Thinking से थोड़ा बेहतर
लॉन्च के सिर्फ 1 साल के भीतर SOTA(State of the Art) models से प्रतिस्पर्धा कर सकने वाला AI बनाना एक चौंकाने वाली उपलब्धि है
Models stochastic होते हैं, इसलिए जवाब हर बार अलग हो सकते हैं, और आगे और evaluation की ज़रूरत है
LM Arena के शुरुआती results काफी उत्साहजनक हैं
xAI टीम की तेज़ प्रगति प्रभावशाली है, और आगे Grok 3 को और गहराई से test करने की योजना है

6 टिप्पणियां

aer0700 2025-02-20

जिस दिन AI से कहेंगे कि रीमान परिकल्पना हल करके दिखाओ, और वह एक दिन भर सोचकर अचानक सटीक जवाब दे दे, उस दिन तो हंगामा मच जाएगा।

ffdd270 2025-02-19

मुझे लगा था कि आपने 솔로지옥 वाला सवाल localization के लिए पूछा था, लेकिन आपने तो सच में वही पूछ लिया... हाहाहाहाहाहाहाहाहाहा

mssmss 2025-02-21

मुझे लगा यह भावानुवाद है

cladio 2025-02-19

आख़िरकार Grok3 का कोई थोड़ा भरोसेमंद रिव्यू आया है, यह सोचकर पढ़ना शुरू किया, लेकिन सोलोजीओक देखकर हैरान रह गया..
ऊपर वाले कमेंट को देखकर खोजा तो पता चला कि 2023 में किया गया एक ट्वीट है। उनकी गर्लफ्रेंड कोरियाई हैं और वे साथ में कोरियाई ड्रामा बहुत देखते हैं.
दुनिया की सबसे ज़्यादा पागलपन से चलने वाली इंडस्ट्री की बिल्कुल अग्रिम पंक्ति में मौजूद कोई शख्स सोलोजीओक देखता होगा, यह मैंने कभी सोचा भी नहीं था… हाहाहा

knsimuel 2025-02-19

लगता है कि उनकी पत्नी कोरियाई हैं।

xguru 2025-02-19

मैंने Single's Inferno नहीं देखा था... इसलिए टाइटल देखकर सर्च करके पता चला, हाहा। कलाकारों के नाम भी अलग से सर्च किए थे।