Grok 3: The Bitter Lesson की एक और जीत

(thealgorithmicbridge.com)

3 पॉइंट द्वारा GN⁺ 2025-02-21 | 3 टिप्पणियां | WhatsApp पर शेयर करें

I. AI प्रगति पर हावी scaling laws

Elon Musk ने Grok 3 को "धरती पर सबसे स्मार्ट AI" कहा है, और यह अतिशयोक्ति न भी हो सकती है
Grok 2 की तुलना में इसमें ज़बरदस्त प्रगति हुई है, और यह OpenAI, Google DeepMind, Anthropic जैसी परिपक्व लैब्स के मॉडल्स के बराबर है या कुछ क्षेत्रों में उनसे बेहतर है
LMSys Arena में इसने सभी श्रेणियों में 1st place हासिल किया और गणित, coding, तथा विज्ञान समस्याओं में भी उच्च स्तर (o3 स्तर) का प्रदर्शन दिखाया
कुछ खास कार्यों में यह शीर्ष मॉडल्स से पीछे है, लेकिन अधिकांश मानकों पर co-state-of-the-art स्तर का है
Grok 3 सिर्फ xAI की सफलता नहीं, बल्कि AI research में scale के महत्व को रेखांकित करने वाली The Bitter Lesson की एक और जीत है
आलोचनात्मक नज़रियों या मीडिया रिपोर्ट्स के विपरीत, AI प्रगति में Scaling Laws अब भी मान्य हैं, और उनका महत्व और बढ़ रहा है

II. DeepSeek: नियम को साबित करने वाला अपवाद

DeepSeek की सफलता की पृष्ठभूमि
- DeepSeek अपेक्षाकृत कम computing resources (लगभग 50K Nvidia Hopper GPU) के साथ भी इंडस्ट्री के शीर्ष प्रतिस्पर्धियों से टक्कर ले सका
- अमेरिकी लैब्स ने 100K से अधिक Nvidia H100 का इस्तेमाल किया, जबकि DeepSeek ने पूरे technology stack को optimize करके नतीजे हासिल किए
- इससे कम्युनिटी में लंबे समय से माने जा रहे 'Bitter Lesson' और 'Scaling Paradigm' पर सवाल उठे
गलत निष्कर्ष और Bitter Lesson का असली मतलब
- कुछ लोगों ने DeepSeek की सफलता को इस बात के सबूत की तरह देखा कि "GPU महत्वपूर्ण नहीं हैं, algorithmic optimization अधिक महत्वपूर्ण है"
- लेकिन Bitter Lesson का मतलब यह नहीं है कि "algorithmic improvements की ज़रूरत नहीं", बल्कि यह है कि जहाँ संभव हो, अधिक computing resources का उपयोग करना सबसे अच्छा रास्ता है
- DeepSeek के पास GPU कम थे, इसलिए उसे optimization पर फोकस करना पड़ा; अगर उसने 100K GPU पर training की होती, तो उसके नतीजे और बेहतर होते
- यानी DeepSeek ने optimization की संभावना साबित की, यह नहीं कि "scaling बेकार है"
DeepSeek CEO का दृष्टिकोण
- CEO Liang Wenfeng ने भी कहा कि अमेरिकी export controls बेहतर मॉडल बनाने में प्रमुख बाधा हैं
- 50K Hopper GPU इस्तेमाल करने के बाद भी ऐसा कहना, "GPU महत्वपूर्ण नहीं हैं" वाली व्याख्या के बिल्कुल उलट है
- DeepSeek की सफलता को Bitter Lesson और Scaling Paradigm के समर्थन में एक उदाहरण माना जा सकता है; यह सिर्फ एक असाधारण मामला है

III. xAI ने साबित किया: "scaling > optimization"

Grok 3 और xAI का approach
- यह स्पष्ट नहीं है कि xAI की उपलब्धि "scaling optimization से अधिक महत्वपूर्ण है" को लेकर संदेह करने वालों की राय बदलेगी या नहीं
- Grok 3 में architecture changes हुए या infrastructure optimization कितना था, यह साफ नहीं है, लेकिन यह तय है कि इसे Memphis के Colossus supercomputer पर 100K H100 GPU के साथ train किया गया
- यह DeepSeek के GPU count से काफी अधिक है
DeepSeek से अलग strategy
- DeepSeek को सीमित GPU resources को चरम तक optimize करना पड़ा, जबकि xAI को ऐसा करने की ज़रूरत नहीं थी; उसके लिए standard-level optimization ही काफी था
- Bitter Lesson का मूल यह है कि "अगर आपके पास पर्याप्त computing resources हैं, तो गैर-ज़रूरी optimization पर समय बर्बाद मत करो, बस scale करो"
- xAI ने OpenAI से भी अधिक computing resources लगाकर Grok 3 को train किया, और परिणामस्वरूप एक cutting-edge model बनाया
Bitter Lesson सिर्फ AI ही नहीं, एक सार्वभौमिक सत्य भी है
- "यदि आपके पास मुख्य resource प्रचुर मात्रा में है, तो सहायक resources को निचोड़ने में समय बर्बाद करने की ज़रूरत नहीं"
- जैसे रेगिस्तान के Fremen के लिए पसीने को recycle करने के बजाय बारिश वाले ग्रह पर रहना अधिक कुशल होगा
- algorithmic improvements और computing power दोनों महत्वपूर्ण हैं, लेकिन एक बिंदु के बाद optimization की तुलना में अधिक resources लगाना अधिक प्रभावी हो जाता है
- computing power पैसे से खरीदी जा सकती है, लेकिन breakthrough algorithmic improvements की भविष्यवाणी नहीं की जा सकती, और यह भी तय नहीं कि वे आगे भी scale होंगी
scaling को रोकना नहीं चाहिए
- जब एक सीमा आ जाए, तो optimization पर अटकने के बजाय scaling के target को बदल देना चाहिए
- सीमित resources innovation को बढ़ावा दे सकते हैं, लेकिन अंततः "more resources" "better optimization" को हरा देते हैं
- DeepSeek को मजबूरी में optimization पर ध्यान देना पड़ा, लेकिन xAI या OpenAI DeepSeek जैसी बाध्य परिस्थितियों में काम करना नहीं चाहेंगे
- अंततः xAI और DeepSeek, "विशाल resources लगाने वाला approach vs सीमित resources का चरम उपयोग करने वाला approach" के प्रतिनिधि उदाहरण हैं
- दोनों कंपनियों ने अपनी परिस्थितियों में सर्वश्रेष्ठ किया, लेकिन जब तक DeepSeek computing shortage में फंसा रहेगा, xAI के पास बढ़त बने रहने की संभावना अधिक है
- इसी तरह, अकादमिक विवादों के बावजूद Bitter Lesson पिछले 10+ वर्षों में वास्तविक AI development में प्रभावी सिद्धांत साबित हुआ है

IV. वह paradigm shift जिसने xAI और DeepSeek की मदद की

AI प्रतिस्पर्धा में late entrants की कठिनाई
- AI race में देर से शुरुआत करना एक लगभग अजेय handicap जैसा लगता था
- शुरुआत में यह निश्चित नहीं था कि xAI, OpenAI या Anthropic को पकड़ पाएगा
- लेकिन Grok 2 (अगस्त 2024) से Grok 3 (फ़रवरी 2025) तक के विकास के दौरान, Colossus GPU cluster के अलावा भी कुछ चीज़ें xAI के पक्ष में काम कर रही थीं
- वह थी AI scaling paradigm में बदलाव
pre-training युग (2019-2024)
- शुरुआती AI प्रगति का मतलब था बड़े models को बड़े datasets और अधिक शक्तिशाली computing resources के साथ train करना
- उदाहरण: GPT-2 (फ़रवरी 2019) में 1.5 billion parameters थे, जबकि GPT-4 (मार्च 2023) में लगभग 1.76 trillion थे, यानी 1,000x से अधिक वृद्धि
- यह तरीका OpenAI जैसे early movers के पक्ष में था
  - क्योंकि उनके पास लंबे समय तक data इकट्ठा करने, model scale करने और GPU secure करने का समय था
- साथ ही, हर model को train करने में अक्सर आधा साल या उससे अधिक लगता था, जिससे generations के बीच iteration धीमा पड़ता था, और late entrants के लिए पकड़ बनाना कठिन हो जाता था
post-training युग (2024-???)
- 2024 के आसपास AI industry ने समझा कि सिर्फ model size बढ़ाने से incremental performance gains धीमे पड़ रहे हैं
- मीडिया ने इसे गलत तरह से "scaling का युग खत्म हो गया" कहा, जबकि वास्तव में सिर्फ paradigm बदला था (Ilya Sutskever की NeurIPS 2024 talk देखें)
- फोकस जिन क्षेत्रों में बदला:
  - "test-time compute scaling" → ऐसा तरीका जिससे model उत्तर पर अधिक गहराई से सोच सके
  - reinforcement learning (RLHF) + supervised fine-tuning (SFT) का संयोजन प्रभावी साबित हुआ
  - खासकर गणित और coding जैसे structured domains में verifiable reward functions लगाने पर performance gains बड़े रहे
- OpenAI ने o1-preview के साथ इसकी अगुवाई की, और उसके बाद AI कंपनियाँ model size बढ़ाने के बजाय "बेहतर reasoning capability वाले models" बनाने की दिशा में मुड़ गईं
नया paradigm xAI और DeepSeek के पक्ष में क्यों गया
- post-training अभी शुरुआती चरण में है, इसलिए अपेक्षाकृत कम लागत पर तेज performance improvements संभव हैं
- OpenAI का सिर्फ 3 महीनों में o1 से o3 तक पहुँचना इसी का उदाहरण है
- यही कारण है कि कम और अपेक्षाकृत कमजोर GPU होने के बावजूद DeepSeek R1 स्तर तक पहुँच सका
- Grok भी सिर्फ 2 साल में शीर्ष AI model स्तर तक पहुँच गया
प्रतिस्पर्धा की बदलती संरचना
- OpenAI अब भी कुछ बढ़त रखता है, लेकिन late entrants के लिए उसे पकड़ना असंभव नहीं है
- OpenAI को 300M weekly users वाले ChatGPT के संचालन का बोझ झेलना पड़ता है, इसलिए उसे cutting-edge research और product operations के बीच संतुलन बनाना पड़ता है
- दूसरी ओर, xAI और DeepSeek तकनीकी innovation पर अपेक्षाकृत अधिक लचीलापन के साथ ध्यान दे सकते हैं
- DeepSeek का app लोकप्रिय होने के बाद फिर नीचे आना इस वजह से भी था कि उसके पास large-scale inference संभालने के लिए पर्याप्त computing resources नहीं थे
- नए paradigm के खुलने से नई competitive dynamics बन रही हैं

V. xAI और DeepSeek की उपलब्धियों को सही तरीके से समझना

Bitter Lesson और paradigm shift उनकी उपलब्धियों को कम नहीं करते
- Bitter Lesson और scaling paradigm shift ने xAI और DeepSeek की सफलता को आसान ज़रूर बनाया, लेकिन आख़िरकार काम उन्होंने ही किया
- वही अवसर होने के बावजूद दूसरी कंपनियाँ (Mistral, Character, Inflection) असफल रहीं
- Grok 3 Bitter Lesson की जीत है, और DeepSeek ऐसा असाधारण मामला है जिसने नियम को साबित किया, लेकिन बात सिर्फ इतनी नहीं है
सिर्फ computing resources ही सब कुछ नहीं हैं
- जैसे Bitter Lesson algorithm और infrastructure optimization की value को नकारता नहीं, वैसे ही कंपनी के लोग और strategy भी महत्वपूर्ण हैं
- xAI के पास अभी लगभग 1,000 कर्मचारी हैं, जो OpenAI (लगभग 2,000) और Anthropic (लगभग 700) के बराबर की श्रेणी में है
- साथ ही, Elon Musk के technical और financial network की वजह से xAI के लिए बड़े निवेश जुटाना आसान है
- DeepSeek भी सीमित परिस्थितियों में innovation हासिल करने के लिए उच्च सराहना का पात्र है
  - चीन का AI ecosystem अपेक्षाकृत कम महत्वाकांक्षी और कम अनुभवी रहा है, और सरकारी समर्थन भी सीमित था (हालाँकि यह जल्द बदल सकता है)
इसे ऐतिहासिक संदर्भ में समझना चाहिए
- OpenAI, Google DeepMind, Anthropic को pre-training युग में models विकसित करने पड़े
  - उस समय AI scaling आज की तुलना में कहीं अधिक कठिन, धीमी और महंगी थी
  - यह भी निश्चित नहीं था कि ChatGPT जैसे products सफल होंगे; OpenAI भी launch को लेकर हिचक रहा था (शुरुआत में इसे सिर्फ research preview के रूप में जारी किया गया)
  - इन कंपनियों ने अनिश्चित भविष्य के बीच मज़बूत conviction के साथ AI innovation को आगे बढ़ाने वाले pioneers की भूमिका निभाई
- दूसरी ओर, DeepSeek और xAI ने इन दिग्गजों के कंधों पर खड़े होकर शुरुआत की
  - वे पहले के research trial-and-error से बच सके, और proven approaches का इस्तेमाल करके तेज़ी से आगे बढ़ पाए
  - संयोग से AI paradigm भी post-training युग में शिफ्ट हो रहा था, जिससे कम लागत में तेज़ नतीजे मिलना संभव हुआ
  - शुरुआती AI pioneers जैसी भारी upfront investment और uncertainty उन्हें कम झेलनी पड़ी
जीत को स्वीकार करें, लेकिन प्रक्रिया को भी याद रखें
- xAI और DeepSeek की उपलब्धियों को कमतर आँकने की ज़रूरत नहीं, लेकिन यह भी नहीं भूलना चाहिए कि AI यहाँ तक कैसे पहुँचा
- अगर OpenAI, DeepMind, Anthropic जैसे शुरुआती pioneers न होते, तो आज की ये उपलब्धियाँ भी संभव नहीं होतीं
- यानी xAI और DeepSeek की सफलता को "सिर्फ किस्मत" नहीं, बल्कि "सही समय पर पूरी क्षमता से किए गए काम का परिणाम" मानना अधिक उचित है

VI. post-training अभी सस्ता है, लेकिन जल्द महँगा होगा

Grok 3 और xAI से मिलने वाला मुख्य सबक
- अभी post-training अपेक्षाकृत सस्ता है, लेकिन जल्द ही इसमें pre-training जितनी ही विशाल निवेश लागत लगने लगेगी
- जिस क्षण कंपनियाँ post-training को बड़े पैमाने पर scale करने का तरीका खोज लेंगी, प्रतिस्पर्धा में टिके रहने के लिए पैसा और computing resources अनिवार्य हो जाएंगे
- AI कंपनियाँ पहले ही लाखों GPU जमा कर रही हैं और बड़े clusters बना रही हैं
- "GPU महत्वपूर्ण नहीं हैं" वाली दलील के विपरीत, GPU हासिल करने की दौड़ AI competition का मुख्य तत्व बनेगी
- इसी कारण Dario Amodei (OpenAI co-founder) जैसे लोग export controls के महत्व पर ज़ोर दे रहे हैं
xAI की मज़बूत positioning
- अभी xAI, सिर्फ DeepSeek ही नहीं बल्कि OpenAI और Anthropic की तुलना में भी अधिक लाभकारी स्थिति में दिखता है
- कारण: उसके पास 100K H100 GPU cluster है, और इसे जल्द 200K तक बढ़ाने की योजना है
- यह अगली पीढ़ी की AI development race में बहुत बड़ा फायदा देता है
- Meta भी इसी strategy पर चल रहा है और 100K+ H100 cluster पर Llama 4 को train कर रहा है
DeepSeek की सीमाएँ और संभावनाएँ
- सिर्फ DeepSeek की बेहतरीन engineering capability अब प्रतिस्पर्धा के लिए पर्याप्त न रहने वाले चरण में प्रवेश कर रही है
- technology stack कितना भी optimize कर लिया जाए, 150K GPU के अंतर को पाटना संभव नहीं
- अगर यह संभव होता, तो DeepSeek भी xAI की तरह scaling चुनता; लेकिन अमेरिकी export controls उसकी growth को सीमित कर रहे हैं
- फिर भी, Huawei के साथ सहयोग के जरिए इसका समाधान निकलने की संभावना है
xAI के अतिरिक्त फायदे
- OpenAI और Anthropic भी GPU cluster access के मामले में xAI जितनी स्थिर स्थिति में नहीं हैं
- Nvidia के समर्थन की वजह से xAI को अगली पीढ़ी का AI hardware प्राथमिकता के साथ मिल रहा है
- Elon Musk के network और Nvidia के सकारात्मक रुख की वजह से भविष्य की AI race में xAI की बढ़त अलग स्तर की हो सकती है

VII. एक साल बाद कौन आगे होगा?

मौजूदा दिग्गजों की बढ़त
- इन सबके बावजूद OpenAI, Google DeepMind, Anthropic अब भी हल्की अग्रता बनाए हुए हैं
- OpenAI: जल्द GPT-4.5/GPT-5 लॉन्च करने वाला है, और उसके बाद o4 model पर भी काम चल रहा है
- Anthropic: Claude 4 लॉन्च की तैयारी में है
- Google DeepMind: Gemini 2.0 के "Thinking-model" version को बेहतर बनाते हुए cost reduction और context window expansion पर काम कर रहा है
अनिश्चित भविष्य
- 2024 में लगा था कि Google AI race में आगे रहेगा, लेकिन अब इस पर भरोसे से कुछ कहना मुश्किल है
- AI competition पहले से कहीं ज़्यादा तीव्र है, और AGI race में कोई स्पष्ट विजेता नहीं है
- नया paradigm late entrants के पक्ष में काम करता है और तेज़ adaptability की माँग करता है
- Google में यह फुर्ती है या नहीं, यह स्पष्ट नहीं
- या फिर हो सकता है कि Google बस अपनी उपलब्धियों का प्रभावी प्रचार नहीं कर पा रहा हो
निष्कर्ष: अंततः scaling जीतती है
- इस लेख का निष्कर्ष AI race का विजेता तय करना नहीं है
- अहम सबक यह है कि आख़िरकार scaling, मानव ingenuity पर भारी पड़ती है
  - यह कहना सुखद नहीं, लेकिन कुछ चीज़ें हमारे बस से बाहर होती हैं
- Grok 3 की सफलता एक बार फिर याद दिलाती है कि AI प्रगति को "अधिक स्मार्ट algorithms" नहीं, बल्कि "अधिक बड़ी compute capacity" आगे बढ़ाती है

3 टिप्पणियां

kobings 2025-02-23

"OpenAI के 300 million साप्ताहिक उपयोगकर्ताओं वाला ChatGPT"

मूल लेख में 300M लिखा है, इसलिए कृपया इसे 30 करोड़ में ठीक कर दें।

doolayer 2025-02-22

लंबवत हैं, लेकिन orthonormal नहीं।

GN⁺ 2025-02-21

Hacker News राय

"co-state-of-the-art" मॉडल का बनना scaling laws की जीत नहीं है
- xAI ने Grok 3 में अधिक computing लगाने के बावजूद मौजूदा मॉडलों को बहुत अधिक पीछे नहीं छोड़ा, यह इस बात का सबूत हो सकता है कि hyper-scaling केवल क्रमिक सुधार ही लाती है
- यह एक स्वाभाविक अवलोकन है कि अधिक computing power कंप्यूटरों को बेहतर बनाती है
- यह लेख 70 के दशक की symbolic AI और 2010 के दशक के neural networks के बीच के अंतर को GPT-4 और Grok 3 के अंतर पर लागू करने की कोशिश करता है
- बहुत से लोग Grok 3 के वास्तविक प्रदर्शन पर संदेह करते हैं, और शक करते हैं कि इसे खास benchmarks के लिए train किया गया है
- Sabine Hossenfelder ने उल्लेख किया कि Grok 3 Bell's theorem समझाने में विफल रहा
- यह दिखाता है कि बड़े पैमाने पर scaling, intelligence में सुधार नहीं करती
Deepseek को SOTA परिणाम हासिल करने में 17 महीने लगे, और xAI का मॉडल Deepseek R1 से बहुत आगे नहीं निकलता
- xAI $3 billion में से $2.5 billion GPU पर और $0.5 billion talent पर निवेश करेगा
- Deepseek $1 billion GPU पर और $2 billion talent पर निवेश करेगा
- दावा किया गया है कि Deepseek का approach अधिक scalable है
GPQA Diamond में non-reasoning model के 75% स्कोर को लेकर संदेह है
- xAI अगले हफ्ते Grok 3 API देगा ताकि लोग अपनी evaluation से वास्तविक प्रदर्शन देख सकें
- DeepSeek के पास 50k Hopper GPU होने का दावा बढ़ा-चढ़ाकर बताया गया आंकड़ा हो सकता है
- DeepSeek की intern hiring ad में केवल "10k A100s tak aseemit pahunch" का उल्लेख है
हाल की बदलती स्थिति से अजीब निष्कर्ष निकाले जा रहे हैं
- AI boom में बहुत पैसा आ रहा है, लेकिन यह जल्द खत्म होगा
- जिन लोगों के पास तकनीकी सुधार का लंबा अनुभव है, वे लंबी अवधि में सबसे बेहतर स्थिति में होंगे
अगर Grok की intelligence दूसरे leading models जैसी ही है, तो सवाल है कि कौन-सा business Grok पर switch करेगा
जब अधिक computing जोड़ने की लागत अरबों में पहुंच जाती है, तो "bitter lesson" शायद अब hardware नहीं बल्कि पैसे के बारे में है
- कम बिजली खपत वाले models, VC funding के बिना भी चलने योग्य रास्ता दे सकते हैं
"bitter lesson" पर लेख का दावा logical fallacies पर निर्भर करता है
- यह scaling और optimization को परस्पर बहिष्कृत रणनीतियों की तरह प्रस्तुत करता है
- DeepSeek की algorithmic innovations, scaling प्रयासों को complement करती हैं
- यह दावा कि computing "post-training era" पर हावी होगी, संभावित व्यवधानों को नजरअंदाज करता है
talent acquisition कैसे बदलेगा, यह दिलचस्प है
- बहुत अधिक DEI-केंद्रित PR के कारण कई engineers निराश हैं
- सवाल है कि जो लोग नैतिक कारणों से चीन के साथ करीबी संबंधों से बचते थे, क्या वे वही बात अमेरिका पर भी लागू करेंगे
AI hype वाले ब्लॉग की एक और प्रविष्टि
- benchmark results में अलग रंग की bars का जिक्र तक नहीं है
- Grok-3 scaling laws को किसी अर्थपूर्ण तरीके से न तो साबित करता है, न खारिज