Anthropic CEO Dario Amodei: DeepSeek मॉडल उतने चौंकाने वाले नहीं हैं
(darioamodei.com)Dario Amodei का कहना है कि DeepSeek के V3 और R1 मॉडलों को लेकर धारणा बढ़ा-चढ़ाकर पेश की गई है
AI विकास की तीन गतिशील शक्तियाँ (Three Dynamics of AI Development)
-
Scaling laws: अन्य सभी कारक समान हों, तो AI सिस्टम का प्रदर्शन scale बढ़ने के साथ बढ़ता है। उदाहरण के लिए, 1 million dollar मॉडल coding tasks का 20% हल कर सकता है, 10 million dollar मॉडल 40%, और 100 million dollar मॉडल 60% सही कर सकता है।
-
Shifting the curve: मॉडल architecture या compute efficiency बढ़ने से cost-performance curve खिसकती है। cost efficiency में छोटे innovation से लगभग 1.2x, मध्यम innovation से 2x, और बड़े innovation से लगभग 10x सुधार होता है। लेकिन cost efficiency बढ़ने पर भी कंपनियाँ training cost कम नहीं करतीं, बल्कि बेहतर performance वाले मॉडल बनाने में फिर से निवेश करती हैं। ऐसे innovation मिलकर सालाना लगभग 4x की वृद्धि ला रहे हैं।
-
Shifting the paradigm: 2023 तक, भारी मात्रा में इंटरनेट डेटा पर प्रशिक्षित pretrained model ही scaling का मुख्य लक्ष्य था। लेकिन 2024 से o1 के साथ reinforcement learning का उपयोग शुरू हुआ। इस तरीके में सामान्य pretrained model से शुरू करके उसके बाद reinforcement learning चरण जोड़ा जाता है। 2024 से reinforcement learning चरण की scaling भी शुरू हो गई है, लेकिन यह अभी शुरुआती दौर में है, इसलिए अपेक्षाकृत कम निवेश से भी बड़ा performance improvement मिल सकता है।
DeepSeek मॉडल
DeepSeek ने एक महीने पहले pretrained model DeepSeek-V3 जारी किया था और पिछले हफ्ते reinforcement learning चरण जोड़कर R1 जारी किया। DeepSeek-V3 ने SOTA performance के करीब पहुँचते हुए मॉडल efficiency में बड़ा सुधार दिखाया।
- लेकिन यह अफवाह कि DeepSeek ने 6 million dollar में अमेरिकी कंपनियों के multi-billion dollar मॉडलों के बराबर प्रदर्शन हासिल कर लिया, बढ़ा-चढ़ाकर कही गई है। Claude Sonnet 3.5 की training पर tens of millions of dollars खर्च हुए थे और इसे 1 साल पहले train किया गया था।
- जब training efficiency सालाना लगभग 4x बढ़ रही हो, और V3 का प्रदर्शन SOTA से थोड़ा पीछे हो (curve पर cost में लगभग 2x का अंतर), तो V3 का लगभग 8x कम लागत में train होना मौजूदा प्रगति रुझान से बाहर की बात नहीं है। अमेरिकी कंपनियाँ भी जल्द ही अपने-अपने तरीकों से इस स्तर की efficiency हासिल कर लेंगी।
- असली मुद्दा यह है कि इस रुझान का अनुसरण करने वाला मॉडल चीन में सामने आया।
- DeepSeek के पास 50,000 Hopper generation chips हैं। यह अमेरिकी कंपनियों के लगभग 1/2 से 1/3 स्तर के बराबर है, इसलिए इसे देखते हुए अमेरिकी कंपनियों और DeepSeek के बीच लागत का अंतर इतना बड़ा नहीं है।
- engineering के लिहाज से R1, V3 की तुलना में कम दिलचस्प है। अभी हम reinforcement learning curve के शुरुआती चरण में हैं, इसलिए R1 कम लागत में o1-स्तर का प्रदर्शन दिखा सका। जैसे-जैसे reinforcement learning की scaling आगे बढ़ेगी, ऐसे उदाहरण कम होते जाएँगे।
निर्यात नियंत्रण
- अमेरिका और चीन की लैब्स शक्तिशाली AI विकसित करने के लिए भारी धन निवेश कर रही हैं, और यह तब तक जारी रहेगा जब तक लगभग हर क्षेत्र में लगभग हर इंसान से बेहतर AI मॉडल नहीं बन जाते। इसका अनुमान 2026-2027 के आसपास का है।
- उस समय निर्यात नियंत्रण के आधार पर दुनिया पूरी तरह अलग तरीके से बँट सकती है।
- अगर चीन लाखों chips हासिल कर लेता है, तो दुनिया एक bipolar व्यवस्था बन सकती है, जहाँ अमेरिका और चीन दोनों के पास शक्तिशाली AI मॉडल होंगे और वे तकनीकी innovation को आगे बढ़ाएँगे।
- अगर चीन लाखों chips हासिल नहीं कर पाता, तो दुनिया एक unipolar व्यवस्था बन सकती है, जहाँ केवल अमेरिका और उसके सहयोगियों के पास शक्तिशाली मॉडल होंगे। चूँकि AI, AI विकास को भी तेज करता है, यह रुझान कुछ समय तक बना रह सकता है।
- DeepSeek की उपलब्धि का मतलब यह नहीं है कि निर्यात नियंत्रण विफल हो गए। उन्होंने निर्यात नियंत्रण लागू होने से पहले ही पर्याप्त chips सुरक्षित कर लिए थे।
अतिरिक्त रूप से, Amodei ने इस अफवाह से भी इनकार किया कि 3.5 Sonnet किसी निजी शीर्ष मॉडल (जैसे 3.5 Opus) का distilled version है।
3 टिप्पणियां
मॉडल का चीन से आना ही समस्या है?
शायद असली समस्या इसका open model होना है…
AGI के आने वाले दिन को लेकर उत्साह भी है और डर भी।
Anthropic के ऐसा कहने पर तो... हूँ
कई महीनों से मॉडल को लेकर कोई नई खबर नहीं है, इसलिए धीरे-धीरे यह बात उठ रही है कि Anthropic आखिर कर क्या रहा है।