DeepSeek के R1-Zero और R1 का विश्लेषण
(arcprize.org)- ARC Prize Foundation का लक्ष्य AGI (Artificial General Intelligence) को परिभाषित करना, मापना और नए विचारों को प्रोत्साहित करना है
- AGI अभी तक हासिल नहीं हुआ है, और केवल pure LLM (Large Language Model) pre-training का विस्तार इसका समाधान नहीं है
- 2023-24 के दौरान LLM startup में लगभग 20 अरब डॉलर निवेश हुए, जबकि AGI startup में केवल लगभग 20 करोड़ डॉलर निवेश हुए
DeepSeek के R1-Zero और R1 का विश्लेषण
- DeepSeek द्वारा जारी R1-Zero और R1 सिस्टम ने OpenAI के o1 सिस्टम स्तर के क़रीब परिणाम दिखाए हैं, इसलिए इन पर काफ़ी ध्यान गया है
- R1-Zero और R1 दोनों ने लगभग 15~20% का ARC-AGI-1 स्कोर दर्ज किया
- यह GPT-4o के 5% स्कोर की तुलना में काफ़ी अधिक है
- हाल तक AI उद्योग की मुख्यधारा LLM (Large Language Model) के साधारण scaling पर केंद्रित रही है, लेकिन इसे AGI हासिल करने का सीधा समाधान नहीं माना जा रहा
- ARC Prize Foundation, ARC-AGI-1 benchmark के माध्यम से ऐसे AI सिस्टम पर शोध को प्रोत्साहित कर रहा है जो नए सवालों पर, बिना पहले से training के, अनुकूलन कर सकें
R1-Zero, R1 से अधिक महत्वपूर्ण है
- DeepSeek के शोध परिणामों से R1-Zero और R1 सामने आए
- R1-Zero, R1 और OpenAI का o1(low compute) सभी ने ARC-AGI-1 में 15~20% के आसपास समान स्कोर दर्ज किए
- 2024 के अंत में OpenAI द्वारा पेश किए गए o3 सिस्टम ने ARC-AGI-1 में स्कोर को अधिकतम 88% तक बढ़ाया, जिससे यह दिखा कि वह नए प्रश्नों को अनुकूल तरीके से हल कर सकता है
- हालांकि, o3 के कई हिस्से अभी भी non-public हैं, इसलिए शोधकर्ताओं के लिए इसकी तकनीकी बारीकियाँ समझना कठिन है
- R1-Zero को R1 की तुलना में अधिक भविष्यगत मूल्य वाला माना जाता है, क्योंकि इसमें मानव-आधारित direct labeling (SFT) का उपयोग नहीं हुआ
R1-Zero मानव bottleneck को हटाता है
-
मौजूदा reasoning model समस्या-समाधान प्रक्रिया, यानी Chain-of-Thought (CoT), पर training के लिए मानव labeling (SFT) या मशीन reward (RL) को मिलाकर सीखते हैं
-
R1-Zero, SFT के बिना, यानी human expert labels के बिना, केवल reinforcement learning (RL) के माध्यम से CoT सीखता है
-
ARC-AGI-1 में R1-Zero ने 14% और R1 ने 15% स्कोर किया, यानी प्रदर्शन लगभग समान रहा
-
MATH AIME 2024 जैसे अन्य benchmark में भी R1-Zero और R1 के परिणाम मिलते-जुलते रहे
-
language mixing और readability को लेकर चिंताएँ थीं, लेकिन वास्तविक परीक्षणों में बड़े incoherence के बिना यह math और coding domain में अच्छी तरह काम करता दिखा
-
इससे मिलने वाले प्रमुख संकेत इस प्रकार हैं
- मानव labeling के बिना भी कुछ domain में सटीक और समझने योग्य reasoning संभव है
- R1-Zero केवल reinforcement learning के आधार पर अपना domain-specific token representation (DSL) बना सकता है
- reasoning की सीमा बढ़ाने के लिए SFT अभी भी आवश्यक हो सकता है
-
अंततः, R1-Zero यह दिखाता है कि मानव पर निर्भर हुए बिना स्वयं training data उत्पन्न करने की, यानी 'no-human bottleneck' scaling की, संभावना मौजूद है
-
नीचे ARC-AGI-1 में विभिन्न सिस्टम द्वारा दर्ज स्कोर, औसत token संख्या और reasoning cost का संक्षिप्त विवरण है
- r1-zero: 14%, SFT के बिना, sequential reasoning search नहीं, औसत 11K token, लागत लगभग $0.11
- r1: 15.8%, SFT लागू, sequential reasoning search नहीं, औसत 6K token, लागत लगभग $0.06
- o1(low): 20.5%, SFT लागू, sequential reasoning search नहीं, औसत 7K token, लागत लगभग $0.43
- o1(med): 31%, SFT लागू, sequential reasoning search नहीं, औसत 13K token, लागत लगभग $0.79
- o1(high): 35%, SFT लागू, sequential reasoning search नहीं, औसत 22K token, लागत लगभग $1.31
- o3(low): 75.7%, SFT लागू, search और sampling का उपयोग, औसत 335K token, लागत लगभग $20
- o3(high): 87.5%, SFT लागू, search और sampling का उपयोग, औसत 57M token, लागत लगभग $3,400
विश्वसनीयता की कीमत
- मौजूदा AI बाज़ार में एक बड़ा बदलाव यह है कि “ज़्यादा लागत लगाने पर accuracy और reliability बढ़ाई जा सकती है”
- इसके अलावा, training cost से inference cost की ओर भार शिफ्ट हो रहा है
- inference चरण में अधिक computing resources लगाने पर अधिक सटीक और स्थिर परिणाम मिल सकते हैं
- ज़्यादातर कंपनियाँ AI सिस्टम की reliability समस्या के कारण बड़े पैमाने पर automation लागू नहीं कर पाई हैं
- यह अनुमान है कि ARC-AGI क्षेत्र में प्रगति AI agent की reliability बढ़ाएगी, और Anthropic, OpenAI, Apple जैसी कंपनियाँ भी agent-आधारित सेवाएँ तैयार कर रही हैं
- उपयोगकर्ता आवश्यक accuracy पाने के लिए अधिक लागत चुकाने को तैयार होंगे
- इसलिए AI inference की मांग काफ़ी बढ़ने की संभावना है, जो computing resources की मांग भी बढ़ाएगी
reasoning ही learning है
- पहले बड़े पैमाने पर data इकट्ठा किया जाता था, या मौजूदा LLM से synthetic data बनाकर training में इस्तेमाल किया जाता था
- अब inference प्रक्रिया के दौरान उपयोगकर्ता या सिस्टम वास्तव में नया और वैध data उत्पन्न कर सकते हैं
- इसका अर्थ है एक नया आर्थिक बदलाव, जहाँ “reasoning ही learning का काम भी करता है”
- जिन AI model के उपयोगकर्ता अधिक होते हैं, वे अधिक inference data इकट्ठा करते हैं, और वही model सुधार का आधार बनता है
- यदि SFT (human labeling) प्रक्रिया भी अनावश्यक हो जाए, तो केवल अधिक लागत लगाकर search, synthesis और verification को दोहराने वाले सिस्टम से भी प्रभावी learning संभव हो सकती है
निष्कर्ष
- AI सिस्टम में reasoning की मांग बढ़ने के साथ बाज़ार का पुनर्मूल्यांकन लगातार होता रहेगा
- CoT पद्धति और search तकनीक के साथ open source R1 सिस्टम के आने से, अधिक शोधकर्ता और डेवलपर इसकी सीमाओं को परख सकेंगे और innovation को तेज़ कर सकेंगे
- R1-Zero और R1 का सार्वजनिक होना वैश्विक AI प्रगति में बड़ा योगदान होगा
- कई टीमें ARC Prize 2025 को लक्ष्य बनाकर R1 जैसे सिस्टम का उपयोग करने की इच्छा दिखा रही हैं, इसलिए आगे के परिणामों को लेकर उम्मीद है
- DeepSeek द्वारा जारी R1 को AGI की दिशा में महत्वपूर्ण संकेत देने और वैज्ञानिक प्रगति में योगदान करने के कारण सकारात्मक रूप से देखा जा रहा है
1 टिप्पणियां
Hacker News राय
AI सिस्टम डेवलपर्स द्वारा नए डेटा जनरेशन से आर्थिक बदलाव आने की संभावना है। ग्राहक डेटा जनरेशन की लागत वहन करके मॉडल की गुणवत्ता सुधार सकते हैं
हो सकता है कि base model में सुधार की आवश्यकता न हो, और सामान्य मॉडल ही पर्याप्त हों
o3 सिस्टम यह दिखाता है कि नई समस्याओं के अनुसार खुद को ढालने वाले कंप्यूटर का यह पहला व्यावहारिक implementation है
यह दावा किया जा रहा है कि human bottleneck हटाया जा सकता है, लेकिन गणित और computer science को छोड़कर अधिकांश क्षेत्रों में verifiable reward को परिभाषित करना कठिन है
AI अर्थव्यवस्था में दो बड़े बदलाव हो रहे हैं
o3 ने AGI-1 में 75% स्कोर किया, जबकि R1 और o1 केवल 25% पर रहे
बहुत सारा computing inference की ओर शिफ्ट होना मौजूदा AI निवेश पर बड़ा प्रभाव डालता है
Baseten के Mike ने कहा कि उन्हें इस काम का समर्थन करने पर गर्व है
R1-Zero एक ऐसी संभावित scaling regime दिखाता है जिसमें human bottleneck नहीं है
R1 ने cost-to-performance के मामले में शानदार प्रदर्शन दिखाया
अनुमान है कि LLM का भविष्य customized individual apps में होगा