DeepSeek के R1-Zero और R1 का विश्लेषण

(arcprize.org)

5 पॉइंट द्वारा GN⁺ 2025-01-30 | 1 टिप्पणियां | WhatsApp पर शेयर करें

ARC Prize Foundation का लक्ष्य AGI (Artificial General Intelligence) को परिभाषित करना, मापना और नए विचारों को प्रोत्साहित करना है
AGI अभी तक हासिल नहीं हुआ है, और केवल pure LLM (Large Language Model) pre-training का विस्तार इसका समाधान नहीं है
2023-24 के दौरान LLM startup में लगभग 20 अरब डॉलर निवेश हुए, जबकि AGI startup में केवल लगभग 20 करोड़ डॉलर निवेश हुए

DeepSeek के R1-Zero और R1 का विश्लेषण

DeepSeek द्वारा जारी R1-Zero और R1 सिस्टम ने OpenAI के o1 सिस्टम स्तर के क़रीब परिणाम दिखाए हैं, इसलिए इन पर काफ़ी ध्यान गया है
R1-Zero और R1 दोनों ने लगभग 15~20% का ARC-AGI-1 स्कोर दर्ज किया
यह GPT-4o के 5% स्कोर की तुलना में काफ़ी अधिक है
हाल तक AI उद्योग की मुख्यधारा LLM (Large Language Model) के साधारण scaling पर केंद्रित रही है, लेकिन इसे AGI हासिल करने का सीधा समाधान नहीं माना जा रहा
ARC Prize Foundation, ARC-AGI-1 benchmark के माध्यम से ऐसे AI सिस्टम पर शोध को प्रोत्साहित कर रहा है जो नए सवालों पर, बिना पहले से training के, अनुकूलन कर सकें

R1-Zero, R1 से अधिक महत्वपूर्ण है

DeepSeek के शोध परिणामों से R1-Zero और R1 सामने आए
R1-Zero, R1 और OpenAI का o1(low compute) सभी ने ARC-AGI-1 में 15~20% के आसपास समान स्कोर दर्ज किए
2024 के अंत में OpenAI द्वारा पेश किए गए o3 सिस्टम ने ARC-AGI-1 में स्कोर को अधिकतम 88% तक बढ़ाया, जिससे यह दिखा कि वह नए प्रश्नों को अनुकूल तरीके से हल कर सकता है
हालांकि, o3 के कई हिस्से अभी भी non-public हैं, इसलिए शोधकर्ताओं के लिए इसकी तकनीकी बारीकियाँ समझना कठिन है
R1-Zero को R1 की तुलना में अधिक भविष्यगत मूल्य वाला माना जाता है, क्योंकि इसमें मानव-आधारित direct labeling (SFT) का उपयोग नहीं हुआ

R1-Zero मानव bottleneck को हटाता है

मौजूदा reasoning model समस्या-समाधान प्रक्रिया, यानी Chain-of-Thought (CoT), पर training के लिए मानव labeling (SFT) या मशीन reward (RL) को मिलाकर सीखते हैं
R1-Zero, SFT के बिना, यानी human expert labels के बिना, केवल reinforcement learning (RL) के माध्यम से CoT सीखता है
ARC-AGI-1 में R1-Zero ने 14% और R1 ने 15% स्कोर किया, यानी प्रदर्शन लगभग समान रहा
MATH AIME 2024 जैसे अन्य benchmark में भी R1-Zero और R1 के परिणाम मिलते-जुलते रहे
language mixing और readability को लेकर चिंताएँ थीं, लेकिन वास्तविक परीक्षणों में बड़े incoherence के बिना यह math और coding domain में अच्छी तरह काम करता दिखा
इससे मिलने वाले प्रमुख संकेत इस प्रकार हैं
- मानव labeling के बिना भी कुछ domain में सटीक और समझने योग्य reasoning संभव है
- R1-Zero केवल reinforcement learning के आधार पर अपना domain-specific token representation (DSL) बना सकता है
- reasoning की सीमा बढ़ाने के लिए SFT अभी भी आवश्यक हो सकता है
अंततः, R1-Zero यह दिखाता है कि मानव पर निर्भर हुए बिना स्वयं training data उत्पन्न करने की, यानी 'no-human bottleneck' scaling की, संभावना मौजूद है
नीचे ARC-AGI-1 में विभिन्न सिस्टम द्वारा दर्ज स्कोर, औसत token संख्या और reasoning cost का संक्षिप्त विवरण है
- r1-zero: 14%, SFT के बिना, sequential reasoning search नहीं, औसत 11K token, लागत लगभग $0.11
- r1: 15.8%, SFT लागू, sequential reasoning search नहीं, औसत 6K token, लागत लगभग $0.06
- o1(low): 20.5%, SFT लागू, sequential reasoning search नहीं, औसत 7K token, लागत लगभग $0.43
- o1(med): 31%, SFT लागू, sequential reasoning search नहीं, औसत 13K token, लागत लगभग $0.79
- o1(high): 35%, SFT लागू, sequential reasoning search नहीं, औसत 22K token, लागत लगभग $1.31
- o3(low): 75.7%, SFT लागू, search और sampling का उपयोग, औसत 335K token, लागत लगभग $20
- o3(high): 87.5%, SFT लागू, search और sampling का उपयोग, औसत 57M token, लागत लगभग $3,400

विश्वसनीयता की कीमत

मौजूदा AI बाज़ार में एक बड़ा बदलाव यह है कि “ज़्यादा लागत लगाने पर accuracy और reliability बढ़ाई जा सकती है”
इसके अलावा, training cost से inference cost की ओर भार शिफ्ट हो रहा है
inference चरण में अधिक computing resources लगाने पर अधिक सटीक और स्थिर परिणाम मिल सकते हैं
ज़्यादातर कंपनियाँ AI सिस्टम की reliability समस्या के कारण बड़े पैमाने पर automation लागू नहीं कर पाई हैं
यह अनुमान है कि ARC-AGI क्षेत्र में प्रगति AI agent की reliability बढ़ाएगी, और Anthropic, OpenAI, Apple जैसी कंपनियाँ भी agent-आधारित सेवाएँ तैयार कर रही हैं
उपयोगकर्ता आवश्यक accuracy पाने के लिए अधिक लागत चुकाने को तैयार होंगे
इसलिए AI inference की मांग काफ़ी बढ़ने की संभावना है, जो computing resources की मांग भी बढ़ाएगी

reasoning ही learning है

पहले बड़े पैमाने पर data इकट्ठा किया जाता था, या मौजूदा LLM से synthetic data बनाकर training में इस्तेमाल किया जाता था
अब inference प्रक्रिया के दौरान उपयोगकर्ता या सिस्टम वास्तव में नया और वैध data उत्पन्न कर सकते हैं
इसका अर्थ है एक नया आर्थिक बदलाव, जहाँ “reasoning ही learning का काम भी करता है”
जिन AI model के उपयोगकर्ता अधिक होते हैं, वे अधिक inference data इकट्ठा करते हैं, और वही model सुधार का आधार बनता है
यदि SFT (human labeling) प्रक्रिया भी अनावश्यक हो जाए, तो केवल अधिक लागत लगाकर search, synthesis और verification को दोहराने वाले सिस्टम से भी प्रभावी learning संभव हो सकती है

निष्कर्ष

AI सिस्टम में reasoning की मांग बढ़ने के साथ बाज़ार का पुनर्मूल्यांकन लगातार होता रहेगा
CoT पद्धति और search तकनीक के साथ open source R1 सिस्टम के आने से, अधिक शोधकर्ता और डेवलपर इसकी सीमाओं को परख सकेंगे और innovation को तेज़ कर सकेंगे
R1-Zero और R1 का सार्वजनिक होना वैश्विक AI प्रगति में बड़ा योगदान होगा
कई टीमें ARC Prize 2025 को लक्ष्य बनाकर R1 जैसे सिस्टम का उपयोग करने की इच्छा दिखा रही हैं, इसलिए आगे के परिणामों को लेकर उम्मीद है
DeepSeek द्वारा जारी R1 को AGI की दिशा में महत्वपूर्ण संकेत देने और वैज्ञानिक प्रगति में योगदान करने के कारण सकारात्मक रूप से देखा जा रहा है

1 टिप्पणियां

GN⁺ 2025-01-30

Hacker News राय

AI सिस्टम डेवलपर्स द्वारा नए डेटा जनरेशन से आर्थिक बदलाव आने की संभावना है। ग्राहक डेटा जनरेशन की लागत वहन करके मॉडल की गुणवत्ता सुधार सकते हैं
- हालांकि, इस बात को लेकर संदेह है कि यह डेटा वास्तव में उच्च गुणवत्ता का है या नहीं
- मौजूदा SOTA मॉडल GPT4 स्तर पर ही ठहरे हुए हैं, और अगले 2-3 वर्षों में इनके आगे बढ़ने की संभावना है
- reasoning मॉडल का उपयोग करके डेटा जनरेट करना और उसे non-reasoning मॉडल पर train करना एक आशाजनक विचार है
- हालांकि, reasoning को मॉडल weights में कितनी अच्छी तरह समाहित किया जा सकता है, यह अभी अज्ञात है
- ऐसा मत है कि OpenAI को पहले ही o3 training data का उपयोग करके नया मॉडल train कर लेना चाहिए था
हो सकता है कि base model में सुधार की आवश्यकता न हो, और सामान्य मॉडल ही पर्याप्त हों
- reasoning मॉडल की कीमत कम करना और उनकी गुणवत्ता बढ़ाना महत्वपूर्ण है
o3 सिस्टम यह दिखाता है कि नई समस्याओं के अनुसार खुद को ढालने वाले कंप्यूटर का यह पहला व्यावहारिक implementation है
- हालांकि, OpenAI ने घोषणा की है कि o3 को 75% public training set पर train किया गया था, और ARC-AGI डेटा का performance में योगदान अभी तक test नहीं किया गया है
यह दावा किया जा रहा है कि human bottleneck हटाया जा सकता है, लेकिन गणित और computer science को छोड़कर अधिकांश क्षेत्रों में verifiable reward को परिभाषित करना कठिन है
AI अर्थव्यवस्था में दो बड़े बदलाव हो रहे हैं
- अधिक भुगतान करके अधिक सटीकता और विश्वसनीयता प्राप्त की जा सकती है
- training cost, inference cost की ओर शिफ्ट हो रही है
- इससे inference की मांग बढ़ेगी और computing demand भी बढ़ेगी
o3 ने AGI-1 में 75% स्कोर किया, जबकि R1 और o1 केवल 25% पर रहे
बहुत सारा computing inference की ओर शिफ्ट होना मौजूदा AI निवेश पर बड़ा प्रभाव डालता है
- NVDA के लिए यह बुरी खबर है, और inference-केंद्रित solutions की economics बेहतर है
Baseten के Mike ने कहा कि उन्हें इस काम का समर्थन करने पर गर्व है
R1-Zero एक ऐसी संभावित scaling regime दिखाता है जिसमें human bottleneck नहीं है
- हालांकि, यह सवाल बना हुआ है कि क्या RL approach को अब भी बहुत अधिक human data की आवश्यकता होती है
R1 ने cost-to-performance के मामले में शानदार प्रदर्शन दिखाया
- जटिल समस्याओं के लिए data generator के रूप में R1 का उपयोग करना एक आशाजनक विचार माना जा रहा है
अनुमान है कि LLM का भविष्य customized individual apps में होगा
- आप AI agent को अपनी इच्छित app और requirements बताएँ, और वह backend से frontend तक सब कुछ बना दे
- software को test करे, errors को ठीक करे, और production में deploy करे
- मौजूदा LLM अभी परिपूर्ण नहीं हैं, लेकिन ऐसे systems और workflows पहले से मौजूद हैं जो code को अपने-आप run और compile करते हैं, और errors को वापस LLM को feedback के रूप में देते हैं

DeepSeek के R1-Zero और R1 का विश्लेषण

DeepSeek के R1-Zero और R1 का विश्लेषण

R1-Zero, R1 से अधिक महत्वपूर्ण है

R1-Zero मानव bottleneck को हटाता है

विश्वसनीयता की कीमत

reasoning ही learning है

निष्कर्ष

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय