R1 और बाकी सभी चीज़ों की व्याख्या

(timkellogg.me)

41 पॉइंट द्वारा GN⁺ 2025-01-27 | 9 टिप्पणियां | WhatsApp पर शेयर करें

अचानक सामने आए R1, और o1 व o3 जैसी तेज़ी से बदलती चीज़ों को समझने के लिए मौजूदा स्थिति का सार

टाइमलाइन

12 सितंबर 2024: o1-preview लॉन्च
5 दिसंबर 2024: o1 का आधिकारिक वर्ज़न और o1-pro लॉन्च
20 दिसंबर 2024: o3 की घोषणा (ARC-AGI पास, “AGI” के रूप में ध्यान आकर्षित किया)
26 दिसंबर 2024: DeepSeek V3 लॉन्च
20 जनवरी 2025: DeepSeek R1 लॉन्च (o1 जैसी परफॉर्मेंस, लेकिन open source)
25 जनवरी 2025: Hong Kong University के शोधकर्ताओं ने R1 के परिणामों की प्रतिकृति बनाने में सफलता पाई
25 जनवरी 2025: Huggingface ने R1 की प्रतिकृति बनाने वाले पूरी तरह open source open-r1 प्रोजेक्ट की घोषणा की
स्पष्ट कर लें
- o1, o3, R1 — ये सभी reasoning मॉडल हैं
- DeepSeek V3 एक LLM (foundation model) है, और reasoning मॉडल इसे fine-tune करके बनाए जाते हैं
- ARC-AGI-1 fluid intelligence का सबसे सरल और बुनियादी मूल्यांकन है। इसमें असफल होने का अर्थ है कि अपरिचित परिस्थितियों में अनुकूलन करने या समस्या सुलझाने की क्षमता लगभग पूरी तरह अनुपस्थित है

# Reasoning & Agents

reasoning मॉडल != Agents

reasoning मॉडल वे मॉडल हैं जो जवाब देने से पहले “सोचने” की प्रक्रिया से गुजरते हैं
- LLM टोकन उत्पन्न करके सोचते हैं
- इसलिए हम मॉडल को इस तरह प्रशिक्षित कर रहे हैं कि वह सही उत्तर खोजने की उम्मीद में बहुत सारे टोकन उत्पन्न करे
AI agent दो चीज़ों से परिभाषित होते हैं
- निर्णय लेने और काम पूरा करने के लिए autonomy (agency)
- बाहरी दुनिया के साथ interact करने की क्षमता
LLM या reasoning मॉडल अपने-आप में केवल टोकन उत्पन्न करते हैं, इसलिए ये दोनों काम नहीं कर सकते
- वास्तविक निर्णय लेने और interaction की सुविधा देने के लिए software की ज़रूरत होती है
agent, AI का एक सिस्टम है। यह कई मॉडलों और software का संयोजन है, ताकि वह दुनिया के साथ स्वायत्त रूप से interact कर सके। hardware के साथ भी यही बात लागू होती है

reasoning महत्वपूर्ण है

reasoning मॉडल को agent के साथ भ्रमित किए जाने की वजह यह है कि अभी reasoning ही bottleneck बना हुआ है
काम की योजना बनाने, निगरानी करने, सत्यापित करने और अधिक बुद्धिमान बनने के लिए reasoning क्षमता अनिवार्य है
reasoning क्षमता के बिना agent नहीं बनाए जा सकते, लेकिन जब reasoning benchmark saturation पर पहुँचेंगे, तब नई चुनौतियाँ सामने आएँगी

reasoning को और सस्ता होना चाहिए

agent कई घंटों, कई दिनों, या 24/7 बिना रुके चलते हैं
यही स्वायत्त रूप से काम करने का मूल स्वभाव है, और इसलिए लागत बढ़ती है
फिलहाल R1, o1 की तुलना में लगभग 30 गुना सस्ता है और फिर भी समान परफॉर्मेंस देता है

# R1 क्यों महत्वपूर्ण है

यह सस्ता है, open source है, और इसने o1 तथा o3 जैसी परफॉर्मेंस को सत्यापित किया है — इसलिए इसका महत्व बड़ा है
सार्वजनिक दस्तावेज़ों के आधार पर o1 कैसे काम करता है, इस पर कुछ अनुमान पहले से थे, और R1 का प्रकाशित पेपर लगभग पूरी तरह उन्हें साबित करता है। इसलिए अब हमें समझ आता है कि o1 कैसे o3, o4 तक scale करता है
और क्योंकि यह open source है, दुनिया में कोई भी इसे अपने विचारों के साथ चला सकता है
पिछले एक हफ्ते में जिन लोगों ने R1 को दोबारा implement किया है, उनकी timeline देखकर यह समझा जा सकता है (कुछ ने तो कहा कि उन्होंने इसे $30 में बना लिया)
innovation तब होती है जब तेज़ और सस्ती iteration संभव हो, और R1 ने ऐसा माहौल बनाया है
सबसे महत्वपूर्ण बात यह है कि R1 ने दिखाया कि जटिल विचारों (DPO, MCTS) के बजाय साधारण RL तरीक़े से भी पर्याप्त reasoning परफॉर्मेंस हासिल की जा सकती है

# AI विकास की प्रवृत्तियाँ

pretraining scaling अपनी सीमा पर पहुँचना

GPT-4 के बाद, बड़े पैमाने पर data और computing resources को बस बढ़ाते जाने वाले पारंपरिक ‘scaling law’ की सीमाएँ दिखने लगीं
data जुटाने की समस्या और reasoning के नए तरीक़ों के कारण, अब केवल पुराने तरीके से बड़ा असर पैदा करना कठिन माना जा रहा है

inference time scaling law

o1 और r1 जैसे reasoning मॉडल में यह प्रवृत्ति होती है कि ‘जितना लंबा सोचें, उतनी बेहतर परफॉर्मेंस’
लेकिन बेहतर परिणाम पाने के लिए, ठीक-ठीक किस तरह अधिक computation करनी चाहिए, यह स्पष्ट नहीं था
सीधी-सादी धारणा यह थी कि chain of thought (CoT) काम कर सकती है, और मॉडल को बस CoT करने के लिए प्रशिक्षित करना होगा
समस्या यह थी कि समाधान तक पहुँचने का सबसे तेज़ रास्ता कुशलतापूर्वक कैसे खोजा जाए
- Entropix एक विचार है, जो मॉडल के आंतरिक संकेतों का उपयोग कर सबसे कुशल मार्ग ढूँढता है
- Monte Carlo Tree Search (MCTS) जैसे तरीके भी थे, जो कई रास्ते बनाते हैं लेकिन अंत में केवल एक रास्ता चुनते हैं
यह स्पष्ट हुआ कि CoT सबसे बेहतर है
- R1, RL लागू किए गए एक साधारण single-line chain of thought (CoT) का उपयोग कर रहा है
- संभव है कि o1 भी यही कर रहा हो

down-sized models

शुरुआत GPT-4-turbo से हुई, उसके बाद GPT-4o, Claude series और दूसरे LLM मॉडल आए। 2024 भर ये सब धीरे-धीरे छोटे और सस्ते होते गए
reasoning के लिए बहुत सारे टोकन उत्पन्न करने पड़ते हैं, इसलिए मॉडल जितना छोटा होगा, computation उतनी तेज़ होगी और efficiency उतनी बेहतर होगी
“छोटा मॉडल = ज़्यादा स्मार्ट”

reinforcement learning

R1 ने GRPO (Group Rewards Policy Optimization) नाम के एक सरल RL approach का उपयोग करके मॉडल को inference के समय CoT करने के लिए प्रशिक्षित किया
किसी जटिल verifier या बाहरी LLM की ज़रूरत नहीं है। accuracy और output format के लिए बुनियादी reward function वाला RL ही काफ़ी है
R1-Zero, DeepSeek का R1 वर्ज़न है, जो केवल GRPO को संभालता है और दूसरी सुविधाएँ सपोर्ट नहीं करता
- इसकी accuracy, R1 से अधिक है, लेकिन यह अंग्रेज़ी, चीनी और अन्य भाषाओं के बीच मनमाने ढंग से आता-जाता रहता है, इसलिए आम तौर पर बहुभाषी न होने वाले सामान्य उपयोगकर्ताओं के लिए उपयुक्त नहीं है
R1-Zero भाषाओं के बीच क्यों कूदता है?
- मेरी राय है: “क्योंकि अलग-अलग भाषाएँ अलग तरह की अवधारणाओं को अधिक प्रभावी ढंग से व्यक्त करती हैं”
- एक meme है: “what’s the german word for [paragraph of text]?”
25 जनवरी 2025 तक, किसी ने यह प्रदर्शित कर दिया कि “कोई भी RL चलेगा”
- GRPO, PPO, PRIME — तीनों आज़माए गए, और तीनों ने अच्छी तरह काम किया
- magic number है 1.5B। जब मॉडल parameters 1.5B (1.5 अरब) या उससे ऊपर हो जाते हैं, तो किसी भी RL तकनीक को लागू करने पर reasoning क्षमता उभर आती है
यह आख़िर कितना आगे scale करेगा?

model distillation

R1 को उसके अपने पिछले checkpoint से distill किया गया
distillation में एक teacher मॉडल, student मॉडल के लिए training data बनाता है, और आम तौर पर माना जाता है कि teacher, student से बड़ा मॉडल होता है
- R1 ने उसी मॉडल के पिछले checkpoint का उपयोग करके supervised fine-tuning (SFT) के लिए training data तैयार किया
- SFT और RL को दोहराकर मॉडल में सुधार किया गया
यह कहाँ तक जा सकता है?
बहुत पहले (9 दिन पहले) यह अनुमान लगाया गया था कि GPT5 मौजूद है और GPT4o सिर्फ़ उसका distilled रूप है
- यह लेख यह सिद्धांत रखता है कि OpenAI और Anthropic बड़े मॉडल train करते हैं, फिर उन्हें distill करते हैं, और distilled मॉडल का उपयोग करके उससे भी बड़े मॉडल बनाते हुए यह चक्र जारी रखते हैं
- मैं कहना चाहूँगा कि R1 पेपर ने बड़े पैमाने पर यह पुष्टि कर दी कि यह संभव है (और इसलिए वास्तव में होने की संभावना भी अधिक है)
अगर ऐसा है, तो यह बहुत लंबे समय तक जारी रह सकता है
संदर्भ: कुछ प्रयोगों के अनुसार student मॉडल teacher मॉडल को पीछे भी छोड़ सकता है। वास्तव में ऐसा कितनी बार होता है, यह स्पष्ट नहीं है
- सहज रूप से देखें तो distillation, student को signal खोजने और तेज़ी से converge करने में मदद कर सकता है
- Model collapse अभी भी सबसे बड़ी चिंताओं में से एक है, लेकिन यह ज़्यादातर एक अनावश्यक डर लगता है
- model collapse हमेशा संभव है, लेकिन यह कभी सुनिश्चित नहीं होता, और प्रक्रिया उलटी दिशा में भी जा सकती है जहाँ student, teacher से आगे निकल जाए

# 2025 का पूर्वानुमान

मौजूदा स्थिति:
- pretraining कठिन है (मरा नहीं है)
- reasoning scaling
- model downsizing
- RL scaling law
- model distillation के ज़रिए scaling law
ऐसा नहीं लगता कि AI विकास की गति धीमी हो रही है। एक scaling law धीमा पड़ा है, और चार नए law सामने आ गए हैं
यह प्रवृत्ति कुछ समय तक और तेज़ होती रहेगी

भू-राजनीतिक मुद्दा: Distealing

“Distealing” मेरा बनाया हुआ शब्द है, जिसका मतलब है मॉडल की “अनधिकृत distillation”
अब software ही राजनीति है, और उसके केंद्र में AI है
- AI पर लगभग हर राजनीतिक धुरी पर विचार हो रहा है, और इनमें सबसे दिलचस्प है चीन बनाम अमेरिका
रणनीति
- अमेरिका: भारी फंडिंग। जितनी जल्दी हो सके AI की आग में पैसा झोंकना
- चीन: दमनकारी export control के कारण, अधिक बुद्धिमान engineers और researchers को सस्ते समाधान खोजने में लगाना
- यूरोप: regulation या open source AI — दोनों में से कोई भी ठीक
DeepSeek ने o1 की अनधिकृत distillation (“distealing”) की या नहीं, इस पर विवाद है, लेकिन R1 की प्रतिकृतियों को देखते हुए अब यह अधिक संभावना मानी जा रही है कि उसने R1 को स्वतंत्र रूप से विकसित किया
- लेकिन इस बात ने तनाव बढ़ा दिया है कि एक चीनी लैब ने तेज़ी से OpenAI के सर्वोत्तम मॉडल को पीछे छोड़ दिया
AI बहुत जल्द (यदि अभी नहीं तो) घातीय गति से अपनी क्षमता बढ़ाएगा
- इसके राजनीतिक और भू-राजनीतिक प्रभाव बहुत बड़े होंगे
- बल्कि AI में काम करने वालों को राजनीति में अधिक रुचि लेनी चाहिए और कौन-सी नीतियाँ अच्छी हैं या बुरी, इस बारे में खुला दृष्टिकोण रखना चाहिए

निष्कर्ष

सबसे महत्वपूर्ण बात यह है कि R1 उन हिस्सों को स्पष्ट करता है जो पहले अस्पष्ट थे
इसलिए AI का भविष्य अब और अधिक साफ़ दिखता है, और उसकी गति तेज़ी से बढ़ती हुई लग रही है

9 टिप्पणियां

xguru 2025-02-02

mammal 2025-01-27

इसे distillation कहकर अब डांटना मुश्किल है, क्योंकि LLaMA 1 के शुरुआती दौर से ही GPT से distill किए गए Alpaca और Vicuna जैसे मॉडल मौजूद थे, और अब तो frontier labs में भी ऐसी कोई जगह नहीं है जो दूसरे मॉडलों के outputs से training न करती हो.

असल में आज के अधिकांश frontier models, GPT से distill किए गए एक तरह के inbred genes पर, हर lab अपनी पसंद के हिसाब से RLHF करके बनाए गए हैं

mammal 2025-01-27

अभी सबसे ज़्यादा चिंता चीन की बिना अनुमति नकल या सेंसरशिप की नहीं करनी चाहिए।

चौंकाने वाली बात यह है कि DeepSeek की पागलपन-भरी efficiency के पीछे मौजूद MLA, MTP, mixed precision framework और GRPO को पूरी तरह 100% सिर्फ़ चीनी विश्वविद्यालय पृष्ठभूमि वाले लोगों ने बनाया है।

अमेरिका में तो इसे दूसरा Sputnik shock तक कहा जाने लगा है...

luminance 2025-01-27

क्या distealing शायद distilling लिखने की कोशिश नहीं थी?

grogu 2025-01-27

ऐसा लगता है कि लेखक ने अनधिकृत distillation को, distillation के अर्थ वाले distilling से अलग दिखाने के लिए (और समान उच्चारण वाले एक तरह के pun के रूप में) distealing शब्द गढ़ा है (लेख में इसका उल्लेख है)।

luminance 2025-01-27

स्पष्टीकरण के लिए धन्यवाद।

savvykang 2025-01-27

> Geopolitics: Distealing
> भू-राजनीतिक मुद्दा: Distealing

> मैंने यह शब्द गढ़ा है, distealing, यानी मॉडलों की अनधिकृत distillation. आगे बढ़िए, इसका इस्तेमाल कीजिए, यह एक मज़ेदार शब्द है.
> "Distealing" वह शब्द है जो मैंने मॉडल की "अनधिकृत distillation" के लिए बनाया है

luminance 2025-01-27

अच्छा, तो मूल लेख में सामग्री थी। धन्यवाद।

GN⁺ 2025-01-27

Hacker News राय

इस दावे के बारे में कि R1 ने जटिल विचारों को साधारण reinforcement learning से बदल दिया, वास्तव में इसमें reinforcement learning और supervised learning का मिश्रित उपयोग किया गया था। supervised learning में इस्तेमाल किया गया डेटा संभवतः model-generated नहीं बल्कि इंसानों द्वारा चुना गया था
- R1 को पुनर्निर्मित करने की कोशिशें हो रही हैं, और कुछ लोग दावा करते हैं कि यह $30 में संभव है, लेकिन यह शायद खुद R1 नहीं बल्कि R1 का fine-tuning हो सकता है
- Hugging Face, R1 को पुनर्निर्मित करने की कोशिश कर रहा है, लेकिन यह काफी बड़ा काम है और ऐसा कुछ नहीं जिसे $30 में किया जा सके
लेख में बहुत अतिशयोक्ति है, इसलिए उस पर भरोसा करना मुश्किल है
- अलग-अलग models के benchmarks गणित और coding accuracy पर केंद्रित हैं, लेकिन कुछ खास use cases में ये क्षमताएँ महत्वपूर्ण नहीं होतीं। concepts को benchmark करना मुश्किल है
- यह सवाल उठाया गया कि क्या distillation के ज़रिए गणित और coding तत्वों को हटाकर model बनाया जा सकता है
R1 के mainstream news में आने से भ्रम और सतर्कता दोनों पैदा हुए। यह समझाना मुश्किल है कि चीन अमेरिका के लिए ख़तरा नहीं है
- इस निष्कर्ष के बारे में कि AI की क्षमताएँ exponential रूप से बढ़ेंगी, R1 का open source model के रूप में o1 स्तर तक पहुँचना ही एकमात्र data point है। ये दो बहुत कम संबंधित विषय हैं
यह सवाल उठाया गया कि क्या AI पहले से ही reasoning कर रहा है
- ARC-AGI इंसानों के लिए सरल लेकिन AI के लिए बहुत कठिन benchmark है। इसे हल कर लेने पर यह गलतफ़हमी होती है कि AI इंसानों जैसा काम कर सकता है
- ARC-AGI के creator François Chollet बताते हैं कि ARC-AGI-1 कितना सरल था और इसे हल करने का क्या अर्थ है
- ARC-AGI-1 पास कर लेने का मतलब है कि system में non-zero fluid intelligence है, लेकिन यह system की intelligence level या मानव बुद्धि के कितना करीब है, यह नहीं दिखाता
इस निष्कर्ष के लिए पर्याप्त आधार नहीं है कि AI की क्षमताएँ जल्द ही exponential रूप से बढ़ेंगी। अच्छा होता अगर पता चलता कि लेखक इस निष्कर्ष तक कैसे पहुँचा

R1 और बाकी सभी चीज़ों की व्याख्या

टाइमलाइन

# Reasoning & Agents

reasoning मॉडल != Agents

reasoning महत्वपूर्ण है

reasoning को और सस्ता होना चाहिए

# R1 क्यों महत्वपूर्ण है

# AI विकास की प्रवृत्तियाँ

pretraining scaling अपनी सीमा पर पहुँचना

inference time scaling law

down-sized models

reinforcement learning

model distillation

# 2025 का पूर्वानुमान

भू-राजनीतिक मुद्दा: Distealing

निष्कर्ष

संबंधित पढ़ाई

9 टिप्पणियां

Hacker News राय