- अचानक सामने आए R1, और o1 व o3 जैसी तेज़ी से बदलती चीज़ों को समझने के लिए मौजूदा स्थिति का सार
टाइमलाइन
- 12 सितंबर 2024: o1-preview लॉन्च
- 5 दिसंबर 2024: o1 का आधिकारिक वर्ज़न और o1-pro लॉन्च
- 20 दिसंबर 2024: o3 की घोषणा (ARC-AGI पास, “AGI” के रूप में ध्यान आकर्षित किया)
- 26 दिसंबर 2024: DeepSeek V3 लॉन्च
- 20 जनवरी 2025: DeepSeek R1 लॉन्च (o1 जैसी परफॉर्मेंस, लेकिन open source)
- 25 जनवरी 2025: Hong Kong University के शोधकर्ताओं ने R1 के परिणामों की प्रतिकृति बनाने में सफलता पाई
- 25 जनवरी 2025: Huggingface ने R1 की प्रतिकृति बनाने वाले पूरी तरह open source open-r1 प्रोजेक्ट की घोषणा की
- स्पष्ट कर लें
- o1, o3, R1 — ये सभी reasoning मॉडल हैं
- DeepSeek V3 एक LLM (foundation model) है, और reasoning मॉडल इसे fine-tune करके बनाए जाते हैं
- ARC-AGI-1 fluid intelligence का सबसे सरल और बुनियादी मूल्यांकन है। इसमें असफल होने का अर्थ है कि अपरिचित परिस्थितियों में अनुकूलन करने या समस्या सुलझाने की क्षमता लगभग पूरी तरह अनुपस्थित है
# Reasoning & Agents
reasoning मॉडल != Agents
- reasoning मॉडल वे मॉडल हैं जो जवाब देने से पहले “सोचने” की प्रक्रिया से गुजरते हैं
- LLM टोकन उत्पन्न करके सोचते हैं
- इसलिए हम मॉडल को इस तरह प्रशिक्षित कर रहे हैं कि वह सही उत्तर खोजने की उम्मीद में बहुत सारे टोकन उत्पन्न करे
- AI agent दो चीज़ों से परिभाषित होते हैं
- निर्णय लेने और काम पूरा करने के लिए autonomy (agency)
- बाहरी दुनिया के साथ interact करने की क्षमता
- LLM या reasoning मॉडल अपने-आप में केवल टोकन उत्पन्न करते हैं, इसलिए ये दोनों काम नहीं कर सकते
- वास्तविक निर्णय लेने और interaction की सुविधा देने के लिए software की ज़रूरत होती है
- agent, AI का एक सिस्टम है। यह कई मॉडलों और software का संयोजन है, ताकि वह दुनिया के साथ स्वायत्त रूप से interact कर सके। hardware के साथ भी यही बात लागू होती है
reasoning महत्वपूर्ण है
- reasoning मॉडल को agent के साथ भ्रमित किए जाने की वजह यह है कि अभी reasoning ही bottleneck बना हुआ है
- काम की योजना बनाने, निगरानी करने, सत्यापित करने और अधिक बुद्धिमान बनने के लिए reasoning क्षमता अनिवार्य है
- reasoning क्षमता के बिना agent नहीं बनाए जा सकते, लेकिन जब reasoning benchmark saturation पर पहुँचेंगे, तब नई चुनौतियाँ सामने आएँगी
reasoning को और सस्ता होना चाहिए
- agent कई घंटों, कई दिनों, या 24/7 बिना रुके चलते हैं
- यही स्वायत्त रूप से काम करने का मूल स्वभाव है, और इसलिए लागत बढ़ती है
- फिलहाल R1, o1 की तुलना में लगभग 30 गुना सस्ता है और फिर भी समान परफॉर्मेंस देता है
# R1 क्यों महत्वपूर्ण है
- यह सस्ता है, open source है, और इसने o1 तथा o3 जैसी परफॉर्मेंस को सत्यापित किया है — इसलिए इसका महत्व बड़ा है
- सार्वजनिक दस्तावेज़ों के आधार पर o1 कैसे काम करता है, इस पर कुछ अनुमान पहले से थे, और R1 का प्रकाशित पेपर लगभग पूरी तरह उन्हें साबित करता है। इसलिए अब हमें समझ आता है कि o1 कैसे o3, o4 तक scale करता है
- और क्योंकि यह open source है, दुनिया में कोई भी इसे अपने विचारों के साथ चला सकता है
- पिछले एक हफ्ते में जिन लोगों ने R1 को दोबारा implement किया है, उनकी timeline देखकर यह समझा जा सकता है (कुछ ने तो कहा कि उन्होंने इसे $30 में बना लिया)
- innovation तब होती है जब तेज़ और सस्ती iteration संभव हो, और R1 ने ऐसा माहौल बनाया है
- सबसे महत्वपूर्ण बात यह है कि R1 ने दिखाया कि जटिल विचारों (DPO, MCTS) के बजाय साधारण RL तरीक़े से भी पर्याप्त reasoning परफॉर्मेंस हासिल की जा सकती है
# AI विकास की प्रवृत्तियाँ
pretraining scaling अपनी सीमा पर पहुँचना
- GPT-4 के बाद, बड़े पैमाने पर data और computing resources को बस बढ़ाते जाने वाले पारंपरिक ‘scaling law’ की सीमाएँ दिखने लगीं
- data जुटाने की समस्या और reasoning के नए तरीक़ों के कारण, अब केवल पुराने तरीके से बड़ा असर पैदा करना कठिन माना जा रहा है
inference time scaling law
- o1 और r1 जैसे reasoning मॉडल में यह प्रवृत्ति होती है कि ‘जितना लंबा सोचें, उतनी बेहतर परफॉर्मेंस’
- लेकिन बेहतर परिणाम पाने के लिए, ठीक-ठीक किस तरह अधिक computation करनी चाहिए, यह स्पष्ट नहीं था
- सीधी-सादी धारणा यह थी कि chain of thought (CoT) काम कर सकती है, और मॉडल को बस CoT करने के लिए प्रशिक्षित करना होगा
- समस्या यह थी कि समाधान तक पहुँचने का सबसे तेज़ रास्ता कुशलतापूर्वक कैसे खोजा जाए
- Entropix एक विचार है, जो मॉडल के आंतरिक संकेतों का उपयोग कर सबसे कुशल मार्ग ढूँढता है
- Monte Carlo Tree Search (MCTS) जैसे तरीके भी थे, जो कई रास्ते बनाते हैं लेकिन अंत में केवल एक रास्ता चुनते हैं
- यह स्पष्ट हुआ कि CoT सबसे बेहतर है
- R1, RL लागू किए गए एक साधारण single-line chain of thought (CoT) का उपयोग कर रहा है
- संभव है कि o1 भी यही कर रहा हो
down-sized models
- शुरुआत GPT-4-turbo से हुई, उसके बाद GPT-4o, Claude series और दूसरे LLM मॉडल आए। 2024 भर ये सब धीरे-धीरे छोटे और सस्ते होते गए
- reasoning के लिए बहुत सारे टोकन उत्पन्न करने पड़ते हैं, इसलिए मॉडल जितना छोटा होगा, computation उतनी तेज़ होगी और efficiency उतनी बेहतर होगी
- “छोटा मॉडल = ज़्यादा स्मार्ट”
reinforcement learning
- R1 ने GRPO (Group Rewards Policy Optimization) नाम के एक सरल RL approach का उपयोग करके मॉडल को inference के समय CoT करने के लिए प्रशिक्षित किया
- किसी जटिल verifier या बाहरी LLM की ज़रूरत नहीं है। accuracy और output format के लिए बुनियादी reward function वाला RL ही काफ़ी है
- R1-Zero, DeepSeek का R1 वर्ज़न है, जो केवल GRPO को संभालता है और दूसरी सुविधाएँ सपोर्ट नहीं करता
- इसकी accuracy, R1 से अधिक है, लेकिन यह अंग्रेज़ी, चीनी और अन्य भाषाओं के बीच मनमाने ढंग से आता-जाता रहता है, इसलिए आम तौर पर बहुभाषी न होने वाले सामान्य उपयोगकर्ताओं के लिए उपयुक्त नहीं है
- R1-Zero भाषाओं के बीच क्यों कूदता है?
- मेरी राय है: “क्योंकि अलग-अलग भाषाएँ अलग तरह की अवधारणाओं को अधिक प्रभावी ढंग से व्यक्त करती हैं”
- एक meme है: “what’s the german word for [paragraph of text]?”
- 25 जनवरी 2025 तक, किसी ने यह प्रदर्शित कर दिया कि “कोई भी RL चलेगा”
- GRPO, PPO, PRIME — तीनों आज़माए गए, और तीनों ने अच्छी तरह काम किया
- magic number है 1.5B। जब मॉडल parameters 1.5B (1.5 अरब) या उससे ऊपर हो जाते हैं, तो किसी भी RL तकनीक को लागू करने पर reasoning क्षमता उभर आती है
- यह आख़िर कितना आगे scale करेगा?
model distillation
- R1 को उसके अपने पिछले checkpoint से distill किया गया
- distillation में एक teacher मॉडल, student मॉडल के लिए training data बनाता है, और आम तौर पर माना जाता है कि teacher, student से बड़ा मॉडल होता है
- R1 ने उसी मॉडल के पिछले checkpoint का उपयोग करके supervised fine-tuning (SFT) के लिए training data तैयार किया
- SFT और RL को दोहराकर मॉडल में सुधार किया गया
- यह कहाँ तक जा सकता है?
- बहुत पहले (9 दिन पहले) यह अनुमान लगाया गया था कि GPT5 मौजूद है और GPT4o सिर्फ़ उसका distilled रूप है
- यह लेख यह सिद्धांत रखता है कि OpenAI और Anthropic बड़े मॉडल train करते हैं, फिर उन्हें distill करते हैं, और distilled मॉडल का उपयोग करके उससे भी बड़े मॉडल बनाते हुए यह चक्र जारी रखते हैं
- मैं कहना चाहूँगा कि R1 पेपर ने बड़े पैमाने पर यह पुष्टि कर दी कि यह संभव है (और इसलिए वास्तव में होने की संभावना भी अधिक है)
- अगर ऐसा है, तो यह बहुत लंबे समय तक जारी रह सकता है
- संदर्भ: कुछ प्रयोगों के अनुसार student मॉडल teacher मॉडल को पीछे भी छोड़ सकता है। वास्तव में ऐसा कितनी बार होता है, यह स्पष्ट नहीं है
- सहज रूप से देखें तो distillation, student को signal खोजने और तेज़ी से converge करने में मदद कर सकता है
- Model collapse अभी भी सबसे बड़ी चिंताओं में से एक है, लेकिन यह ज़्यादातर एक अनावश्यक डर लगता है
- model collapse हमेशा संभव है, लेकिन यह कभी सुनिश्चित नहीं होता, और प्रक्रिया उलटी दिशा में भी जा सकती है जहाँ student, teacher से आगे निकल जाए
# 2025 का पूर्वानुमान
- मौजूदा स्थिति:
- pretraining कठिन है (मरा नहीं है)
- reasoning scaling
- model downsizing
- RL scaling law
- model distillation के ज़रिए scaling law
- ऐसा नहीं लगता कि AI विकास की गति धीमी हो रही है। एक scaling law धीमा पड़ा है, और चार नए law सामने आ गए हैं
- यह प्रवृत्ति कुछ समय तक और तेज़ होती रहेगी
भू-राजनीतिक मुद्दा: Distealing
- “Distealing” मेरा बनाया हुआ शब्द है, जिसका मतलब है मॉडल की “अनधिकृत distillation”
- अब software ही राजनीति है, और उसके केंद्र में AI है
- AI पर लगभग हर राजनीतिक धुरी पर विचार हो रहा है, और इनमें सबसे दिलचस्प है चीन बनाम अमेरिका
- रणनीति
- अमेरिका: भारी फंडिंग। जितनी जल्दी हो सके AI की आग में पैसा झोंकना
- चीन: दमनकारी export control के कारण, अधिक बुद्धिमान engineers और researchers को सस्ते समाधान खोजने में लगाना
- यूरोप: regulation या open source AI — दोनों में से कोई भी ठीक
- DeepSeek ने o1 की अनधिकृत distillation (“distealing”) की या नहीं, इस पर विवाद है, लेकिन R1 की प्रतिकृतियों को देखते हुए अब यह अधिक संभावना मानी जा रही है कि उसने R1 को स्वतंत्र रूप से विकसित किया
- लेकिन इस बात ने तनाव बढ़ा दिया है कि एक चीनी लैब ने तेज़ी से OpenAI के सर्वोत्तम मॉडल को पीछे छोड़ दिया
- AI बहुत जल्द (यदि अभी नहीं तो) घातीय गति से अपनी क्षमता बढ़ाएगा
- इसके राजनीतिक और भू-राजनीतिक प्रभाव बहुत बड़े होंगे
- बल्कि AI में काम करने वालों को राजनीति में अधिक रुचि लेनी चाहिए और कौन-सी नीतियाँ अच्छी हैं या बुरी, इस बारे में खुला दृष्टिकोण रखना चाहिए
निष्कर्ष
- सबसे महत्वपूर्ण बात यह है कि R1 उन हिस्सों को स्पष्ट करता है जो पहले अस्पष्ट थे
- इसलिए AI का भविष्य अब और अधिक साफ़ दिखता है, और उसकी गति तेज़ी से बढ़ती हुई लग रही है
9 टिप्पणियां
इसे
distillationकहकर अब डांटना मुश्किल है, क्योंकि LLaMA 1 के शुरुआती दौर से ही GPT से distill किए गए Alpaca और Vicuna जैसे मॉडल मौजूद थे, और अब तो frontier labs में भी ऐसी कोई जगह नहीं है जो दूसरे मॉडलों के outputs से training न करती हो.असल में आज के अधिकांश frontier models, GPT से distill किए गए एक तरह के inbred genes पर, हर lab अपनी पसंद के हिसाब से RLHF करके बनाए गए हैं
अभी सबसे ज़्यादा चिंता चीन की बिना अनुमति नकल या सेंसरशिप की नहीं करनी चाहिए।
चौंकाने वाली बात यह है कि DeepSeek की पागलपन-भरी efficiency के पीछे मौजूद MLA, MTP, mixed precision framework और GRPO को पूरी तरह 100% सिर्फ़ चीनी विश्वविद्यालय पृष्ठभूमि वाले लोगों ने बनाया है।
अमेरिका में तो इसे दूसरा Sputnik shock तक कहा जाने लगा है...
क्या
distealingशायदdistillingलिखने की कोशिश नहीं थी?ऐसा लगता है कि लेखक ने अनधिकृत distillation को, distillation के अर्थ वाले
distillingसे अलग दिखाने के लिए (और समान उच्चारण वाले एक तरह के pun के रूप में)distealingशब्द गढ़ा है (लेख में इसका उल्लेख है)।स्पष्टीकरण के लिए धन्यवाद।
> Geopolitics: Distealing
> भू-राजनीतिक मुद्दा: Distealing
> मैंने यह शब्द गढ़ा है, distealing, यानी मॉडलों की अनधिकृत distillation. आगे बढ़िए, इसका इस्तेमाल कीजिए, यह एक मज़ेदार शब्द है.
> "Distealing" वह शब्द है जो मैंने मॉडल की "अनधिकृत distillation" के लिए बनाया है
अच्छा, तो मूल लेख में सामग्री थी। धन्यवाद।
Hacker News राय
इस दावे के बारे में कि R1 ने जटिल विचारों को साधारण reinforcement learning से बदल दिया, वास्तव में इसमें reinforcement learning और supervised learning का मिश्रित उपयोग किया गया था। supervised learning में इस्तेमाल किया गया डेटा संभवतः model-generated नहीं बल्कि इंसानों द्वारा चुना गया था
लेख में बहुत अतिशयोक्ति है, इसलिए उस पर भरोसा करना मुश्किल है
R1 के mainstream news में आने से भ्रम और सतर्कता दोनों पैदा हुए। यह समझाना मुश्किल है कि चीन अमेरिका के लिए ख़तरा नहीं है
यह सवाल उठाया गया कि क्या AI पहले से ही reasoning कर रहा है
इस निष्कर्ष के लिए पर्याप्त आधार नहीं है कि AI की क्षमताएँ जल्द ही exponential रूप से बढ़ेंगी। अच्छा होता अगर पता चलता कि लेखक इस निष्कर्ष तक कैसे पहुँचा