DeepScaleR: RL का उपयोग कर 1.5B मॉडल से O1-Preview को पीछे छोड़ना

(pretty-radio-b75.notion.site)

5 पॉइंट द्वारा GN⁺ 2025-02-12 | 1 टिप्पणियां | WhatsApp पर शेयर करें

DeepScaleR-1.5B-Preview: Deepseek-R1-Distilled-Qwen-1.5B मॉडल को reinforcement learning (RL) के साथ fine-tune किया गया मॉडल
AIME2024 Pass@1 सटीकता 43.1% हासिल (बेस मॉडल की तुलना में +14.3% सुधार),
→ OpenAI o1-preview के प्रदर्शन को पार किया!
3,800 A100 GPU घंटे($4500) में प्रशिक्षण → 70,000 A100 GPU घंटों की तुलना में 18.42 गुना अधिक कुशल RL स्केलिंग
डेटासेट, कोड, प्रशिक्षण लॉग ओपन सोर्स के रूप में जारी → कोई भी RL का उपयोग कर intelligence scaling पर प्रयोग कर सकता है

RL का उपयोग कर छोटे मॉडल को मजबूत बनाना

Deepseek-R1 एक open source मॉडल है जो OpenAI o1 की टक्कर का है, लेकिन इसकी सटीक प्रशिक्षण प्रक्रिया सार्वजनिक नहीं है
कम compute के साथ शक्तिशाली reasoning मॉडल विकसित करने के लिए RL के उपयोग पर शोध किया गया
मौजूदा RL की सबसे बड़ी सीमा इसकी ऊंची लागत है:
→ Deepseek-R1 के प्रयोगों को दोहराने के लिए कम से कम 70,000 A100 GPU घंटे चाहिए
समाधान:
- उच्च-प्रदर्शन knowledge distillation मॉडल का उपयोग
- RL को चरणबद्ध तरीके से बढ़ाने वाली "Iterative Lengthening" तकनीक अपनाई गई → compute घटकर 3,800 A100 GPU घंटे रह गया

डेटासेट निर्माण

AIME(1984-2023) + AMC(2023 से पहले) + Omni-MATH + Still डेटासेट का उपयोग
डेटा शुद्धिकरण प्रक्रिया:
1. उत्तर निष्कर्षण: gemini-1.5-pro-002 का उपयोग कर आधिकारिक solutions से उत्तर निकाले गए
2. डुप्लिकेट हटाना: sentence-transformers/all-MiniLM-L6-v2 embedding के आधार पर समान प्रश्न हटाए गए
3. जिन प्रश्नों का मूल्यांकन संभव नहीं, उन्हें फ़िल्टर करना: sympy के साथ automatic evaluation कठिन होने वाले प्रश्न हटाए गए
अंतिम रूप से 40,000 problem-answer pairs सुरक्षित किए गए, आगे डेटा विस्तार की योजना है

रिवॉर्ड फ़ंक्शन (Reward Function)

Deepseek-R1 की तरह ही "Outcome Reward Model (ORM)" लागू किया गया:
- 1 अंक: सही फ़ॉर्मेट वाला उत्तर (sympy सत्यापन पास)
- 0 अंक: गलत उत्तर, फ़ॉर्मेट त्रुटि (<think>...</think> गायब आदि)
"Process Reward Model (PRM)" का उपयोग न करने का कारण:
- reward hacking को रोकना → मॉडल सिर्फ़ फ़ॉर्मेट की नकल करने की ओर न झुके

"Iterative Lengthening": RL प्रशिक्षण को चरणों में बढ़ाने की तकनीक

Step 1: 8K context से RL प्रशिक्षण शुरू

कारण:
- गलत उत्तर औसतन 20,346 tokens के थे, जबकि सही उत्तर 6,395 tokens के → लंबी प्रतिक्रियाओं में गलत होने की संभावना अधिक
- शुरुआत से लंबे context पर प्रशिक्षण देना अक्षम है → पहले 8K पर अनुकूलन
परिणाम:
- AIME Pass@1 28.9% → 33.9% (+5%) सुधार
- अनावश्यक tokens घटे → औसत response length 10,484 tokens कम हुई

Step 2: 16K context तक विस्तार

1,000 training steps के बाद, मॉडल में अधिक लंबा सोचने (reasoning) की प्रवृत्ति दिखी
लेकिन 8K सीमा के कारण प्रशिक्षण प्रभाव सीमित हो गया → 16K तक विस्तार
फायदे:
- शुरुआत से 16K पर training करने की तुलना में 2 गुना से अधिक तेज़ (औसत response length 3,000 → 9,000 tokens होने से बचा)
- AIME2024 सटीकता 38% तक पहुँची

Step 3: "24K Magic" - अंतिम प्रदर्शन सुधार

16K पर प्रदर्शन स्थिर हो गया → अंतिम विस्तार 24K context तक
नतीजतन AIME2024 Pass@1 सटीकता 43.1% तक पहुँची, OpenAI o1-preview को पार किया!

अंतिम मूल्यांकन परिणाम

DeepScaleR मॉडल का मूल्यांकन AIME, MATH 500, AMC 2023, Minerva Math, OlympiadBench सहित कई गणित benchmarks पर किया गया
AIME2024 के आधार पर DeepScaleR-1.5B-Preview की सटीकता 43.1% रही, जो OpenAI o1-preview मॉडल से बेहतर है
MATH 500, AMC 2023 आदि में भी, 1.5B मॉडल होने के बावजूद इसने 7B मॉडलों के बराबर या उनसे बेहतर प्रदर्शन दर्ज किया
पिछले शोध (RL-आधारित rStar, PRIME, SimpleRL) की तुलना में भी इसने सर्वोच्च दक्षता दिखाई

मुख्य सारांश (Key Takeaways)

छोटे मॉडलों में भी RL scaling संभव है
- पहले यह धारणा थी कि RL सिर्फ़ बड़े मॉडलों पर ही प्रभावी है
- लेकिन उच्च-गुणवत्ता डेटा से fine-tune किए गए छोटे मॉडल भी RL के माध्यम से शक्तिशाली reasoning क्षमता सीख सकते हैं
- DeepScaleR ने 28.9% → 43.1% (AIME सटीकता) सुधार दिखाया
"Iterative Lengthening" तकनीक से प्रभावी length scaling संभव
- पिछले अध्ययनों में 16K से अधिक context पर प्रदर्शन सुधार सीमित बताया गया था
- 8K → 16K → 24K के क्रमिक विस्तार से प्रदर्शन को अधिकतम किया गया

निष्कर्ष: RL scaling का लोकतंत्रीकरण

DeepScaleR-1.5B-Preview, O1-preview को पार करने वाला पहला open source RL मॉडल है
सिर्फ़ 3,800 A100 GPU घंटे($4500) में उच्च-प्रदर्शन मॉडल बनाना संभव → कम-लागत RL शोध की संभावना साबित
open source community के साथ मिलकर RL-आधारित reasoning मॉडल के विकास को आगे बढ़ाने की योजना है

🔗 ओपन सोर्स सामग्री:

1 टिप्पणियां

GN⁺ 2025-02-12

Hacker News की राय

इस मॉडल को बेंचमार्क के हिसाब से एक खास समस्या हल करने के लिए ट्यून किया गया है, और दूसरे कामों में यह O1-Preview से कमजोर है। अगर आप खास तौर पर यही समस्या हल नहीं करना चाहते, तो इस पर ध्यान देने लायक ज्यादा कुछ नहीं है। फिर भी, यह प्रभावशाली है
छोटे reinforcement models जीतेंगे। हमारी सभ्यता, कंपनियों और टीमों को देखिए: बहुत से विशेषज्ञ लोग होते हैं, कोई एक विशाल सर्वज्ञानी प्रतिभा नहीं
मौजूदा समस्या बेंचमार्क्स पर जरूरत से ज्यादा जोर है। आदर्श रूप से, बेंचमार्किंग उपयोगकर्ता KPI के मुकाबले होनी चाहिए
अहम बात यह है कि अब 1B मॉडल को किसी खास task पर मजबूत प्रदर्शन देने के लिए train करने का एक सरल और भरोसेमंद फॉर्मूला दिख रहा है। पहले ऐसा कुछ नहीं था। edge devices बहुत ज्यादा स्मार्ट हो जाएंगे
मैं शायद बहुत भोला हूं, लेकिन क्या कोई सच में इन बेंचमार्क्स पर भरोसा करता है? क्या इनका वास्तव में कोई मतलब है? इन्हें बहुत आसानी से manipulate किया जा सकता है, और ये ऐसा भरोसेमंद तरीका नहीं लगते जिससे पता चले कि मॉडल्स एक-दूसरे की तुलना में कैसे हैं। ऐसा लगता है कि अगर बेंचमार्क जैसे लेकिन मॉडल ने पहले न देखे हुए सवाल दे दिए जाएं, तो प्रदर्शन काफी गिर जाता है
क्या कोई अच्छा और सरल prompt है जिससे नए "reasoning" मॉडल्स को टेस्ट किया जा सके? "strawberry शब्द में R अक्षर गिनो" अब थोड़ा उबाऊ हो गया है
मैं Ollama और सबसे छोटे quantized GGUF वर्जन (769MB) के साथ इसे लोकल में आजमा रहा हूं
यहां मिले जवाब: https://gist.github.com/simonw/5943a77f35d1d5185f045fb53898aa52 देखने के बाद मुझे सही उत्तर मिला। हालांकि, शुरुआत में इसने एक महत्वपूर्ण गलती की
क्या CoT मॉडल बाहरी functions को कॉल कर सकता है? अगर उसे calculator का access मिले तो क्या होगा?
अगर इस तरीके से uncensored मॉडल मिल सकें, तो यह सच में बहुत अच्छा होगा
सच कहूं तो यह काफी मूर्खतापूर्ण है। मैंने इसे ASCII sequence decode करने को कहा, तो इसने बकवास जवाब दिया। फिर मैंने phi-4 Q4 आजमाया और उसने सही जवाब दिया। 9GB बनाम 2GB (reasoning)। 2GB में शायद इतनी जानकारी समा ही नहीं सकती, इसलिए सामान्य गणित की समस्याएं हल करने या training data में क्या था यह जानने के अलावा यह ज्यादा उपयोगी नहीं लगता
कॉलेज में जब मैं था, इसे ईमानदारी से overfitting कहा जाता था। ऐसा लगता है कि evaluation set के बाहर यह ठीक से काम नहीं करता

DeepScaleR: RL का उपयोग कर 1.5B मॉडल से O1-Preview को पीछे छोड़ना

RL का उपयोग कर छोटे मॉडल को मजबूत बनाना

डेटासेट निर्माण

रिवॉर्ड फ़ंक्शन (Reward Function)

"Iterative Lengthening": RL प्रशिक्षण को चरणों में बढ़ाने की तकनीक

Step 1: 8K context से RL प्रशिक्षण शुरू

Step 2: 16K context तक विस्तार

Step 3: "24K Magic" - अंतिम प्रदर्शन सुधार

अंतिम मूल्यांकन परिणाम

मुख्य सारांश (Key Takeaways)

निष्कर्ष: RL scaling का लोकतंत्रीकरण

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय