DeepScaleR: RL का उपयोग कर 1.5B मॉडल से O1-Preview को पीछे छोड़ना
(pretty-radio-b75.notion.site)- DeepScaleR-1.5B-Preview: Deepseek-R1-Distilled-Qwen-1.5B मॉडल को reinforcement learning (RL) के साथ fine-tune किया गया मॉडल
- AIME2024 Pass@1 सटीकता 43.1% हासिल (बेस मॉडल की तुलना में +14.3% सुधार),
→ OpenAIo1-previewके प्रदर्शन को पार किया! - 3,800 A100 GPU घंटे($4500) में प्रशिक्षण → 70,000 A100 GPU घंटों की तुलना में 18.42 गुना अधिक कुशल RL स्केलिंग
- डेटासेट, कोड, प्रशिक्षण लॉग ओपन सोर्स के रूप में जारी → कोई भी RL का उपयोग कर intelligence scaling पर प्रयोग कर सकता है
RL का उपयोग कर छोटे मॉडल को मजबूत बनाना
- Deepseek-R1 एक open source मॉडल है जो OpenAI
o1की टक्कर का है, लेकिन इसकी सटीक प्रशिक्षण प्रक्रिया सार्वजनिक नहीं है - कम compute के साथ शक्तिशाली reasoning मॉडल विकसित करने के लिए RL के उपयोग पर शोध किया गया
- मौजूदा RL की सबसे बड़ी सीमा इसकी ऊंची लागत है:
→Deepseek-R1के प्रयोगों को दोहराने के लिए कम से कम 70,000 A100 GPU घंटे चाहिए - समाधान:
- उच्च-प्रदर्शन knowledge distillation मॉडल का उपयोग
- RL को चरणबद्ध तरीके से बढ़ाने वाली "Iterative Lengthening" तकनीक अपनाई गई → compute घटकर 3,800 A100 GPU घंटे रह गया
डेटासेट निर्माण
-
AIME(1984-2023) + AMC(2023 से पहले) + Omni-MATH + Still डेटासेट का उपयोग
-
डेटा शुद्धिकरण प्रक्रिया:
- उत्तर निष्कर्षण:
gemini-1.5-pro-002का उपयोग कर आधिकारिक solutions से उत्तर निकाले गए - डुप्लिकेट हटाना:
sentence-transformers/all-MiniLM-L6-v2embedding के आधार पर समान प्रश्न हटाए गए - जिन प्रश्नों का मूल्यांकन संभव नहीं, उन्हें फ़िल्टर करना:
sympyके साथ automatic evaluation कठिन होने वाले प्रश्न हटाए गए
- उत्तर निष्कर्षण:
-
अंतिम रूप से 40,000 problem-answer pairs सुरक्षित किए गए, आगे डेटा विस्तार की योजना है
रिवॉर्ड फ़ंक्शन (Reward Function)
-
Deepseek-R1 की तरह ही "Outcome Reward Model (ORM)" लागू किया गया:
1 अंक: सही फ़ॉर्मेट वाला उत्तर (sympyसत्यापन पास)0 अंक: गलत उत्तर, फ़ॉर्मेट त्रुटि (<think>...</think>गायब आदि)
-
"Process Reward Model (PRM)" का उपयोग न करने का कारण:
- reward hacking को रोकना → मॉडल सिर्फ़ फ़ॉर्मेट की नकल करने की ओर न झुके
"Iterative Lengthening": RL प्रशिक्षण को चरणों में बढ़ाने की तकनीक
Step 1: 8K context से RL प्रशिक्षण शुरू
- कारण:
- गलत उत्तर औसतन 20,346 tokens के थे, जबकि सही उत्तर 6,395 tokens के → लंबी प्रतिक्रियाओं में गलत होने की संभावना अधिक
- शुरुआत से लंबे context पर प्रशिक्षण देना अक्षम है → पहले 8K पर अनुकूलन
- परिणाम:
- AIME Pass@1 28.9% → 33.9% (+5%) सुधार
- अनावश्यक tokens घटे → औसत response length 10,484 tokens कम हुई
Step 2: 16K context तक विस्तार
- 1,000 training steps के बाद, मॉडल में अधिक लंबा सोचने (reasoning) की प्रवृत्ति दिखी
- लेकिन 8K सीमा के कारण प्रशिक्षण प्रभाव सीमित हो गया → 16K तक विस्तार
- फायदे:
- शुरुआत से 16K पर training करने की तुलना में 2 गुना से अधिक तेज़ (औसत response length 3,000 → 9,000 tokens होने से बचा)
- AIME2024 सटीकता 38% तक पहुँची
Step 3: "24K Magic" - अंतिम प्रदर्शन सुधार
- 16K पर प्रदर्शन स्थिर हो गया → अंतिम विस्तार 24K context तक
- नतीजतन AIME2024 Pass@1 सटीकता 43.1% तक पहुँची, OpenAI
o1-previewको पार किया!
अंतिम मूल्यांकन परिणाम
- DeepScaleR मॉडल का मूल्यांकन AIME, MATH 500, AMC 2023, Minerva Math, OlympiadBench सहित कई गणित benchmarks पर किया गया
- AIME2024 के आधार पर DeepScaleR-1.5B-Preview की सटीकता 43.1% रही, जो OpenAI
o1-previewमॉडल से बेहतर है - MATH 500, AMC 2023 आदि में भी, 1.5B मॉडल होने के बावजूद इसने 7B मॉडलों के बराबर या उनसे बेहतर प्रदर्शन दर्ज किया
- पिछले शोध (RL-आधारित rStar, PRIME, SimpleRL) की तुलना में भी इसने सर्वोच्च दक्षता दिखाई
मुख्य सारांश (Key Takeaways)
-
छोटे मॉडलों में भी RL scaling संभव है
- पहले यह धारणा थी कि RL सिर्फ़ बड़े मॉडलों पर ही प्रभावी है
- लेकिन उच्च-गुणवत्ता डेटा से fine-tune किए गए छोटे मॉडल भी RL के माध्यम से शक्तिशाली reasoning क्षमता सीख सकते हैं
- DeepScaleR ने 28.9% → 43.1% (AIME सटीकता) सुधार दिखाया
-
"Iterative Lengthening" तकनीक से प्रभावी length scaling संभव
- पिछले अध्ययनों में 16K से अधिक context पर प्रदर्शन सुधार सीमित बताया गया था
- 8K → 16K → 24K के क्रमिक विस्तार से प्रदर्शन को अधिकतम किया गया
निष्कर्ष: RL scaling का लोकतंत्रीकरण
- DeepScaleR-1.5B-Preview, O1-preview को पार करने वाला पहला open source RL मॉडल है
- सिर्फ़ 3,800 A100 GPU घंटे($4500) में उच्च-प्रदर्शन मॉडल बनाना संभव → कम-लागत RL शोध की संभावना साबित
- open source community के साथ मिलकर RL-आधारित reasoning मॉडल के विकास को आगे बढ़ाने की योजना है
🔗 ओपन सोर्स सामग्री:
1 टिप्पणियां
Hacker News की राय