Sky-T1: $450 में o1 preview-स्तर का हाई-परफॉर्मेंस reasoning मॉडल ट्रेन करना

xguru · 2025-01-17T09:45:03+09:00

Sky-T1-32B-Preview एक reasoning और coding मॉडल है, जो o1-preview के समान स्तर का प्रदर्शन देता है और इसे सिर्फ़ $450 (लगभग 6.5 लाख वॉन) जैसी कम लागत में ट्रेन किया गया सारा कोड open source के रूप में उपलब्ध है, इसलिए कोई भी इसे reproduce और improve कर सकता है o1 और Gemini 2.0 जैसे हाई-परफॉर्मेंस reasoning मॉडल जटिल काम हल कर सकते हैं, लेकिन उनके technical details और model weights सार्वजनिक नहीं हैं पूरी तरह open source: साथ मिलकर आगे बढ़ना Sky-T1-32B-Preview ने सभी विवरणों को open source किया है: infrastructure: data निर्माण, model training और evaluation के लिए एकीकृत repository data: 17,000 training data points उपलब्ध technical details: technical report और wandb logs model weights: 32B आकार के model weights बनाने का तरीका (Recipes) डेटा तैयारी प्रक्रिया QwQ-32B-Preview मॉडल का उपयोग करके data generate किया गया और विभिन्न domains को कवर करने वाला data mix तैयार किया गया reconstruction और format सुधार: QwQ data को GPT-4o-mini से दोबारा format किया गया ताकि reasoning मॉडल की training efficiency बढ़े reformatting के बाद coding data की accuracy 25% से बढ़कर 90% से अधिक हो गई rejection sampling: गणित समस्याएँ: सही उत्तर से तुलना करके गलत samples हटाए गए coding समस्याएँ: dataset के unit tests चलाकर सही उत्तर की पुष्टि की गई अंतिम data: coding data: APPs और TACO datasets से 5,000 math data: NuminaMATH के AIME, MATH, Olympiads से 10,000 अन्य data: science और puzzle समस्याएँ 1,000 training प्रक्रिया training model: Qwen2.5-32B-Instruct (reasoning क्षमता के बिना open source मॉडल) training environment: 8 H100 GPU का उपयोग, DeepSpeed Zero-3 offloading training समय: 19 घंटे लागत: लगभग $450 (Lambda Cloud के आधार पर) Llama-Factory का उपयोग करके training की गई evaluation और परिणाम सारांश Sky-T1-32B-Preview ने विभिन्न benchmarks पर प्रतिस्पर्धी मॉडलों की तुलना में निम्न प्रदर्शन दिखाया: Math500: Sky-T1 ने 82.4% स्कोर किया, जो o1-preview(81.4%) के लगभग बराबर है और Qwen-2.5(76.2%) से काफ़ी आगे है AIME2024: Sky-T1 ने 43.3% हासिल किया, जो o1-preview(40.0%) से अधिक है और Qwen-2.5(16.7%) से बहुत बेहतर है LiveCodeBench (Easy): Sky-T1 ने 86.3% स्कोर किया, जो Qwen-2.5(84.6%) के समान है, और o1-preview(92.9%) से अंतर कम है LiveCodeBench (Medium): Sky-T1 ने 56.8% स्कोर किया, जो o1-preview(54.9%) से अधिक है और Qwen-2.5(40.8%) से काफ़ी आगे है LiveCodeBench (Hard): Sky-T1 ने 17.9% स्कोर किया, जो o1-preview(16.3%) से थोड़ा अधिक है और Qwen-2.5(9.8%) से बड़ा अंतर दिखाता है GPQA-Diamond: Sky-T1 ने 56.8% स्कोर किया, जो QwQ(52.5%) से थोड़ा आगे है, लेकिन o1-preview(75.2%) से कम है Sky-T1-32B-Preview ने math और coding दोनों क्षेत्रों में मजबूत प्रदर्शन दिखाया, खासकर medium-difficulty coding tasks में बढ़त बनाई math benchmarks में भी यह शीर्ष समूह में रहा और कुल मिलाकर यह एक efficient और powerful मॉडल साबित हुआ प्रमुख खोजें model size का महत्व: 7B और 14B आकार के मॉडलों में केवल सीमित सुधार दिखाई दिया 32B मॉडल प्रदर्शन और परिणामों की consistency, दोनों में कहीं बेहतर रहा data mix का महत्व: single-domain data पर training करने से प्रदर्शन घट सकता है math और coding data को संतुलित रूप से मिलाकर दोनों domains में बेहतर प्रदर्शन हासिल किया गया आगे की योजना efficiency बनाए रखते हुए high reasoning performance देने वाले मॉडल विकसित करने पर फ़ोकस test-time efficiency और accuracy सुधारने वाली advanced techniques पर शोध community के साथ सहयोग के ज़रिए और उन्नत मॉडल विकसित करने का लक्ष्य

(novasky-ai.github.io)

22 पॉइंट द्वारा xguru 2025-01-17 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Sky-T1-32B-Preview एक reasoning और coding मॉडल है, जो o1-preview के समान स्तर का प्रदर्शन देता है और इसे सिर्फ़ $450 (लगभग 6.5 लाख वॉन) जैसी कम लागत में ट्रेन किया गया
सारा कोड open source के रूप में उपलब्ध है, इसलिए कोई भी इसे reproduce और improve कर सकता है
- o1 और Gemini 2.0 जैसे हाई-परफॉर्मेंस reasoning मॉडल जटिल काम हल कर सकते हैं, लेकिन उनके technical details और model weights सार्वजनिक नहीं हैं

पूरी तरह open source: साथ मिलकर आगे बढ़ना

Sky-T1-32B-Preview ने सभी विवरणों को open source किया है:
- infrastructure: data निर्माण, model training और evaluation के लिए एकीकृत repository
- data: 17,000 training data points उपलब्ध
- technical details: technical report और wandb logs
- model weights: 32B आकार के model weights

बनाने का तरीका (Recipes)

डेटा तैयारी प्रक्रिया

QwQ-32B-Preview मॉडल का उपयोग करके data generate किया गया और विभिन्न domains को कवर करने वाला data mix तैयार किया गया
reconstruction और format सुधार:
- QwQ data को GPT-4o-mini से दोबारा format किया गया ताकि reasoning मॉडल की training efficiency बढ़े
- reformatting के बाद coding data की accuracy 25% से बढ़कर 90% से अधिक हो गई
rejection sampling:
- गणित समस्याएँ: सही उत्तर से तुलना करके गलत samples हटाए गए
- coding समस्याएँ: dataset के unit tests चलाकर सही उत्तर की पुष्टि की गई
अंतिम data:
- coding data: APPs और TACO datasets से 5,000
- math data: NuminaMATH के AIME, MATH, Olympiads से 10,000
- अन्य data: science और puzzle समस्याएँ 1,000

training प्रक्रिया

training model: Qwen2.5-32B-Instruct (reasoning क्षमता के बिना open source मॉडल)
training environment:
- 8 H100 GPU का उपयोग, DeepSpeed Zero-3 offloading
- training समय: 19 घंटे
- लागत: लगभग $450 (Lambda Cloud के आधार पर)
Llama-Factory का उपयोग करके training की गई

evaluation और परिणाम सारांश

Sky-T1-32B-Preview ने विभिन्न benchmarks पर प्रतिस्पर्धी मॉडलों की तुलना में निम्न प्रदर्शन दिखाया:
- Math500: Sky-T1 ने 82.4% स्कोर किया, जो o1-preview(81.4%) के लगभग बराबर है और Qwen-2.5(76.2%) से काफ़ी आगे है
- AIME2024: Sky-T1 ने 43.3% हासिल किया, जो o1-preview(40.0%) से अधिक है और Qwen-2.5(16.7%) से बहुत बेहतर है
- LiveCodeBench (Easy): Sky-T1 ने 86.3% स्कोर किया, जो Qwen-2.5(84.6%) के समान है, और o1-preview(92.9%) से अंतर कम है
- LiveCodeBench (Medium): Sky-T1 ने 56.8% स्कोर किया, जो o1-preview(54.9%) से अधिक है और Qwen-2.5(40.8%) से काफ़ी आगे है
- LiveCodeBench (Hard): Sky-T1 ने 17.9% स्कोर किया, जो o1-preview(16.3%) से थोड़ा अधिक है और Qwen-2.5(9.8%) से बड़ा अंतर दिखाता है
- GPQA-Diamond: Sky-T1 ने 56.8% स्कोर किया, जो QwQ(52.5%) से थोड़ा आगे है, लेकिन o1-preview(75.2%) से कम है
Sky-T1-32B-Preview ने math और coding दोनों क्षेत्रों में मजबूत प्रदर्शन दिखाया, खासकर medium-difficulty coding tasks में बढ़त बनाई
math benchmarks में भी यह शीर्ष समूह में रहा और कुल मिलाकर यह एक efficient और powerful मॉडल साबित हुआ

प्रमुख खोजें

model size का महत्व:
- 7B और 14B आकार के मॉडलों में केवल सीमित सुधार दिखाई दिया
- 32B मॉडल प्रदर्शन और परिणामों की consistency, दोनों में कहीं बेहतर रहा
data mix का महत्व:
- single-domain data पर training करने से प्रदर्शन घट सकता है
- math और coding data को संतुलित रूप से मिलाकर दोनों domains में बेहतर प्रदर्शन हासिल किया गया

आगे की योजना

efficiency बनाए रखते हुए high reasoning performance देने वाले मॉडल विकसित करने पर फ़ोकस
test-time efficiency और accuracy सुधारने वाली advanced techniques पर शोध
community के साथ सहयोग के ज़रिए और उन्नत मॉडल विकसित करने का लक्ष्य

1 टिप्पणियां

kimjoin2 2025-01-17

क्यों... क्यों इसे SKT-T1 के रूप में पढ़ा जा रहा है?