- Sky-T1-32B-Preview एक reasoning और coding मॉडल है, जो o1-preview के समान स्तर का प्रदर्शन देता है और इसे सिर्फ़ $450 (लगभग 6.5 लाख वॉन) जैसी कम लागत में ट्रेन किया गया
- सारा कोड open source के रूप में उपलब्ध है, इसलिए कोई भी इसे reproduce और improve कर सकता है
- o1 और Gemini 2.0 जैसे हाई-परफॉर्मेंस reasoning मॉडल जटिल काम हल कर सकते हैं, लेकिन उनके technical details और model weights सार्वजनिक नहीं हैं
पूरी तरह open source: साथ मिलकर आगे बढ़ना
- Sky-T1-32B-Preview ने सभी विवरणों को open source किया है:
बनाने का तरीका (Recipes)
डेटा तैयारी प्रक्रिया
- QwQ-32B-Preview मॉडल का उपयोग करके data generate किया गया और विभिन्न domains को कवर करने वाला data mix तैयार किया गया
- reconstruction और format सुधार:
- QwQ data को GPT-4o-mini से दोबारा format किया गया ताकि reasoning मॉडल की training efficiency बढ़े
- reformatting के बाद coding data की accuracy 25% से बढ़कर 90% से अधिक हो गई
- rejection sampling:
- गणित समस्याएँ: सही उत्तर से तुलना करके गलत samples हटाए गए
- coding समस्याएँ: dataset के unit tests चलाकर सही उत्तर की पुष्टि की गई
- अंतिम data:
- coding data: APPs और TACO datasets से 5,000
- math data: NuminaMATH के AIME, MATH, Olympiads से 10,000
- अन्य data: science और puzzle समस्याएँ 1,000
training प्रक्रिया
- training model: Qwen2.5-32B-Instruct (reasoning क्षमता के बिना open source मॉडल)
- training environment:
- 8 H100 GPU का उपयोग, DeepSpeed Zero-3 offloading
- training समय: 19 घंटे
- लागत: लगभग $450 (Lambda Cloud के आधार पर)
- Llama-Factory का उपयोग करके training की गई
evaluation और परिणाम सारांश
- Sky-T1-32B-Preview ने विभिन्न benchmarks पर प्रतिस्पर्धी मॉडलों की तुलना में निम्न प्रदर्शन दिखाया:
- Math500: Sky-T1 ने 82.4% स्कोर किया, जो o1-preview(81.4%) के लगभग बराबर है और Qwen-2.5(76.2%) से काफ़ी आगे है
- AIME2024: Sky-T1 ने 43.3% हासिल किया, जो o1-preview(40.0%) से अधिक है और Qwen-2.5(16.7%) से बहुत बेहतर है
- LiveCodeBench (Easy): Sky-T1 ने 86.3% स्कोर किया, जो Qwen-2.5(84.6%) के समान है, और o1-preview(92.9%) से अंतर कम है
- LiveCodeBench (Medium): Sky-T1 ने 56.8% स्कोर किया, जो o1-preview(54.9%) से अधिक है और Qwen-2.5(40.8%) से काफ़ी आगे है
- LiveCodeBench (Hard): Sky-T1 ने 17.9% स्कोर किया, जो o1-preview(16.3%) से थोड़ा अधिक है और Qwen-2.5(9.8%) से बड़ा अंतर दिखाता है
- GPQA-Diamond: Sky-T1 ने 56.8% स्कोर किया, जो QwQ(52.5%) से थोड़ा आगे है, लेकिन o1-preview(75.2%) से कम है
- Sky-T1-32B-Preview ने math और coding दोनों क्षेत्रों में मजबूत प्रदर्शन दिखाया, खासकर medium-difficulty coding tasks में बढ़त बनाई
- math benchmarks में भी यह शीर्ष समूह में रहा और कुल मिलाकर यह एक efficient और powerful मॉडल साबित हुआ
प्रमुख खोजें
- model size का महत्व:
- 7B और 14B आकार के मॉडलों में केवल सीमित सुधार दिखाई दिया
- 32B मॉडल प्रदर्शन और परिणामों की consistency, दोनों में कहीं बेहतर रहा
- data mix का महत्व:
- single-domain data पर training करने से प्रदर्शन घट सकता है
- math और coding data को संतुलित रूप से मिलाकर दोनों domains में बेहतर प्रदर्शन हासिल किया गया
आगे की योजना
- efficiency बनाए रखते हुए high reasoning performance देने वाले मॉडल विकसित करने पर फ़ोकस
- test-time efficiency और accuracy सुधारने वाली advanced techniques पर शोध
- community के साथ सहयोग के ज़रिए और उन्नत मॉडल विकसित करने का लक्ष्य
1 टिप्पणियां
क्यों... क्यों इसे SKT-T1 के रूप में पढ़ा जा रहा है?