22 पॉइंट द्वारा xguru 2025-01-17 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Sky-T1-32B-Preview एक reasoning और coding मॉडल है, जो o1-preview के समान स्तर का प्रदर्शन देता है और इसे सिर्फ़ $450 (लगभग 6.5 लाख वॉन) जैसी कम लागत में ट्रेन किया गया
  • सारा कोड open source के रूप में उपलब्ध है, इसलिए कोई भी इसे reproduce और improve कर सकता है
    • o1 और Gemini 2.0 जैसे हाई-परफॉर्मेंस reasoning मॉडल जटिल काम हल कर सकते हैं, लेकिन उनके technical details और model weights सार्वजनिक नहीं हैं

पूरी तरह open source: साथ मिलकर आगे बढ़ना

  • Sky-T1-32B-Preview ने सभी विवरणों को open source किया है:

बनाने का तरीका (Recipes)

डेटा तैयारी प्रक्रिया

  • QwQ-32B-Preview मॉडल का उपयोग करके data generate किया गया और विभिन्न domains को कवर करने वाला data mix तैयार किया गया
  • reconstruction और format सुधार:
    • QwQ data को GPT-4o-mini से दोबारा format किया गया ताकि reasoning मॉडल की training efficiency बढ़े
    • reformatting के बाद coding data की accuracy 25% से बढ़कर 90% से अधिक हो गई
  • rejection sampling:
    • गणित समस्याएँ: सही उत्तर से तुलना करके गलत samples हटाए गए
    • coding समस्याएँ: dataset के unit tests चलाकर सही उत्तर की पुष्टि की गई
  • अंतिम data:
    • coding data: APPs और TACO datasets से 5,000
    • math data: NuminaMATH के AIME, MATH, Olympiads से 10,000
    • अन्य data: science और puzzle समस्याएँ 1,000

training प्रक्रिया

  • training model: Qwen2.5-32B-Instruct (reasoning क्षमता के बिना open source मॉडल)
  • training environment:
    • 8 H100 GPU का उपयोग, DeepSpeed Zero-3 offloading
    • training समय: 19 घंटे
    • लागत: लगभग $450 (Lambda Cloud के आधार पर)
  • Llama-Factory का उपयोग करके training की गई

evaluation और परिणाम सारांश

  • Sky-T1-32B-Preview ने विभिन्न benchmarks पर प्रतिस्पर्धी मॉडलों की तुलना में निम्न प्रदर्शन दिखाया:
    • Math500: Sky-T1 ने 82.4% स्कोर किया, जो o1-preview(81.4%) के लगभग बराबर है और Qwen-2.5(76.2%) से काफ़ी आगे है
    • AIME2024: Sky-T1 ने 43.3% हासिल किया, जो o1-preview(40.0%) से अधिक है और Qwen-2.5(16.7%) से बहुत बेहतर है
    • LiveCodeBench (Easy): Sky-T1 ने 86.3% स्कोर किया, जो Qwen-2.5(84.6%) के समान है, और o1-preview(92.9%) से अंतर कम है
    • LiveCodeBench (Medium): Sky-T1 ने 56.8% स्कोर किया, जो o1-preview(54.9%) से अधिक है और Qwen-2.5(40.8%) से काफ़ी आगे है
    • LiveCodeBench (Hard): Sky-T1 ने 17.9% स्कोर किया, जो o1-preview(16.3%) से थोड़ा अधिक है और Qwen-2.5(9.8%) से बड़ा अंतर दिखाता है
    • GPQA-Diamond: Sky-T1 ने 56.8% स्कोर किया, जो QwQ(52.5%) से थोड़ा आगे है, लेकिन o1-preview(75.2%) से कम है
  • Sky-T1-32B-Preview ने math और coding दोनों क्षेत्रों में मजबूत प्रदर्शन दिखाया, खासकर medium-difficulty coding tasks में बढ़त बनाई
  • math benchmarks में भी यह शीर्ष समूह में रहा और कुल मिलाकर यह एक efficient और powerful मॉडल साबित हुआ

प्रमुख खोजें

  • model size का महत्व:
    • 7B और 14B आकार के मॉडलों में केवल सीमित सुधार दिखाई दिया
    • 32B मॉडल प्रदर्शन और परिणामों की consistency, दोनों में कहीं बेहतर रहा
  • data mix का महत्व:
    • single-domain data पर training करने से प्रदर्शन घट सकता है
    • math और coding data को संतुलित रूप से मिलाकर दोनों domains में बेहतर प्रदर्शन हासिल किया गया

आगे की योजना

  • efficiency बनाए रखते हुए high reasoning performance देने वाले मॉडल विकसित करने पर फ़ोकस
  • test-time efficiency और accuracy सुधारने वाली advanced techniques पर शोध
  • community के साथ सहयोग के ज़रिए और उन्नत मॉडल विकसित करने का लक्ष्य

1 टिप्पणियां

 
kimjoin2 2025-01-17

क्यों... क्यों इसे SKT-T1 के रूप में पढ़ा जा रहा है?