• Sky-T1

  • $450 में O1 Preview मॉडल को ट्रेन करना

    • O1 और Gemini 2.0 जैसे मॉडल जटिल कार्यों को हल करने में बेहतरीन reasoning क्षमता दिखाते हैं, और वे यह लंबी internal chain of thought प्रक्रिया के ज़रिए करते हैं.
    • लेकिन तकनीकी विवरणों और model weights तक पहुंच न होने के कारण, यह अकादमिक जगत और open source community की भागीदारी के लिए एक बाधा बनता है.
    • इसके जवाब में, Still-2 और Journey जैसे गणित क्षेत्र के open-weight reasoning मॉडल को ट्रेन करने के लिए कुछ उल्लेखनीय प्रयास सामने आए हैं.
    • UC Berkeley की NovaSky टीम base और instruction-tuned मॉडलों की reasoning क्षमता को आगे बढ़ाने के लिए विभिन्न तकनीकों की खोज कर रही है.
    • इस शोध में, केवल गणित ही नहीं बल्कि coding में भी उसी मॉडल पर प्रतिस्पर्धी reasoning performance हासिल की गई है.
  • योगदानकर्ता

    • Dacheng Li, Shiyi Cao, Shu Liu, Tyler Griggs, Simon Mo, Shishir G. Patil, Joseph E. Gonzalez, Ion Stoica

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.