7 पॉइंट द्वारा xguru 2023-05-08 | 2 टिप्पणियां | WhatsApp पर शेयर करें
  • पूरी तरह open language model बनाने की परियोजना
  • 3 हफ्ते पहले जारी किए गए RedPajama-Data-1T dataset के आधार पर 3B (पूर्ण), 7B (preview) parameters वाले RedPajama-INCITE models जारी किए गए
    • Base model
    • Instruction-Tuned model
    • Chat model
  • 3B model अपने वर्ग में सबसे शक्तिशाली है. इसका आकार छोटा है, इसलिए यह तेज़ है और 5 साल पहले जारी हुए RTX 2070 जैसे hardware पर भी चल सकता है
  • instruction-tuned version का 7B model HELM benchmark में LLaMA 7B से 3 अंक अधिक है
  • 7B model (training 80% पूर्ण) पहले ही Pythia 7B model को पार कर चुका है
  • कुछ हफ्तों में 7B training पूरी होने पर, यह LLaMA 7B को पार कर जाएगा
  • 3B model को 800 अरब tokens पर stabilize किया गया है, और 7B model 1 ट्रिलियन tokens पर training completion की ओर बढ़ते हुए सुधार रहा है

2 टिप्पणियां

 
coremaker 2023-05-08

यह शोध या AI की प्रगति के लिए एक महत्वपूर्ण घटना है,
लेकिन ऐसे मॉडल व्यावसायिक उपयोग के समय समस्या पैदा करने वाले हिस्सों के लिए समाधान पेश करेंगे, इसकी संभावना कम है।
व्यावसायिक तौर पर मॉडल के उपयोग के साथ-साथ tuning या अतिरिक्त filters जैसी चीज़ें तैयार करने का काम भी ज़रूर साथ में करना पड़ेगा।