2 पॉइंट द्वारा brainer 2024-04-25 | 1 टिप्पणियां | WhatsApp पर शेयर करें

• OpenELM को बड़े भाषा मॉडल क्षेत्र में पुनरुत्पादकता और पारदर्शिता को बढ़ावा देने वाले अत्याधुनिक open language model के रूप में प्रस्तुत किया गया है। OpenELM, layer-wise scaling strategy का उपयोग करके, प्रत्येक Transformer model layer के भीतर parameters को कुशलतापूर्वक आवंटित करता है, जिससे accuracy में सुधार होता है। उदाहरण के लिए, लगभग 1 billion parameter budget के साथ, OpenELM, pre-training tokens का आधा उपयोग करते हुए भी OLMo से 2.36% बेहतर प्रदर्शन करता है.

• केवल model weights और inference code प्रदान करने की पिछली परंपरा के विपरीत, OpenELM सार्वजनिक रूप से उपलब्ध datasets का उपयोग करके language models को train और evaluate करने के लिए एक comprehensive framework प्रदान करता है। इसमें training logs, कई checkpoints, और pre-training configurations शामिल हैं। इसके अलावा, Apple devices पर inference और fine-tuning के लिए models को MLX library में convert करने वाला code भी प्रदान किया गया है.

• OpenELM का उद्देश्य complete training और inference framework तक access प्रदान करके open research community को सशक्त बनाना है, ताकि भविष्य के open research efforts को बढ़ावा दिया जा सके। source code, pre-trained model weights, और training recipes Hugging Face पर model access के साथ आसानी से उपलब्ध हैं.

1 टिप्पणियां

 
cosine20 2024-04-25

Apple OpenELM 3B: 24.80 MMLU
Microsoft Phi-3-mini 3.8b: 68.8 MMLU

आसपास की प्रतिक्रियाएँ देखने पर लग रहा है कि MMLU बहुत कम है, और ट्रेनिंग में इस्तेमाल किए गए datasets भी कुछ पुराने हैं।
यह भी कहा जा रहा है कि शायद यह पुराना मॉडल होने की वजह से ही इसे जानबूझकर open source किया गया है...