OpenELM: कुशल भाषा मॉडल फ़ैमिली, जिसमें Open-Source Training और Inference Framework शामिल है
(arxiv.org)• OpenELM को बड़े भाषा मॉडल क्षेत्र में पुनरुत्पादकता और पारदर्शिता को बढ़ावा देने वाले अत्याधुनिक open language model के रूप में प्रस्तुत किया गया है। OpenELM, layer-wise scaling strategy का उपयोग करके, प्रत्येक Transformer model layer के भीतर parameters को कुशलतापूर्वक आवंटित करता है, जिससे accuracy में सुधार होता है। उदाहरण के लिए, लगभग 1 billion parameter budget के साथ, OpenELM, pre-training tokens का आधा उपयोग करते हुए भी OLMo से 2.36% बेहतर प्रदर्शन करता है.
• केवल model weights और inference code प्रदान करने की पिछली परंपरा के विपरीत, OpenELM सार्वजनिक रूप से उपलब्ध datasets का उपयोग करके language models को train और evaluate करने के लिए एक comprehensive framework प्रदान करता है। इसमें training logs, कई checkpoints, और pre-training configurations शामिल हैं। इसके अलावा, Apple devices पर inference और fine-tuning के लिए models को MLX library में convert करने वाला code भी प्रदान किया गया है.
• OpenELM का उद्देश्य complete training और inference framework तक access प्रदान करके open research community को सशक्त बनाना है, ताकि भविष्य के open research efforts को बढ़ावा दिया जा सके। source code, pre-trained model weights, और training recipes Hugging Face पर model access के साथ आसानी से उपलब्ध हैं.
1 टिप्पणियां
Apple OpenELM 3B: 24.80 MMLU
Microsoft Phi-3-mini 3.8b: 68.8 MMLU
आसपास की प्रतिक्रियाएँ देखने पर लग रहा है कि MMLU बहुत कम है, और ट्रेनिंग में इस्तेमाल किए गए datasets भी कुछ पुराने हैं।
यह भी कहा जा रहा है कि शायद यह पुराना मॉडल होने की वजह से ही इसे जानबूझकर open source किया गया है...