- Apple की DataComp for Language Models परियोजना की रिसर्च टीम ने Hugging Face पर ओपन DCLM मॉडल फैमिली जारी की
- पैकेज में 7B और 1.4B पैरामीटर वाले दो प्रमुख मॉडल शामिल हैं
- 7 अरब (7B) पैरामीटर मॉडल ने benchmark में अच्छा प्रदर्शन दिखाया, Mistral-7B को पीछे छोड़ा और Llama 3 तथा Gemma जैसे अन्य प्रमुख ओपन मॉडलों के करीब पहुंचा
- यह परियोजना मॉडल weights, training code और pre-training dataset जारी करके वास्तव में open source बनाई गई है
DCLM(DataComp for Language Models)
- DataComp परियोजना को खासकर multimodal domain में AI मॉडलों को train करने के लिए high-quality dataset डिजाइन करने के एक collaborative effort के रूप में समझा जा सकता है
- प्रयोगों के जरिए यह पता चला कि model-based filtering, जिसमें machine learning(ML) मॉडल बड़े dataset से high-quality data को अपने आप filter और select करते हैं, high-quality training set बनाने की कुंजी हो सकती है
- परिणामी dataset, DCLM-Baseline, का उपयोग 7 अरब और 1.4 अरब पैरामीटर वाले नए DCLM decoder-only transformer English language models को scratch से train करने के लिए किया गया
- 7 अरब मॉडल को OpenLM framework पर आधारित pre-training recipe के साथ 2.5 ट्रिलियन tokens पर train किया गया, और इसने MMLU में 63.7% की 5-shot accuracy दी
- यह पहले के state-of-the-art open data language model MAP-Neo की तुलना में 6.6%p सुधार है, जबकि training में 40% कम compute इस्तेमाल हुआ
शक्तिशाली और छोटे मॉडल
- 1.4 अरब (1.4B) संस्करण ने भी MMLU, Core और Extended टेस्ट में प्रभावशाली प्रदर्शन दिखाया
- 5-shot MMLU टेस्ट में इसने 41.9% हासिल किया, जो इस श्रेणी के अन्य मॉडलों की तुलना में काफी अधिक है, जिनमें Hugging Face का हाल में जारी SmolLM भी शामिल है
- फिलहाल बड़ा मॉडल Apple के Sample Code License के तहत उपलब्ध है, जबकि छोटा मॉडल Apache 2.0 के तहत जारी किया गया है, जो commercial use, distribution और modification की अनुमति देता है
- HF लाइब्रेरी में 7 अरब पैरामीटर मॉडल का instruction-tuned संस्करण भी मौजूद है
- ध्यान देने वाली बात यह है कि यह data curation के प्रभाव पर जोर देने वाला शुरुआती शोध है
- यह मॉडल Apple devices के लिए नहीं है, और test training data में कुछ खास bias दिखा सकता है या हानिकारक प्रतिक्रियाएं पैदा कर सकता है
3 टिप्पणियां
क्योंकि iPhone पर जोड़ने से इसका असर अधिकतम हो जाता है।
Samsung भी on-device पर फोकस कर रहा है।
Apple, on-device इस्तेमाल को लक्ष्य बनाकर 8 छोटे AI language model रिलीज़
लगता है Apple लगातार on-device AI के लिए छोटे models पर फोकस कर रहा है। इसे जल्दी एक बार इस्तेमाल करके देखना चाहता हूँ।
लगता है अगले साल से इसे सच में इस्तेमाल कर पाएंगे हाहा