Apple ने ओपन AI क्षमता दिखाई: नए जारी मॉडल का प्रदर्शन Mistral से बेहतर

xguru · 2024-07-23T10:51:01+09:00

Apple की DataComp for Language Models परियोजना की रिसर्च टीम ने Hugging Face पर ओपन DCLM मॉडल फैमिली जारी की पैकेज में 7B और 1.4B पैरामीटर वाले दो प्रमुख मॉडल शामिल हैं 7 अरब (7B) पैरामीटर मॉडल ने benchmark में अच्छा प्रदर्शन दिखाया, Mistral-7B को पीछे छोड़ा और Llama 3 तथा Gemma जैसे अन्य प्रमुख ओपन मॉडलों के करीब पहुंचा यह परियोजना मॉडल weights, training code और pre-training dataset जारी करके वास्तव में open source बनाई गई है DCLM(DataComp for Language Models) DataComp परियोजना को खासकर multimodal domain में AI मॉडलों को train करने के लिए high-quality dataset डिजाइन करने के एक collaborative effort के रूप में समझा जा सकता है प्रयोगों के जरिए यह पता चला कि model-based filtering, जिसमें machine learning(ML) मॉडल बड़े dataset से high-quality data को अपने आप filter और select करते हैं, high-quality training set बनाने की कुंजी हो सकती है परिणामी dataset, DCLM-Baseline, का उपयोग 7 अरब और 1.4 अरब पैरामीटर वाले नए DCLM decoder-only transformer English language models को scratch से train करने के लिए किया गया 7 अरब मॉडल को OpenLM framework पर आधारित pre-training recipe के साथ 2.5 ट्रिलियन tokens पर train किया गया, और इसने MMLU में 63.7% की 5-shot accuracy दी यह पहले के state-of-the-art open data language model MAP-Neo की तुलना में 6.6%p सुधार है, जबकि training में 40% कम compute इस्तेमाल हुआ शक्तिशाली और छोटे मॉडल 1.4 अरब (1.4B) संस्करण ने भी MMLU, Core और Extended टेस्ट में प्रभावशाली प्रदर्शन दिखाया 5-shot MMLU टेस्ट में इसने 41.9% हासिल किया, जो इस श्रेणी के अन्य मॉडलों की तुलना में काफी अधिक है, जिनमें Hugging Face का हाल में जारी SmolLM भी शामिल है फिलहाल बड़ा मॉडल Apple के Sample Code License के तहत उपलब्ध है, जबकि छोटा मॉडल Apache 2.0 के तहत जारी किया गया है, जो commercial use, distribution और modification की अनुमति देता है HF लाइब्रेरी में 7 अरब पैरामीटर मॉडल का instruction-tuned संस्करण भी मौजूद है ध्यान देने वाली बात यह है कि यह data curation के प्रभाव पर जोर देने वाला शुरुआती शोध है यह मॉडल Apple devices के लिए नहीं है, और test training data में कुछ खास bias दिखा सकता है या हानिकारक प्रतिक्रियाएं पैदा कर सकता है

(venturebeat.com)

4 पॉइंट द्वारा xguru 2024-07-23 | 3 टिप्पणियां | WhatsApp पर शेयर करें

Apple की DataComp for Language Models परियोजना की रिसर्च टीम ने Hugging Face पर ओपन DCLM मॉडल फैमिली जारी की
पैकेज में 7B और 1.4B पैरामीटर वाले दो प्रमुख मॉडल शामिल हैं
7 अरब (7B) पैरामीटर मॉडल ने benchmark में अच्छा प्रदर्शन दिखाया, Mistral-7B को पीछे छोड़ा और Llama 3 तथा Gemma जैसे अन्य प्रमुख ओपन मॉडलों के करीब पहुंचा
यह परियोजना मॉडल weights, training code और pre-training dataset जारी करके वास्तव में open source बनाई गई है

DCLM(DataComp for Language Models)

DataComp परियोजना को खासकर multimodal domain में AI मॉडलों को train करने के लिए high-quality dataset डिजाइन करने के एक collaborative effort के रूप में समझा जा सकता है
प्रयोगों के जरिए यह पता चला कि model-based filtering, जिसमें machine learning(ML) मॉडल बड़े dataset से high-quality data को अपने आप filter और select करते हैं, high-quality training set बनाने की कुंजी हो सकती है
परिणामी dataset, DCLM-Baseline, का उपयोग 7 अरब और 1.4 अरब पैरामीटर वाले नए DCLM decoder-only transformer English language models को scratch से train करने के लिए किया गया
7 अरब मॉडल को OpenLM framework पर आधारित pre-training recipe के साथ 2.5 ट्रिलियन tokens पर train किया गया, और इसने MMLU में 63.7% की 5-shot accuracy दी
यह पहले के state-of-the-art open data language model MAP-Neo की तुलना में 6.6%p सुधार है, जबकि training में 40% कम compute इस्तेमाल हुआ

शक्तिशाली और छोटे मॉडल

1.4 अरब (1.4B) संस्करण ने भी MMLU, Core और Extended टेस्ट में प्रभावशाली प्रदर्शन दिखाया
5-shot MMLU टेस्ट में इसने 41.9% हासिल किया, जो इस श्रेणी के अन्य मॉडलों की तुलना में काफी अधिक है, जिनमें Hugging Face का हाल में जारी SmolLM भी शामिल है
फिलहाल बड़ा मॉडल Apple के Sample Code License के तहत उपलब्ध है, जबकि छोटा मॉडल Apache 2.0 के तहत जारी किया गया है, जो commercial use, distribution और modification की अनुमति देता है
HF लाइब्रेरी में 7 अरब पैरामीटर मॉडल का instruction-tuned संस्करण भी मौजूद है
ध्यान देने वाली बात यह है कि यह data curation के प्रभाव पर जोर देने वाला शुरुआती शोध है
- यह मॉडल Apple devices के लिए नहीं है, और test training data में कुछ खास bias दिखा सकता है या हानिकारक प्रतिक्रियाएं पैदा कर सकता है

3 टिप्पणियां

j2sus91 2024-07-23

क्योंकि iPhone पर जोड़ने से इसका असर अधिकतम हो जाता है।
Samsung भी on-device पर फोकस कर रहा है।

xguru 2024-07-23

Apple, on-device इस्तेमाल को लक्ष्य बनाकर 8 छोटे AI language model रिलीज़

लगता है Apple लगातार on-device AI के लिए छोटे models पर फोकस कर रहा है। इसे जल्दी एक बार इस्तेमाल करके देखना चाहता हूँ।

godrm 2024-07-23

लगता है अगले साल से इसे सच में इस्तेमाल कर पाएंगे हाहा

Apple ने ओपन AI क्षमता दिखाई: नए जारी मॉडल का प्रदर्शन Mistral से बेहतर

DCLM(DataComp for Language Models)

शक्तिशाली और छोटे मॉडल

संबंधित पढ़ाई

3 टिप्पणियां