RedPajama ने HELM बेंचमार्क में अन्य सार्वजनिक 7B LLM मॉडलों से बेहतर प्रदर्शन वाला 7B मॉडल जारी किया

ninebow · 2023-06-07T01:01:15+09:00

RedPajama-INCITE-7B के 3 मॉडल परिचय HELM बेंचमार्क के आधार पर 7B के 3 मॉडल जारी किए गए, जिनमें RedPajama-INCITE-7B-Instruct मॉडल शामिल है, जो पहले सार्वजनिक किए गए 7B मॉडलों से बेहतर प्रदर्शन करता है RedPajama-INCITE-7B-Instruct मॉडल मौजूदा मॉडल का Instruct-tuned संस्करण P3 (BigScience) और Natural Instruction (AI2) का उपयोग करके प्रशिक्षित HELM बेंचमार्क में सबसे अधिक स्कोर पाने वाला open model, जो विभिन्न कार्यों के लिए आदर्श है RedPajama-INCITE-7B-Chat मॉडल केवल Dolly2 और OASST जैसे open source डेटा का उपयोग करके प्रशिक्षित ➡️ व्यावसायिक उपयोग संभव (+ केवल Chat मॉडल ही नहीं, RedPajama-INCITE मॉडल परिवार के सभी मॉडल व्यावसायिक उपयोग के लिए उपलब्ध हैं) fine-tuning के लिए training scripts सहित जारी :arrow_forward: OpenChatKit में तुरंत उपयोग किया जा सकता है RedPajama.cpp (LLaMA.cpp का fork) को समर्थन - CPU पर चलाया जा सकता है MLC LLM जैसे प्रोजेक्ट्स के साथ सहयोग ➡️ भविष्य में विभिन्न हार्डवेयर पर चलने योग्य बनाया जाएगा RedPajama-INCITE-7B-Base मॉडल EleutherAI के Pythia मॉडल जैसी ही architecture का उपयोग, RedPajama-Data-1T dataset पर प्रशिक्षित 🤗HuggingFace के togethercomputer/RedPajama-INCITE-7B-Base से डाउनलोड किया जा सकता है HELM बेंचमार्क के अनुसार LLaMA-7B से 4 अंक, Falcon-7B/MPT-7B से लगभग 1.3 अंक कम प्रदर्शन केवल उन कार्यों में कम प्रदर्शन जहाँ logprob का उपयोग करके सही/गलत उत्तरों के बीच probability difference की गणना की जाती है जिन कार्यों में उत्तर सीधे generate किए जाते हैं और quality मापी जाती है, उनमें समान प्रदर्शन दिखता है LM Harness के परिणाम भी logprob का उपयोग करते हैं, इसलिए वहाँ भी इसी तरह कम प्रदर्शन दिखता है आगे की योजना (RedPajama2) नीचे दी गई योजना के अनुसार 2~3T tokens वाले नए dataset RedPajama2 का विकास जारी है: DoReMi जैसी तकनीकों का उपयोग करके data mix का संतुलन बनाया जाएगा विविधता और आकार को बेहतर बनाने के लिए Eleuther.ai के Pile v1 और CarperAI के Pile v2 जैसे डेटा का उपयोग CommonCrawl डेटा की अधिक मात्रा को प्रोसेस करना LLaMA पेपर के approach के अलावा data deduplication की विभिन्न रणनीतियों की खोज 150B से अधिक code tokens जोड़कर coding और reasoning कार्यों की गुणवत्ता में सुधार

(together.xyz)

15 पॉइंट द्वारा ninebow 2023-06-07 | 3 टिप्पणियां | WhatsApp पर शेयर करें

RedPajama-INCITE-7B के 3 मॉडल परिचय

HELM बेंचमार्क के आधार पर 7B के 3 मॉडल जारी किए गए, जिनमें RedPajama-INCITE-7B-Instruct मॉडल शामिल है, जो पहले सार्वजनिक किए गए 7B मॉडलों से बेहतर प्रदर्शन करता है

RedPajama-INCITE-7B-Instruct मॉडल

मौजूदा मॉडल का Instruct-tuned संस्करण
P3 (BigScience) और Natural Instruction (AI2) का उपयोग करके प्रशिक्षित
HELM बेंचमार्क में सबसे अधिक स्कोर पाने वाला open model, जो विभिन्न कार्यों के लिए आदर्श है

RedPajama-INCITE-7B-Chat मॉडल

केवल Dolly2 और OASST जैसे open source डेटा का उपयोग करके प्रशिक्षित ➡️ व्यावसायिक उपयोग संभव
- (+ केवल Chat मॉडल ही नहीं, RedPajama-INCITE मॉडल परिवार के सभी मॉडल व्यावसायिक उपयोग के लिए उपलब्ध हैं)
fine-tuning के लिए training scripts सहित जारी :arrow_forward: OpenChatKit में तुरंत उपयोग किया जा सकता है
RedPajama.cpp (LLaMA.cpp का fork) को समर्थन - CPU पर चलाया जा सकता है
MLC LLM जैसे प्रोजेक्ट्स के साथ सहयोग ➡️ भविष्य में विभिन्न हार्डवेयर पर चलने योग्य बनाया जाएगा

RedPajama-INCITE-7B-Base मॉडल

EleutherAI के Pythia मॉडल जैसी ही architecture का उपयोग, RedPajama-Data-1T dataset पर प्रशिक्षित
🤗HuggingFace के togethercomputer/RedPajama-INCITE-7B-Base से डाउनलोड किया जा सकता है
HELM बेंचमार्क के अनुसार LLaMA-7B से 4 अंक, Falcon-7B/MPT-7B से लगभग 1.3 अंक कम प्रदर्शन
- केवल उन कार्यों में कम प्रदर्शन जहाँ logprob का उपयोग करके सही/गलत उत्तरों के बीच probability difference की गणना की जाती है
- जिन कार्यों में उत्तर सीधे generate किए जाते हैं और quality मापी जाती है, उनमें समान प्रदर्शन दिखता है
- LM Harness के परिणाम भी logprob का उपयोग करते हैं, इसलिए वहाँ भी इसी तरह कम प्रदर्शन दिखता है

आगे की योजना (RedPajama2)

नीचे दी गई योजना के अनुसार 2~3T tokens वाले नए dataset RedPajama2 का विकास जारी है:
- DoReMi जैसी तकनीकों का उपयोग करके data mix का संतुलन बनाया जाएगा
- विविधता और आकार को बेहतर बनाने के लिए Eleuther.ai के Pile v1 और CarperAI के Pile v2 जैसे डेटा का उपयोग
- CommonCrawl डेटा की अधिक मात्रा को प्रोसेस करना
- LLaMA पेपर के approach के अलावा data deduplication की विभिन्न रणनीतियों की खोज
- 150B से अधिक code tokens जोड़कर coding और reasoning कार्यों की गुणवत्ता में सुधार

3 टिप्पणियां

ninebow 2023-06-07

अरे.. शीर्षक में टाइपो था T_T
@xguru-nim, क्या आप शीर्षक के HEML को HELM में बदल सकते हैं T_T

moderator 2023-06-08

मैंने इसे संशोधित कर दिया है!