RedPajama ने HELM बेंचमार्क में अन्य सार्वजनिक 7B LLM मॉडलों से बेहतर प्रदर्शन वाला 7B मॉडल जारी किया
(together.xyz)RedPajama-INCITE-7B के 3 मॉडल परिचय
- HELM बेंचमार्क के आधार पर 7B के 3 मॉडल जारी किए गए, जिनमें RedPajama-INCITE-7B-Instruct मॉडल शामिल है, जो पहले सार्वजनिक किए गए 7B मॉडलों से बेहतर प्रदर्शन करता है
RedPajama-INCITE-7B-Instruct मॉडल
- मौजूदा मॉडल का Instruct-tuned संस्करण
- P3 (BigScience) और Natural Instruction (AI2) का उपयोग करके प्रशिक्षित
- HELM बेंचमार्क में सबसे अधिक स्कोर पाने वाला open model, जो विभिन्न कार्यों के लिए आदर्श है
RedPajama-INCITE-7B-Chat मॉडल
- केवल Dolly2 और OASST जैसे open source डेटा का उपयोग करके प्रशिक्षित ➡️ व्यावसायिक उपयोग संभव
- (+ केवल Chat मॉडल ही नहीं, RedPajama-INCITE मॉडल परिवार के सभी मॉडल व्यावसायिक उपयोग के लिए उपलब्ध हैं)
- fine-tuning के लिए training scripts सहित जारी :arrow_forward: OpenChatKit में तुरंत उपयोग किया जा सकता है
- RedPajama.cpp (
LLaMA.cppका fork) को समर्थन - CPU पर चलाया जा सकता है - MLC LLM जैसे प्रोजेक्ट्स के साथ सहयोग ➡️ भविष्य में विभिन्न हार्डवेयर पर चलने योग्य बनाया जाएगा
RedPajama-INCITE-7B-Base मॉडल
- EleutherAI के Pythia मॉडल जैसी ही architecture का उपयोग, RedPajama-Data-1T dataset पर प्रशिक्षित
- 🤗HuggingFace के togethercomputer/RedPajama-INCITE-7B-Base से डाउनलोड किया जा सकता है
- HELM बेंचमार्क के अनुसार LLaMA-7B से 4 अंक, Falcon-7B/MPT-7B से लगभग 1.3 अंक कम प्रदर्शन
- केवल उन कार्यों में कम प्रदर्शन जहाँ logprob का उपयोग करके सही/गलत उत्तरों के बीच probability difference की गणना की जाती है
- जिन कार्यों में उत्तर सीधे generate किए जाते हैं और quality मापी जाती है, उनमें समान प्रदर्शन दिखता है
- LM Harness के परिणाम भी logprob का उपयोग करते हैं, इसलिए वहाँ भी इसी तरह कम प्रदर्शन दिखता है
आगे की योजना (RedPajama2)
- नीचे दी गई योजना के अनुसार 2~3T tokens वाले नए dataset RedPajama2 का विकास जारी है:
- DoReMi जैसी तकनीकों का उपयोग करके data mix का संतुलन बनाया जाएगा
- विविधता और आकार को बेहतर बनाने के लिए Eleuther.ai के Pile v1 और CarperAI के Pile v2 जैसे डेटा का उपयोग
- CommonCrawl डेटा की अधिक मात्रा को प्रोसेस करना
- LLaMA पेपर के approach के अलावा data deduplication की विभिन्न रणनीतियों की खोज
- 150B से अधिक code tokens जोड़कर coding और reasoning कार्यों की गुणवत्ता में सुधार
3 टिप्पणियां
अरे.. शीर्षक में टाइपो था T_T
@xguru-nim, क्या आप शीर्षक के HEML को HELM में बदल सकते हैं T_T
मैंने इसे संशोधित कर दिया है!
और पढ़ें