- LLaMA, Alpaca, Vicuna जैसे semi-open मॉडल नहीं, बल्कि पुनरुत्पादित किए जा सकने वाले और पूरी तरह open language model बनाने का प्रोजेक्ट
- 3 घटक
- उच्च गुणवत्ता और व्यापक कवरेज वाला pre-training डेटा
- इस डेटा के आधार पर बड़े पैमाने पर प्रशिक्षित base model
- base model को सुरक्षित और उपयोगी बनाने के लिए instruction tuning डेटा और मॉडल
- पहले कंपोनेंट के रूप में RedPajama-Data-1T डेटासेट जारी
- LLaMA पेपर में वर्णित recipe के अनुसार बनाया गया, 1.2 ट्रिलियन tokens से बना पूरी तरह open dataset
- HuggingFace के जरिए डाउनलोड किया जा सकता है. कुल 5TB (3TB में compressed वितरण)
- 7 डेटा हिस्सों से बना: हर एक को pre-processing और filtering करके LLaMA पेपर जैसी मात्रा में तैयार किया गया (pre-processing विधियां और filters भी GitHub पर सार्वजनिक)
- CommonCrawl (878b) - वेब क्रॉलिंग डेटा
- C4 (175b) - Colossal, Cleaned version of Common Crawl
- GitHub (59b) - license और quality के आधार पर filter किया गया GitHub डेटा
- arXiv (28b) - वैज्ञानिक पेपर और लेख (boilerplate हटाया गया)
- Books (26b) - content similarity के आधार पर deduplicate किया गया open books corpus
- Wikipedia (24b) - Wikipedia के कुछ पेज (boilerplate हटाया गया)
- StackExchange (20b) - StackExchange के कुछ पेज (boilerplate हटाया गया)
- अगला कदम एक शक्तिशाली base model को train करना है. कुछ हफ्तों में जारी करने की योजना
- command tuning, OpenChatkit के जरिए उपलब्ध कराए गए डेटा से करने की योजना
1 टिप्पणियां
OpenChatKit जारी - ChatGPT को इम्प्लीमेंट करने योग्य ओपन सोर्स प्रोजेक्ट