RedPajama - LLaMA डेटासेट को फिर से बनाने वाला ओपन सोर्स प्रोजेक्ट

xguru · 2023-04-19T10:03:01+09:00

LLaMA, Alpaca, Vicuna जैसे semi-open मॉडल नहीं, बल्कि पुनरुत्पादित किए जा सकने वाले और पूरी तरह open language model बनाने का प्रोजेक्ट 3 घटक उच्च गुणवत्ता और व्यापक कवरेज वाला pre-training डेटा इस डेटा के आधार पर बड़े पैमाने पर प्रशिक्षित base model base model को सुरक्षित और उपयोगी बनाने के लिए instruction tuning डेटा और मॉडल पहले कंपोनेंट के रूप में RedPajama-Data-1T डेटासेट जारी LLaMA पेपर में वर्णित recipe के अनुसार बनाया गया, 1.2 ट्रिलियन tokens से बना पूरी तरह open dataset HuggingFace के जरिए डाउनलोड किया जा सकता है. कुल 5TB (3TB में compressed वितरण) 7 डेटा हिस्सों से बना: हर एक को pre-processing और filtering करके LLaMA पेपर जैसी मात्रा में तैयार किया गया (pre-processing विधियां और filters भी GitHub पर सार्वजनिक) CommonCrawl (878b) - वेब क्रॉलिंग डेटा C4 (175b) - Colossal, Cleaned version of Common Crawl GitHub (59b) - license और quality के आधार पर filter किया गया GitHub डेटा arXiv (28b) - वैज्ञानिक पेपर और लेख (boilerplate हटाया गया) Books (26b) - content similarity के आधार पर deduplicate किया गया open books corpus Wikipedia (24b) - Wikipedia के कुछ पेज (boilerplate हटाया गया) StackExchange (20b) - StackExchange के कुछ पेज (boilerplate हटाया गया) अगला कदम एक शक्तिशाली base model को train करना है. कुछ हफ्तों में जारी करने की योजना command tuning, OpenChatkit के जरिए उपलब्ध कराए गए डेटा से करने की योजना

(together.xyz)

14 पॉइंट द्वारा xguru 2023-04-19 | 1 टिप्पणियां | WhatsApp पर शेयर करें

LLaMA, Alpaca, Vicuna जैसे semi-open मॉडल नहीं, बल्कि पुनरुत्पादित किए जा सकने वाले और पूरी तरह open language model बनाने का प्रोजेक्ट
3 घटक
- उच्च गुणवत्ता और व्यापक कवरेज वाला pre-training डेटा
- इस डेटा के आधार पर बड़े पैमाने पर प्रशिक्षित base model
- base model को सुरक्षित और उपयोगी बनाने के लिए instruction tuning डेटा और मॉडल
पहले कंपोनेंट के रूप में RedPajama-Data-1T डेटासेट जारी
- LLaMA पेपर में वर्णित recipe के अनुसार बनाया गया, 1.2 ट्रिलियन tokens से बना पूरी तरह open dataset
- HuggingFace के जरिए डाउनलोड किया जा सकता है. कुल 5TB (3TB में compressed वितरण)
- 7 डेटा हिस्सों से बना: हर एक को pre-processing और filtering करके LLaMA पेपर जैसी मात्रा में तैयार किया गया (pre-processing विधियां और filters भी GitHub पर सार्वजनिक)
  - CommonCrawl (878b) - वेब क्रॉलिंग डेटा
  - C4 (175b) - Colossal, Cleaned version of Common Crawl
  - GitHub (59b) - license और quality के आधार पर filter किया गया GitHub डेटा
  - arXiv (28b) - वैज्ञानिक पेपर और लेख (boilerplate हटाया गया)
  - Books (26b) - content similarity के आधार पर deduplicate किया गया open books corpus
  - Wikipedia (24b) - Wikipedia के कुछ पेज (boilerplate हटाया गया)
  - StackExchange (20b) - StackExchange के कुछ पेज (boilerplate हटाया गया)
अगला कदम एक शक्तिशाली base model को train करना है. कुछ हफ्तों में जारी करने की योजना
command tuning, OpenChatkit के जरिए उपलब्ध कराए गए डेटा से करने की योजना

1 टिप्पणियां

xguru 2023-04-19

OpenChatKit जारी - ChatGPT को इम्प्लीमेंट करने योग्य ओपन सोर्स प्रोजेक्ट

RedPajama - LLaMA डेटासेट को फिर से बनाने वाला ओपन सोर्स प्रोजेक्ट

संबंधित पढ़ाई

1 टिप्पणियां