- 1 ट्रिलियन टोकन वाले RedPajama-1T की तुलना में यह काफी बड़े पैमाने का है
- 84 CommonCrawl डंप से 100 ट्रिलियन से अधिक raw tokens वाले 100 बिलियन से अधिक text documents
- deduplicated 30 ट्रिलियन टोकन के subset के लिए पहले से गणना किए गए, सबसे व्यापक रूप से उपयोग होने वाले 40 से अधिक quality annotations शामिल
- 5 भाषाएँ: अंग्रेज़ी, फ़्रेंच, स्पेनिश, जर्मन, इटालियन
- सभी data processing scripts open source हैं और GitHub पर उपलब्ध हैं, तथा सारा data HuggingFace पर उपलब्ध है
1 टिप्पणियां
RedPajama - LLaMA dataset को फिर से बनाने वाला open source project
RedPajama 3B, 7B model जारी
RedPajama, HELM benchmark में प्रकाशित अन्य 7B LLM मॉडलों से बेहतर प्रदर्शन वाला 7B मॉडल जारी