RedPajama v2 - LLM ट्रेनिंग के लिए 30 ट्रिलियन (30T) टोकन का डेटा सेट

xguru · 2023-11-09T09:46:02+09:00

1 ट्रिलियन टोकन वाले RedPajama-1T की तुलना में यह काफी बड़े पैमाने का है 84 CommonCrawl डंप से 100 ट्रिलियन से अधिक raw tokens वाले 100 बिलियन से अधिक text documents deduplicated 30 ट्रिलियन टोकन के subset के लिए पहले से गणना किए गए, सबसे व्यापक रूप से उपयोग होने वाले 40 से अधिक quality annotations शामिल 5 भाषाएँ: अंग्रेज़ी, फ़्रेंच, स्पेनिश, जर्मन, इटालियन सभी data processing scripts open source हैं और GitHub पर उपलब्ध हैं, तथा सारा data HuggingFace पर उपलब्ध है

(together.ai)

5 पॉइंट द्वारा xguru 2023-11-09 | 1 टिप्पणियां | WhatsApp पर शेयर करें

1 ट्रिलियन टोकन वाले RedPajama-1T की तुलना में यह काफी बड़े पैमाने का है
84 CommonCrawl डंप से 100 ट्रिलियन से अधिक raw tokens वाले 100 बिलियन से अधिक text documents
deduplicated 30 ट्रिलियन टोकन के subset के लिए पहले से गणना किए गए, सबसे व्यापक रूप से उपयोग होने वाले 40 से अधिक quality annotations शामिल
5 भाषाएँ: अंग्रेज़ी, फ़्रेंच, स्पेनिश, जर्मन, इटालियन
सभी data processing scripts open source हैं और GitHub पर उपलब्ध हैं, तथा सारा data HuggingFace पर उपलब्ध है

1 टिप्पणियां

xguru 2023-11-09

RedPajama - LLaMA dataset को फिर से बनाने वाला open source project
RedPajama 3B, 7B model जारी
RedPajama, HELM benchmark में प्रकाशित अन्य 7B LLM मॉडलों से बेहतर प्रदर्शन वाला 7B मॉडल जारी

RedPajama v2 - LLM ट्रेनिंग के लिए 30 ट्रिलियन (30T) टोकन का डेटा सेट

संबंधित पढ़ाई

1 टिप्पणियां