5 पॉइंट द्वारा xguru 2023-11-09 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • 1 ट्रिलियन टोकन वाले RedPajama-1T की तुलना में यह काफी बड़े पैमाने का है
  • 84 CommonCrawl डंप से 100 ट्रिलियन से अधिक raw tokens वाले 100 बिलियन से अधिक text documents
  • deduplicated 30 ट्रिलियन टोकन के subset के लिए पहले से गणना किए गए, सबसे व्यापक रूप से उपयोग होने वाले 40 से अधिक quality annotations शामिल
  • 5 भाषाएँ: अंग्रेज़ी, फ़्रेंच, स्पेनिश, जर्मन, इटालियन
  • सभी data processing scripts open source हैं और GitHub पर उपलब्ध हैं, तथा सारा data HuggingFace पर उपलब्ध है