AI2 Dolma: भाषा मॉडल के लिए 3T टोकन ओपन कॉर्पस
(blog.allenai.org)- Allen Institute for AI द्वारा बनाया गया dataset
- वेब content, शैक्षणिक publications, code, books और encyclopedia सामग्री का मिश्रण
- 3 ट्रिलियन token के साथ, अब तक सार्वजनिक रूप से जारी datasets में सबसे बड़ा
- HuggingFace Hub से डाउनलोड किया जा सकता है
- AI2 ImpACT लाइसेंस (artifact के risk के अनुसार Low/Medium/High में वर्गीकृत)
अभी कोई टिप्पणी नहीं है.