AI प्रशिक्षण के लिए टेक्स्ट डेटा संग्रह
(the-eye.eu)OpenAI के GPT-3 ने जिन डेटा का उपयोग किया था, उनसे मिलती-जुलती सामग्री
-
books3.tar.gz : 37GB, लगभग 197,000 किताबों को txt के रूप में निकाला गया संग्रह
-
github.tar.gz : 106G, GitHub के विभिन्न repo का संग्रह
-
stackexchange_dataset.tar : 34G, Stack Exchange के प्रश्न-उत्तर डेटा
इसके अलावा भी कई तरह की अन्य सामग्री
2 टिप्पणियां
थोड़ा अचानक-सा लग सकता है, लेकिन ऐसे training archives और archive collections को देखते हुए फिर से एहसास होता है कि डिजिटल दुनिया में भुला दिए जाने की आज़ादी जैसी कोई चीज़ नहीं है।
इस सामग्री के विवरण के लिए नीचे दिया गया Twitter thread देखें
https://threadreaderapp.com/thread/1320282149329784833.html