15 पॉइंट द्वारा xguru 2020-10-26 | 2 टिप्पणियां | WhatsApp पर शेयर करें

OpenAI के GPT-3 ने जिन डेटा का उपयोग किया था, उनसे मिलती-जुलती सामग्री

  • books3.tar.gz : 37GB, लगभग 197,000 किताबों को txt के रूप में निकाला गया संग्रह

  • github.tar.gz : 106G, GitHub के विभिन्न repo का संग्रह

  • stackexchange_dataset.tar : 34G, Stack Exchange के प्रश्न-उत्तर डेटा

इसके अलावा भी कई तरह की अन्य सामग्री

2 टिप्पणियां

 
ffdd270 2020-10-27

थोड़ा अचानक-सा लग सकता है, लेकिन ऐसे training archives और archive collections को देखते हुए फिर से एहसास होता है कि डिजिटल दुनिया में भुला दिए जाने की आज़ादी जैसी कोई चीज़ नहीं है।

 
xguru 2020-10-26

इस सामग्री के विवरण के लिए नीचे दिया गया Twitter thread देखें

https://threadreaderapp.com/thread/1320282149329784833.html