LAION-400M - 40 करोड़ इमेज-टेक्स्ट पेयर्स वाला डेटासेट

(laion.ai)

12 पॉइंट द्वारा xguru 2021-09-15 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

→ 2014~2021 के वेब पेज क्रॉलिंग डेटा का डंप

→ इमेज/टेक्स्ट के बीच 0.3 से कम similarity वाले डेटा को हटाने के बाद मैनुअल वेरिफिकेशन

→ 50GB URL+caption metadata Parquet फ़ाइल

→ 10TB फुल-वर्ज़न webdataset, 256x256 इमेज/caption/metadata के साथ, जिसे सीधे ट्रेनिंग में इस्तेमाल किया जा सकता है

→ 1TB, 400M टेक्स्ट/इमेज CLIP embeddings. KNN indices को रीबिल्ड करने में उपयोगी

→ डेटासेट सर्च को आसान बनाने वाले 2 x 4GB KNN indices

संबंधित पढ़ाई