• मुफ़्त में सार्वजनिक किए गए डेटासेट्स में दुनिया का सबसे बड़ा इमेज डेटासेट

→ 2014~2021 के वेब पेज क्रॉलिंग डेटा का डंप

  • सभी इमेज/टेक्स्ट को OpenAI के CLIP से फ़िल्टर किया गया है

→ इमेज/टेक्स्ट के बीच 0.3 से कम similarity वाले डेटा को हटाने के बाद मैनुअल वेरिफिकेशन

  • डेटासेट की संरचना

→ 50GB URL+caption metadata Parquet फ़ाइल

→ 10TB फुल-वर्ज़न webdataset, 256x256 इमेज/caption/metadata के साथ, जिसे सीधे ट्रेनिंग में इस्तेमाल किया जा सकता है

→ 1TB, 400M टेक्स्ट/इमेज CLIP embeddings. KNN indices को रीबिल्ड करने में उपयोगी

→ डेटासेट सर्च को आसान बनाने वाले 2 x 4GB KNN indices

SAMPLE_ID | URL | TEXT | LICENSE | NSFW | similarity | WIDTH | HEIGHT

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.