- मुफ़्त में सार्वजनिक किए गए डेटासेट्स में दुनिया का सबसे बड़ा इमेज डेटासेट
→ 2014~2021 के वेब पेज क्रॉलिंग डेटा का डंप
- सभी इमेज/टेक्स्ट को OpenAI के CLIP से फ़िल्टर किया गया है
→ इमेज/टेक्स्ट के बीच 0.3 से कम similarity वाले डेटा को हटाने के बाद मैनुअल वेरिफिकेशन
- डेटासेट की संरचना
→ 50GB URL+caption metadata Parquet फ़ाइल
→ 10TB फुल-वर्ज़न webdataset, 256x256 इमेज/caption/metadata के साथ, जिसे सीधे ट्रेनिंग में इस्तेमाल किया जा सकता है
→ 1TB, 400M टेक्स्ट/इमेज CLIP embeddings. KNN indices को रीबिल्ड करने में उपयोगी
→ डेटासेट सर्च को आसान बनाने वाले 2 x 4GB KNN indices
SAMPLE_ID | URL | TEXT | LICENSE | NSFW | similarity | WIDTH | HEIGHT
अभी कोई टिप्पणी नहीं है.