- लगभग 740 मिलियन image-text pair और इनके अलावा कई अन्य attributes शामिल करने वाला बड़े पैमाने का training dataset
- HTML documents में मौजूद images और
alt attribute (वह string जो HTML में चित्र स्क्रीन पर रेंडर न हो पाने पर दिखाई देती है) को एकत्र किया गया
- उम्मीद है कि यह अन्य समान datasets को पूरक बनाते हुए बड़े foundation models को train करने में उपयोग होगा
- ‘COYO’ को पहले जारी किए गए ultra-large AI image generation model ‘RQ-Transformer’ और AI artist ‘Karlo’ के विकास में लागू किया गया था
- data collection process का विस्तृत विवरण बाद में प्रकाशित होने वाले paper में देखा जा सकेगा
1 टिप्पणियां
COYO-700M: Image-Text Pair Dataset
काकाओब्रेन ने वैश्विक शीर्ष-स्तरीय डेटासेट ‘COYO’ जारी किया