- पिक्सेल को सीधे तुलना करने के बजाय, इमेज की अमूर्त representation की तुलना करने वाला internal model बनाकर ट्रेनिंग करता है
- computer vision कार्यों में मजबूत performance देता है और कहीं अधिक efficient है। व्यापक fine-tuning के बिना भी कई जगहों पर उपयोग किया जा सकता है
- सिर्फ 16 A100 GPU के साथ 72 घंटे के भीतर 632M parameter वाले visual transformer model को train किया जा सकता है
- प्रति class केवल 12 labeled examples के साथ ImageNet low-shot classification में SOTA performance दिखाता है
- पेपर CVPR 2023 में प्रस्तुत किया जाएगा, और training code तथा model checkpoint भी open source के रूप में जारी किए जाएंगे
- Image Joint Embedding Predictive Architecture
1 टिप्पणियां
लगता है कि टाइपो की वजह से 'व्यापक' सही तरह से नहीं लिखा गया है।