5 पॉइंट द्वारा xguru 2023-06-16 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • पिक्सेल को सीधे तुलना करने के बजाय, इमेज की अमूर्त representation की तुलना करने वाला internal model बनाकर ट्रेनिंग करता है
  • computer vision कार्यों में मजबूत performance देता है और कहीं अधिक efficient है। व्यापक fine-tuning के बिना भी कई जगहों पर उपयोग किया जा सकता है
  • सिर्फ 16 A100 GPU के साथ 72 घंटे के भीतर 632M parameter वाले visual transformer model को train किया जा सकता है
    • प्रति class केवल 12 labeled examples के साथ ImageNet low-shot classification में SOTA performance दिखाता है
  • पेपर CVPR 2023 में प्रस्तुत किया जाएगा, और training code तथा model checkpoint भी open source के रूप में जारी किए जाएंगे
  • Image Joint Embedding Predictive Architecture

1 टिप्पणियां

 
libner 2023-06-16

लगता है कि टाइपो की वजह से 'व्यापक' सही तरह से नहीं लिखा गया है।