Vision Transformers में Registers की आवश्यकता

  • लेखक: Timothée Darcet, Maxime Oquab, Julien Mairal, Piotr Bojanowski
  • ICLR 2024 मौखिक प्रस्तुति
  • 16 जनवरी 2024 को प्रकाशित, 12 अप्रैल 2024 को अंतिम संशोधन

सारांश

  • supervised learning और self-supervised learning से प्रशिक्षित Vision Transformer (ViT) मॉडलों के feature map में artifacts खोजे और उनका विश्लेषण किया गया
  • inference के दौरान मुख्य रूप से कम-information वाले background क्षेत्रों में दिखाई देने वाले high-norm tokens, जो आंतरिक computation के लिए दोबारा उपयोग होने वाले artifacts से मेल खाते हैं
  • ViT input sequence में अतिरिक्त tokens (जिन्हें "registers" कहा गया है) देने वाला एक सरल लेकिन प्रभावी समाधान प्रस्तावित किया गया
  • supervised और self-supervised दोनों मॉडलों में इस समस्या को पूरी तरह हल किया गया, dense visual prediction कार्यों में self-supervised visual models के लिए नया SOTA स्थापित किया गया, बड़े मॉडलों के साथ object detection methods को संभव बनाया गया, और सबसे महत्वपूर्ण बात यह कि downstream visual processing के लिए अधिक smooth feature maps और attention maps मिले

प्रयोग और विश्लेषण

  • artifacts की जांच बहुत मौलिक और गहन है। ग्राफ़ और व्याख्या बहुत insight देने वाले हैं और प्रयोग व्यापक हैं
  • प्रस्तावित register token शामिल करना बहुत सरल और elegant है और अधिक interpretable attention masks प्रदान करता है
  • सीमाओं के बारे में दिए गए वक्तव्य की सराहना की गई
  • पेपर को समझना आसान है और visualizations सहज समझ बनाने में मदद करते हैं

सुधार के बिंदु

  • register tokens जोड़ने से outlier tokens का व्यवहार हट गया है, यह दिखाने वाले प्रयोगों की कमी है। यह देखना रोचक होगा कि प्रस्तावित मॉडल में यह image/register tokens तक पहुँचता है या नहीं
  • unsupervised object detection पर मॉडल प्रदर्शन की चर्चा सीमित है और परिणामों से मेल नहीं खाती
  • DINOv2+reg का लाभ प्रभावशाली है, लेकिन यह DINO से मेल क्यों नहीं खाता, इस पर अधिक चर्चा या गुणात्मक उदाहरणों की आवश्यकता है
  • कहा गया है कि सभी मॉडलों में registers unsupervised object detection प्रदर्शन सुधारते हैं, लेकिन OpenCLIP का प्रदर्शन उल्टा गिर जाता है

GN⁺ की राय

  • सीमित patch-level redundancy को कम करने के लिए registers के अलावा अन्य तरीके भी हो सकते हैं। यह जानना दिलचस्प होगा कि MAE जैसे अन्य self-supervised मॉडलों में, जहाँ patch-level reconstruction को representation redundancy कम करनी चाहिए, क्या ऐसा ही प्रभाव दिखता है

  • OpenCLIP के प्रदर्शन में गिरावट के लिए अतिरिक्त स्पष्टीकरण की आवश्यकता दिखती है। साथ ही DINO का LOST प्रदर्शन DINOv2 से बेहतर क्यों है, इस पर भी पर्याप्त व्याख्या नहीं है

  • यह आश्चर्यजनक है कि DINOv2 dense mask-image-modeling objective function का उपयोग करते हुए भी ऐसा व्यवहार दिखाता है। masked image objective patch features में information preservation की मांग करता है, फिर भी यह इस व्यवहार को क्यों नहीं रोक पाया, यह जानना रोचक होगा

  • ऐसा लगता है कि dataset की bias और label की bias में अंतर करना ज़रूरी है। SSL पर label bias का प्रभाव कम हो सकता है, लेकिन Instagram बनाम iNaturalist जैसे data source के आधार पर bias फिर भी मौजूद रह सकता है

  • यह सुझाव दिया गया है कि बड़े मॉडलों में outlier tokens दिखाई देते हैं, लेकिन CLIP/DEIT के base models में ऐसा नहीं है। सेक्शन 2.2 के अंत में इस पर टिप्पणी हो तो अच्छा होगा

  • यह जानना रोचक होगा कि registers जोड़े गए DINO मॉडल का unsupervised object detection प्रदर्शन OpenAI के CLIP या Google के LiT जैसे समान कार्य करने वाले अन्य मॉडलों की तुलना में कैसा है

  • यह विश्लेषण करना उपयोगी होगा कि ViT-आधारित मॉडलों में देखी जाने वाली outlier token घटना CNN-आधारित मॉडलों में भी दिखाई देती है या यह transformer architecture की विशिष्टता है

  • वास्तविक अनुप्रयोगों में register tokens का उपयोग करते समय क्या computation बढ़ने से performance degradation होगा, और registers की optimal संख्या कैसे तय की जाए, इस पर कुछ दिशानिर्देश मददगार होंगे

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.