- "ConvNets Match Vision Transformers at Scale"
- आम धारणा यह है कि ConvNet मध्यम और छोटे डेटा सेट्स पर अच्छा प्रदर्शन करते हैं, लेकिन बेहद बड़े डेटा सेट्स पर वे transformer, खासकर Vision Transformer (ViT), की बराबरी नहीं कर पाते
- DeepMind का नवीनतम शोध इस धारणा को चुनौती देता है
- माना जाता रहा है कि transformers की scalability, ConvNets की scalability से बेहतर है, लेकिन इसके समर्थन में सबूत सीमित रहे हैं
- लेखकों ने NFNet (Normalizer-Free ResNets) family का उपयोग करके नेटवर्क की width/depth को क्रमिक रूप से बढ़ाया
- JFT-4B पर pre-training किया गया, और SAM (Sharpness-Aware Minimization) का उपयोग करके ImageNet पर fine-tuning की गई
- नतीजतन, इसने ViT models के बराबर प्रदर्शन दिखाया
- सभी models अतिरिक्त compute मिलने पर लगातार बेहतर होते गए
अभी कोई टिप्पणी नहीं है.