VLMs(Vision-Language Models) are Blind शोधपत्र का परिचय

पिछले 8 महीनों में GPT-4V(ision) जैसे vision-language models (VLM) के आने से image-text processing applications में तेज़ बढ़ोतरी हुई है। VLM (Vision-Language Model, दृश्य-भाषा मॉडल) किसी दृश्य में मौजूद objects की सटीक पहचान कर सकते हैं और उसके आधार पर जटिल कार्य कर सकते हैं। उदाहरण के लिए, किसी दृश्य की image और menu image के आधार पर टेबल पर रखी beer की कीमत निकालना। लेकिन VLM कुछ खास कार्यों में चौंकाने वाली सीमाएँ दिखाते हैं, जिससे यह सवाल उठता है कि क्या वे इंसानों की तरह images को पहचान पाते हैं। इस शोधपत्र में इन सीमाओं का मूल्यांकन करने के लिए BlindTest नाम का 7 visual tasks का एक सेट प्रस्तावित किया गया है। BlindTest ऐसे कार्यों से बना है जो इंसानों के लिए बहुत आसान हैं, लेकिन नवीनतम VLMs के लिए बड़ी चुनौती बन जाते हैं.

इस शोधपत्र का मुख्य मुद्दा VLM की मानी गई क्षमताओं और बुनियादी visual tasks में उसके वास्तविक प्रदर्शन के बीच के अंतर को समझना है। VLM high-level vision benchmarks पर शानदार प्रदर्शन करते हैं, लेकिन सटीक spatial understanding और counting की ज़रूरत वाले सरल कार्यों में कठिनाई झेलते हैं। इस समस्या को हल करना वास्तविक जीवन के scenarios में VLM के व्यावहारिक उपयोग को आगे बढ़ाने के लिए आवश्यक है.

हाल ही में लागू किए गए कुछ VLMs अपने model architecture में vision और language को शुरुआती चरण में ही एकीकृत करते हैं, जिससे visual data और text data के बीच अधिक सहज interaction संभव होता है। एक दूसरा approach vision और language components को बाद में जोड़ता है, जिससे language understanding तो मज़बूत होती है लेकिन visual perception में प्रदर्शन कमज़ोर रहता है। मौजूदा benchmarks MMMU और AI2D जैसे जटिल visual reasoning tasks पर VLM का मूल्यांकन करते हैं, लेकिन अक्सर low-level visual tasks को नज़रअंदाज़ कर देते हैं.

यह शोधपत्र BlindTest नाम का एक नया benchmark प्रस्तुत करता है, जो मौजूदा vision-language models (VLM) की सीमाओं की जाँच करता है। BlindTest में ऐसे visual tasks शामिल हैं जो लोगों के लिए सहज और आसान हैं, जैसे यह देखना कि क्या दो circles एक-दूसरे पर overlap कर रहे हैं, या image में shapes की संख्या गिनना.

दृश्य-भाषा मॉडल(VLM, Vision-Language Model)

लेखकों ने GPT-4o, Gemini-1.5 Pro, Claude-3 Sonnet, Claude-3.5 Sonnet — इन चार नवीनतम VLMs का परीक्षण किया। ये models हाल के multimodal vision benchmarks में ऊँची रैंकिंग हासिल कर चुके हैं और विभिन्न विषयों में उत्कृष्ट प्रदर्शन दिखाते हैं। उदाहरण के लिए, MMMU, AI2D, MathVista, ChartQA, DocVQA, ActivityNet-QA, EgoSchema जैसे benchmarks में इन्होंने अच्छे परिणाम दिए हैं। लेकिन मौजूदा benchmarks केवल VLM के समग्र प्रदर्शन को मापते हैं और उनकी विशिष्ट सीमाओं को स्पष्ट रूप से सामने नहीं ला पाते। इसलिए हमने यह देखने के लिए एक नया benchmark डिज़ाइन किया कि VLM सरल visual tasks पर कैसी प्रतिक्रिया देते हैं। इस benchmark में बुनियादी 2D geometric shapes शामिल हैं और इसमें न्यूनतम background knowledge की आवश्यकता होती है.

BlindTest benchmark

BlindTest 7 सरल visual tasks से बना है, और हर task यह परखता है कि VLM बुनियादी visual perception को कैसे संभालते हैं.

Task 1. प्रतिच्छेदों की संख्या गिनना 📈📉

इस task में यह जाँचा जाता है कि दो 2-segment linear functions में 0, 1 या 2 intersection points हैं या नहीं। इसके लिए 150 2D line plot images बनाई गईं। हर line plot को तीन fixed x-coordinates और randomly चुने गए y-coordinates से परिभाषित किया गया, और उसे white canvas पर बनाया गया। इस प्रक्रिया में यह सुनिश्चित किया गया कि रेखाओं में ठीक 0, 1 या 2 intersections हों.

हर प्रश्न दो अलग-अलग वाक्य-रूपों में पूछा गया। पहला था "नीली और लाल line plots एक-दूसरे को कितनी बार काटती हैं?(How many times do the blue and red line plots cross each other?)", और दूसरा था "नीली और लाल रेखाएँ कितनी बार intersect करती हैं?(How many times do the blue and red lines intersect?)"। इसका उद्देश्य यह परखना था कि क्या VLM वाक्य-रचना के सूक्ष्म अंतर को पहचानकर एक ही अर्थ निकाल सकते हैं। प्रश्नों की अलग-अलग phrasing मॉडल की समझने की क्षमता को कई कोणों से जाँचने में उपयोगी है.

चारों models का line intersection counting task में प्रदर्शन इस प्रकार था। GPT-4o ने 48.67%, Gemini-1.5 Pro ने 69.67%, Sonnet-3 ने 64.00%, और Sonnet-3.5 ने 77.33% accuracy दिखाई। यह दर्शाता है कि VLMs को रेखाओं के प्रतिच्छेद का निर्धारण करने में कठिनाई होती है। खास तौर पर, models के बीच बड़ा performance gap यह संकेत देता है कि हर model की visual processing क्षमता अलग है। यह परिणाम इस बात पर ज़ोर देता है कि VLM की visual understanding को बेहतर बनाने के लिए और शोध की आवश्यकता है.

Task 2. दो circles की स्थिति की जाँच 🔴🔵

इस task में यह परखा जाता है कि समान आकार के दो भरे हुए circles एक-दूसरे को touch कर रहे हैं या overlap कर रहे हैं। इसके लिए 672 images बनाई गईं। circles का आकार, दूरी और दिशा अलग-अलग रखी गई, और canvas size 384, 769, 1155 pixels रखा गया। circles का diameter canvas size के 1/4, 1/5, 1/6, 1/7 के रूप में सेट किया गया, जबकि circles की दूरी और दिशा random रखी गई.

हर प्रश्न दो अलग-अलग वाक्य-रूपों में पूछा गया। पहला था "क्या दोनों circles एक-दूसरे को touch कर रहे हैं? Yes/No में उत्तर दें.(Are the two circles touching each other? Answer with Yes/No)", और दूसरा था "क्या दोनों circles overlap कर रहे हैं? Yes/No में उत्तर दें.(Are the two circles overlapping? Answer with Yes/No.)"। इसका उद्देश्य यह परखना था कि क्या model वाक्य-रचना के सूक्ष्म अंतर को पहचानकर वही अर्थ निकाल सकता है। प्रश्नों की अलग-अलग phrasing मॉडल की समझने की क्षमता को कई कोणों से जाँचने में उपयोगी है.

चारों models का दो circles के touch होने का निर्धारण करने में प्रदर्शन इस प्रकार था। GPT-4o ने औसतन 72.69%, Gemini-1.5 Pro ने औसतन 92.78%, Sonnet-3 ने औसतन 84.52%, और Sonnet-3.5 ने औसतन 91.66% accuracy दिखाई। यह दिखाता है कि VLMs circles के overlap का निर्धारण करने में कुछ हद तक सक्षम हैं, लेकिन अभी भी सुधार की आवश्यकता है। खास तौर पर, models के बीच का performance gap यह संकेत देता है कि हर model की visual processing क्षमता अलग है.

Task 3. घेरा लगाए गए अक्षर की पहचान 🔤⭕

इस task में अलग-अलग strings की images बनाई जाती हैं, जिनमें हर character को क्रम से circle किया गया है, ताकि यह जाँचा जा सके कि VLM यह पहचान सकता है या नहीं कि किस character पर घेरा लगाया गया है। चुनी गई strings थीं Acknowledgement, Subdermatoglyphic, tHyUiKaRbNqWeOpXcZvM, और हर string के हर character को क्रमवार circle किया गया। इससे यह परखा गया कि क्या VLM characters के बीच के छोटे अंतर को पहचान सकता है.

दो अलग-अलग prompts के साथ प्रश्न पूछे गए। पहला था "किस अक्षर पर घेरा लगाया गया है?(Which letter is being circled?)", और दूसरा था "किस character को लाल oval से highlight किया गया है?(Which character is being highlighted with a red oval?)"। इसका उद्देश्य यह परखना था कि क्या model वाक्य-रचना के सूक्ष्म अंतर को पहचानकर एक ही अर्थ निकाल सकता है। प्रश्नों की अलग-अलग phrasing मॉडल की समझने की क्षमता को कई कोणों से जाँचने में उपयोगी है.

चारों models का circled character recognition task में प्रदर्शन इस प्रकार था। GPT-4o ने औसतन 70.18%, Gemini-1.5 Pro ने औसतन 92.81%, Sonnet-3 ने औसतन 73.34%, और Sonnet-3.5 ने औसतन 89.22% accuracy दिखाई। यह दर्शाता है कि VLMs को घेरा लगाए गए characters की पहचान करने में कठिनाई होती है.

अर्थात, सभी VLMs को characters की सटीक पहचान करने में कठिनाई हुई। खासकर जब circle किसी character पर थोड़ा overlap करता था, तब बहुत अधिक errors हुईं। यह दिखाता है कि VLMs सूक्ष्म visual details को सटीक रूप से process नहीं कर पाते। खास तौर पर, models के बीच का performance gap यह संकेत देता है कि हर model की visual processing क्षमता अलग है.

Task 4. overlap हो रही आकृतियों की गिनती ∞

इस task में Olympic logo की तरह एक-दूसरे पर चढ़ी हुई circles की संख्या गिनने का काम किया जाता है। इसके लिए 120 images बनाई गईं, और circles तथा pentagons दोनों को शामिल करके प्रयोग किया गया। हर image में 5, 6, 7, 8, 9 overlapping shapes थीं, जो दो पंक्तियों में व्यवस्थित थीं, और shapes के आकार व रंगों में विविधता रखी गई थी.

इस कार्य में दो prompts के साथ प्रश्न पूछे जाते हैं। पहला है, "छवि में कितने {shapes} हैं? केवल संख्या लिखें.(How many {shapes} are in the image? Answer with only the number in numerical format)" और दूसरा है, "छवि में मौजूद {shapes} की संख्या गिनें। {3} की तरह curly brackets के भीतर संख्या में उत्तर दें.(Count the {shapes} in the image. Answer with a number in curly brackets e.g. {3}.)"। {shapes} से तात्पर्य circle या pentagon है। इसका उद्देश्य यह जाँचना है कि मॉडल वाक्यांशों के सूक्ष्म अंतर को पहचानकर एक ही अर्थ निकाल सकता है या नहीं।

चार मॉडलों का nested shapes counting प्रदर्शन इस प्रकार था। GPT-4o ने circles के लिए 42.50% और pentagons के लिए 19.16% सटीकता दिखाई, जबकि Gemini-1.5 Pro ने circles के लिए 20.83% और pentagons के लिए 9.16% सटीकता दिखाई। Sonnet-3 ने circles के लिए 31.66% और pentagons के लिए 11.66% सटीकता दिखाई, जबकि Sonnet-3.5 ने circles के लिए 44.16% और pentagons के लिए 75.83% सटीकता दिखाई।

अधिकांश मॉडलों ने इस कार्य में कम प्रदर्शन दिखाया। खासकर, जब 5 circles थे तब सटीकता ऊँची थी, लेकिन उससे अधिक होने पर प्रदर्शन तेज़ी से गिर गया। इससे पता चलता है कि VLM overlapping shapes को सही तरह से पहचान नहीं पाते।

Task 5. Nested squares गिनना 🔳🔲

इस कार्य में कई परतों वाले squares को overlap करके छवियाँ बनाई जाती हैं। हर छवि में अलग-अलग आकार के squares होते हैं, और squares का आकार व स्थान random रूप से तय किया जाता है। प्रत्येक छवि में nested squares की एक निश्चित संख्या होती है, और squares की संख्या 2, 3, 4, 5 में से एक होती है। इस कार्य का उद्देश्य यह जाँचना है कि VLM overlapping shapes की संख्या को सही तरह से गिन सकता है या नहीं।

इस कार्य में पूछा जाता है, "छवि में squares की कुल संख्या गिनें.(Count the total number of squares in the image)"। इसका उद्देश्य यह जाँचना है कि VLM overlapping shapes की संख्या को सही तरह से गिन सकता है या नहीं। साथ ही यह भी परखा जाता है कि मॉडल वाक्यांशों के सूक्ष्म अंतर को पहचानकर एक ही अर्थ निकाल सकता है या नहीं।

चार मॉडलों का nested squares counting प्रदर्शन इस प्रकार था। GPT-4o ने 48.33%, Gemini-1.5 Pro ने 80.00%, Sonnet-3 ने 55.00%, और Sonnet-3.5 ने 87.50% सटीकता दिखाई। इससे पता चलता है कि VLM nested squares की संख्या गिनने में कठिनाई झेलते हैं।

जैसा कि परिणामों से स्पष्ट है, सभी मॉडलों ने इस कार्य में भी लगातार कम सटीकता दिखाई। विशेष रूप से, squares की संख्या बढ़ने के साथ errors भी बढ़े। इससे पता चलता है कि VLM overlapping shapes को सही तरह से पहचानने में कठिनाई झेलते हैं। साथ ही, मॉडलों के बीच प्रदर्शन का बड़ा अंतर यह संकेत देता है कि उनकी visual processing क्षमता अलग-अलग है।

Task 6. Grid matrix गिनना ▦

इस कार्य में अलग-अलग आकार की grid images बनाकर rows और columns की संख्या गिनी जाती है। हर छवि एक grid से बनी होती है जिसमें rows और columns की एक निश्चित संख्या शामिल होती है, और कुछ छवियों में हर cell के भीतर text भी शामिल होता है। इसके अलावा, grid का आकार और रूप भी विविध रूप से तय किया जाता है। इसका उद्देश्य यह जाँचना है कि VLM grid की rows और columns की संख्या को सही तरह से गिन सकता है या नहीं।

हर प्रश्न दो अलग-अलग वाक्यांशों में दिया जाता है। पहला है, "rows और columns की संख्या गिनें और curly brackets में संख्याओं के साथ उत्तर दें। उदाहरण: rows={5} columns={6}(Count the number of rows and columns and answer with numbers in curly brackets. For example, rows={5} columns={6})" और दूसरा है, "तालिका की rows और columns की संख्या गिनें। संख्याओं की जोड़ी में उत्तर दें। उदाहरण: (5,6)(How many rows and columns are in the table? Answer with only the numbers in a pair (row, column), e.g., (5,6)))"। इसका उद्देश्य यह जाँचना है कि मॉडल वाक्यांशों के सूक्ष्म अंतर को पहचानकर एक ही अर्थ निकाल सकता है या नहीं।

चार मॉडलों का rows और columns counting प्रदर्शन इस प्रकार था। GPT-4o ने औसतन 39.58%, Gemini-1.5 Pro ने औसतन 35.79%, Sonnet-3 ने औसतन 36.17%, और Sonnet-3.5 ने औसतन 74.26% सटीकता दिखाई।

प्रयोग के परिणामों में, text शामिल होने वाली grids में प्रदर्शन बेहतर हुआ, लेकिन फिर भी सटीकता ऊँची नहीं थी। इससे पता चलता है कि VLM grid की सूक्ष्म संरचना को सही तरह से पहचान नहीं पाते, इसलिए rows और columns की संख्या गिनने में कठिनाई झेलते हैं। खासकर, मॉडलों के बीच प्रदर्शन का बड़ा अंतर यह संकेत देता है कि उनकी visual processing क्षमता अलग-अलग है।

Task 7. एकल रंग के path का अनुसरण करना 🔂

इस कार्य में single-color path का अनुसरण करते हुए subway route map पढ़ने का काम किया जाता है। हर छवि 4 निश्चित stations (A, B, C, D) और उन्हें जोड़ने वाले paths से बनी होती है। इसका उद्देश्य यह जाँचना है कि VLM single-color path का अनुसरण कर सकते हैं या नहीं।

हर प्रश्न दो अलग-अलग prompts से बना है। पहला है, "A से C तक जाने वाले single-colored paths कितने हैं? curly brackets में संख्या के साथ उत्तर दें। उदाहरण: {3}(How many single-colored paths go from A to C? Answer with a number in curly brackets, e.g., {3})" और दूसरा है, "A से C तक जाने वाले one-colored routes को गिनें। curly brackets में संख्या के साथ उत्तर दें। उदाहरण: {3}(Count the one-colored routes that go from A to C. Answer with a number in curly brackets, e.g., {3}.)"। इसका उद्देश्य यह जाँचना है कि मॉडल वाक्यांशों के सूक्ष्म अंतर को पहचानकर एक ही अर्थ निकाल सकता है या नहीं।

चार मॉडलों का single-color path tracking प्रदर्शन इस प्रकार था। GPT-4o ने औसतन 45.89%, Gemini-1.5 Pro ने औसतन 40.01%, Sonnet-3 ने औसतन 23.78%, और Sonnet-3.5 ने औसतन 50.18% सटीकता दिखाई। यानी सभी मॉडलों ने इस कार्य में कम प्रदर्शन दिखाया।

खासकर, paths की संख्या बढ़ने पर प्रदर्शन तेज़ी से गिर गया। इससे पता चलता है कि VLM single-color paths का अनुसरण करने में कठिनाई झेलते हैं। मॉडलों के बीच प्रदर्शन का यह बड़ा अंतर भी संकेत देता है कि उनकी visual processing क्षमता अलग-अलग है।

प्रयोग के परिणाम

सभी VLM ने सरल visual tasks में भी कम सटीकता दिखाई। विशेष रूप से, line segment intersections गिनना, दो circles की स्थिति की जाँच करना, और circle किए गए अक्षरों की पहचान जैसे कार्यों में बहुत कम प्रदर्शन देखा गया। इससे संकेत मिलता है कि VLM सूक्ष्म visual जानकारी को सही तरह से पहचान नहीं पाते। साथ ही, overlapping shapes गिनना, nested squares गिनना, grid matrix गिनना, और single-color path का अनुसरण करना जैसे कार्यों में भी लगातार कम प्रदर्शन देखा गया।

कुल मिलाकर, प्रयोगों से यह पुष्टि हुई कि VLM की visual recognition क्षमता सीमित है। ये परिणाम दिखाते हैं कि मानव-स्तर की visual recognition क्षमता हासिल करने के लिए VLM में अभी और सुधार की आवश्यकता है।

संबंधित शोध और निष्कर्ष

मौजूदा VLM benchmarks मुख्य रूप से उच्च-स्तरीय visual understanding क्षमता के मूल्यांकन पर केंद्रित हैं। लेकिन BlindTest बुनियादी visual recognition क्षमता का मूल्यांकन करने वाला पहला benchmark है, जो स्पष्ट रूप से दिखाता है कि सरल visual tasks में VLM की क्या सीमाएँ हैं।

उदाहरण के लिए, MMMU, AI2D, MathVista, ChartQA, DocVQA, ActivityNet-QA, EgoSchema जैसे benchmarks केवल VLM के समग्र प्रदर्शन को मापते हैं, लेकिन उनकी विशिष्ट सीमाओं को स्पष्ट रूप से नहीं दिखा पाते। इसलिए BlindTest, VLM की visual recognition क्षमता का अधिक सटीक मूल्यांकन करने के लिए एक महत्वपूर्ण tool है। साथ ही, BlindTest यह जाँचने का भी एक महत्वपूर्ण मानदंड होगा कि VLM इंसानों की तरह images को पहचान पाते हैं या नहीं।

BlindTest कार्यों में खराब प्रदर्शन यह संकेत देता है कि वर्तमान VLM अभी भी उन बुनियादी visual recognition tasks में दक्ष नहीं हैं जिनमें सटीक spatial understanding की आवश्यकता होती है। यह सीमा दिखाती है कि मॉडल language processing क्षमता पर निर्भर रहने की प्रवृत्ति रखते हैं, जो visual recognition के लिए उपयुक्त नहीं हो सकती। ये परिणाम VLM की visual capabilities को बेहतर बनाने के लिए आगे और शोध तथा विकास की आवश्यकता पर ज़ोर देते हैं।

भविष्य के शोध में VLM की visual perception क्षमता को बेहतर बनाने के लिए नए approaches की ज़रूरत है। उदाहरण के लिए, early fusion approach का उपयोग करके vision module को बेहतर बनाया जा सकता है। साथ ही, training data में विविधता लाने की भी आवश्यकता है ताकि VLM साधारण visual tasks में बेहतर प्रदर्शन कर सके। इन प्रयासों के माध्यम से VLM की visual perception क्षमता को बेहतर बनाया जा सकता है।

📜 VLMs are Blind पेपर पढ़ें

https://arxiv.org/abs/2407.06581

🏠 VLMs are Blind प्रोजेक्ट होमपेज

https://vlmsareblind.github.io/

BlindTest GitHub रिपॉज़िटरी

https://github.com/anguyen8/vision-llms-are-blind

🤗 BlindTest डेटासेट

https://huggingface.co/datasets/XAI/vlmsareblind

और पढ़ें


यह लेख GPT मॉडल से संक्षेपित सामग्री पर आधारित है, इसलिए संभव है कि इसमें मूल लेख की सामग्री या आशय से अलग ढंग से प्रस्तुत बातें हों। यदि यह विषय आपकी रुचि का है, तो कृपया मूल लेख भी साथ में देखें। पढ़ते समय यदि आपको कोई अटपटी या गलत बात दिखे, तो कृपया टिप्पणी में बताएं। 🤗

⚠️विज्ञापन⚠️: 🔥PyTorch Korea User Group🇰🇷 द्वारा तैयार किया गया यह लेख क्या आपके लिए उपयोगी था? सदस्य के रूप में जुड़ें, और हम आपको प्रमुख लेख ईमेल💌 से भेजेंगे! (डिफ़ॉल्ट रूप से Weekly, लेकिन Daily में भी बदला जा सकता है.)

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.