विजन लैंग्वेज मॉडल दृश्य कार्यों को अच्छी तरह नहीं कर पाते
सारांश
- विजन लैंग्वेज मॉडल (VLMs) image-text processing applications में उच्च प्रदर्शन दिखाते हैं, लेकिन इंसानों के लिए बहुत आसान 7 दृश्य कार्यों में असफल होते हैं।
- यह अध्ययन दिखाता है कि VLMs की visual perception क्षमता सीमित है।
Task 1: रेखा प्रतिच्छेदों की गणना
- इमेज: दो line segments के प्रतिच्छेद वाली 150 2D line graphs बनाई गईं
- प्रश्न: "नीली और लाल रेखाएँ कितनी बार एक-दूसरे को काटती हैं?"
- परिणाम: मॉडल प्रतिच्छेदों की सही गणना नहीं कर पाए
Task 2: दो वृत्त
- इमेज: अलग-अलग आकार, दूरी और दिशा वाले दो वृत्तों की 672 इमेज बनाई गईं
- प्रश्न: "क्या दोनों वृत्त एक-दूसरे को छूते हैं?" या "क्या दोनों वृत्त एक-दूसरे पर overlap करते हैं?"
- परिणाम: मॉडल छोटी दूरी पर लगातार असफल रहे
Task 3: वृत्त से घिरे अक्षर
- इमेज: ऐसे चित्र बनाए गए जिनमें किसी शब्द के हर अक्षर को लाल वृत्त से घेरा गया
- प्रश्न: "कौन-सा अक्षर वृत्त से घिरा है?"
- परिणाम: मॉडल पास के अक्षरों का अनुमान लगाने की प्रवृत्ति दिखाते हैं
Task 4: overlap होती आकृतियों की गणना
- इमेज: Olympic logo जैसी overlap होती वृत्तों और pentagons वाली इमेज बनाई गईं
- प्रश्न: "इमेज में कितनी आकृतियाँ हैं?"
- परिणाम: मॉडल आकृतियों की संख्या सही नहीं गिन पाए
Task 5: nested rectangles की गणना
- इमेज: nested rectangles वाली इमेज बनाई गईं
- प्रश्न: "इमेज में कुल कितने rectangles हैं?"
- परिणाम: मॉडल nested rectangles की संख्या सही नहीं गिन पाए
Task 6: grid की rows और columns की गणना
- इमेज: text वाली grids और खाली grids वाली इमेज बनाई गईं
- प्रश्न: "grid में कितनी rows और columns हैं?"
- परिणाम: text वाली grids में प्रदर्शन बेहतर हुआ, लेकिन खाली grids में असफल रहे
Task 7: एकल रंग के path का पता लगाना
- इमेज: metro route maps वाली इमेज बनाई गईं
- प्रश्न: "A से C तक एक ही रंग के कितने path हैं?"
- परिणाम: मॉडल paths की संख्या सही नहीं गिन पाए
GN⁺ की टिप्पणी
- यह अध्ययन दिखाता है कि विजन लैंग्वेज मॉडल (VLMs) की visual perception क्षमता सीमित है।
- VLMs इंसानों के लिए आसान दृश्य कार्यों में लगातार असफल होते हैं।
- इससे संकेत मिलता है कि VLMs की visual perception क्षमता सुधारने के लिए और शोध की आवश्यकता है।
- समान क्षमताओं वाले अन्य प्रोजेक्ट्स में OpenAI का GPT-4 और Google का Gemini-1.5 Pro शामिल हैं।
1 टिप्पणियां
Hacker News टिप्पणी
मुझे लगता है कि निष्कर्ष गलत है
Captcha के बारे में अनुभव साझा किया गया
VLM की object counting और spatial relationships पहचानने की समस्या
मौजूदा SOTA models के प्रदर्शन पर आलोचना
VLM के image processing तरीके पर राय
मुझे लगता है कि "Vision language models are blind" शीर्षक बढ़ा-चढ़ाकर दिया गया है
model input data की व्याख्या करने के तरीके की समझ
GPT-4 के स्तर पर राय
AI को school schedule image पढ़ने में कठिनाई होती है