2 पॉइंट द्वारा GN⁺ 2024-07-11 | 1 टिप्पणियां | WhatsApp पर शेयर करें

विजन लैंग्वेज मॉडल दृश्य कार्यों को अच्छी तरह नहीं कर पाते

सारांश

  • विजन लैंग्वेज मॉडल (VLMs) image-text processing applications में उच्च प्रदर्शन दिखाते हैं, लेकिन इंसानों के लिए बहुत आसान 7 दृश्य कार्यों में असफल होते हैं।
  • यह अध्ययन दिखाता है कि VLMs की visual perception क्षमता सीमित है।

Task 1: रेखा प्रतिच्छेदों की गणना

  • इमेज: दो line segments के प्रतिच्छेद वाली 150 2D line graphs बनाई गईं
  • प्रश्न: "नीली और लाल रेखाएँ कितनी बार एक-दूसरे को काटती हैं?"
  • परिणाम: मॉडल प्रतिच्छेदों की सही गणना नहीं कर पाए

Task 2: दो वृत्त

  • इमेज: अलग-अलग आकार, दूरी और दिशा वाले दो वृत्तों की 672 इमेज बनाई गईं
  • प्रश्न: "क्या दोनों वृत्त एक-दूसरे को छूते हैं?" या "क्या दोनों वृत्त एक-दूसरे पर overlap करते हैं?"
  • परिणाम: मॉडल छोटी दूरी पर लगातार असफल रहे

Task 3: वृत्त से घिरे अक्षर

  • इमेज: ऐसे चित्र बनाए गए जिनमें किसी शब्द के हर अक्षर को लाल वृत्त से घेरा गया
  • प्रश्न: "कौन-सा अक्षर वृत्त से घिरा है?"
  • परिणाम: मॉडल पास के अक्षरों का अनुमान लगाने की प्रवृत्ति दिखाते हैं

Task 4: overlap होती आकृतियों की गणना

  • इमेज: Olympic logo जैसी overlap होती वृत्तों और pentagons वाली इमेज बनाई गईं
  • प्रश्न: "इमेज में कितनी आकृतियाँ हैं?"
  • परिणाम: मॉडल आकृतियों की संख्या सही नहीं गिन पाए

Task 5: nested rectangles की गणना

  • इमेज: nested rectangles वाली इमेज बनाई गईं
  • प्रश्न: "इमेज में कुल कितने rectangles हैं?"
  • परिणाम: मॉडल nested rectangles की संख्या सही नहीं गिन पाए

Task 6: grid की rows और columns की गणना

  • इमेज: text वाली grids और खाली grids वाली इमेज बनाई गईं
  • प्रश्न: "grid में कितनी rows और columns हैं?"
  • परिणाम: text वाली grids में प्रदर्शन बेहतर हुआ, लेकिन खाली grids में असफल रहे

Task 7: एकल रंग के path का पता लगाना

  • इमेज: metro route maps वाली इमेज बनाई गईं
  • प्रश्न: "A से C तक एक ही रंग के कितने path हैं?"
  • परिणाम: मॉडल paths की संख्या सही नहीं गिन पाए

GN⁺ की टिप्पणी

  • यह अध्ययन दिखाता है कि विजन लैंग्वेज मॉडल (VLMs) की visual perception क्षमता सीमित है।
  • VLMs इंसानों के लिए आसान दृश्य कार्यों में लगातार असफल होते हैं।
  • इससे संकेत मिलता है कि VLMs की visual perception क्षमता सुधारने के लिए और शोध की आवश्यकता है।
  • समान क्षमताओं वाले अन्य प्रोजेक्ट्स में OpenAI का GPT-4 और Google का Gemini-1.5 Pro शामिल हैं।

1 टिप्पणियां

 
GN⁺ 2024-07-11
Hacker News टिप्पणी
  • मुझे लगता है कि निष्कर्ष गलत है

    • "निकट दृष्टि वाले व्यक्ति की दृष्टि" वाली उपमा बढ़ा-चढ़ाकर कही गई है
    • ऐसे उदाहरण मौजूद हैं जहाँ GPT-4v बारीक visual tasks अच्छी तरह करता है
    • बड़े GenAI models जब बहुत सारा data सीखते हैं तो उनका performance अच्छा होता है
    • लेखकों द्वारा दिए गए सबूत पर्याप्त नहीं हैं
  • Captcha के बारे में अनुभव साझा किया गया

    • GPT-4o ने garage door वाली समस्या हल करने में मदद की
    • उसने फोटो में गलत installation की पहचान की, लेकिन छूटा हुआ nut नहीं देख पाया
  • VLM की object counting और spatial relationships पहचानने की समस्या

    • Microsoft का Set of Marks मददगार हो सकता है
    • "बोले जा सकने वाले" labels देना performance सुधारने में योगदान देता है
  • मौजूदा SOTA models के प्रदर्शन पर आलोचना

    • वे उन tasks में fail हो जाते हैं जो इंसानों के लिए आसान हैं
    • उदाहरण: line intersections की संख्या गिनना, circle overlaps पहचानना आदि
  • VLM के image processing तरीके पर राय

    • इंसान किसी खास क्षेत्र पर ध्यान केंद्रित कर सकते हैं, लेकिन VLM पूरी image को एक ही resolution पर process करता है
    • interaction data से models को train करने के तरीकों को लेकर जिज्ञासा
  • मुझे लगता है कि "Vision language models are blind" शीर्षक बढ़ा-चढ़ाकर दिया गया है

    • VLM image inputs को अलग तरीके से process करते हैं
    • low resolution पर वे details मिस कर सकते हैं
    • उदाहरण के तौर पर Sonnet 3.5 का जवाब कुल मिलाकर सही था, लेकिन उसमें कुछ गलतियाँ थीं
  • model input data की व्याख्या करने के तरीके की समझ

    • LLM और multimodal models में ठोस reasoning क्षमता की कमी है
    • उदाहरण: ChatGPT text summarization अच्छी तरह करता है, लेकिन word counting में कमजोर है
    • AGI development की मुख्य समस्या high-level और low-level intelligence को जोड़ना है
  • GPT-4 के स्तर पर राय

    • Mira Murati के इस कथन का उद्धरण कि GPT-4 high school स्तर का है
  • AI को school schedule image पढ़ने में कठिनाई होती है

    • किसी खास तारीख के बारे में पूछने पर कुछ सही बताता है, लेकिन कुछ छूट जाते हैं या नई तारीखें गढ़ लेता है
    • noise हटाने पर performance थोड़ा बेहतर होता है, लेकिन फिर भी भरोसेमंद नहीं है