लोकल LLM का उपयोग करके इमेज के alt-text जनरेशन की तुलना

(dri.es)

3 पॉइंट द्वारा GN⁺ 2025-03-13 | 1 टिप्पणियां | WhatsApp पर शेयर करें

ब्लॉग में संग्रहीत 10,000 तस्वीरों में से लगभग 9,000 में alt-text नहीं था
इसके लिए 12 LLMs (large language models) का परीक्षण किया गया, जिनमें 10 लोकल पर चलाए गए और 2 cloud-based models (GPT-4, Claude 3.5 Sonnet) थे
alt-text लिखना दृष्टिबाधित लोगों के लिए accessibility बढ़ाने का महत्वपूर्ण काम है, लेकिन इसे मैन्युअली लिखना काफी बोझिल है
लक्ष्य यह जांचना था कि AI models alt-text कितनी सटीकता से बना सकते हैं, और क्या लोकल models एक व्यावहारिक विकल्प हो सकते हैं

परीक्षण किए गए AI मॉडल

लोकल मॉडल (10)
- 9 मॉडल MacBook Pro (32GB RAM) पर चलाए गए
- 1 मॉडल एक दोस्त के high-end hardware पर चलाया गया
क्लाउड मॉडल (2)
- GPT-4o(OpenAI)
- Claude 3.5 Sonnet(Anthropic)

मुख्य प्रदर्शन तुलना

क्लाउड मॉडल (GPT-4o, Claude 3.5 Sonnet)
- सबसे सटीक alt-text बनाया
- बारीक विवरण बहुत अच्छे थे और इमेज का मूड भी अच्छी तरह पकड़ लिया
- मूल्यांकन ग्रेड: A
लोकल मॉडलों में बेहतर प्रदर्शन करने वाले मॉडल
- Llama 3.2 Vision 11B
  - ऑब्जेक्ट पहचान और संदर्भ समझने की क्षमता अच्छी
  - मूल्यांकन ग्रेड: B
- Llama 3.2 Vision 90B
  - 11B मॉडल से थोड़ी अधिक सटीकता दिखाई, लेकिन इसे चलाने के लिए अधिक RAM चाहिए
  - मूल्यांकन ग्रेड: B
- MiniCPM-V
  - अपेक्षाकृत हल्का मॉडल होने के बावजूद मजबूत प्रदर्शन दिखाया
  - मूल्यांकन ग्रेड: B
कम प्रदर्शन वाले मॉडल
- VIT-GPT2, GIT, BLIP जैसे शुरुआती मॉडलों में ऑब्जेक्ट पहचान कम सटीक थी और वे दोहराव वाली पंक्तियाँ बनाने की प्रवृत्ति रखते थे
- मूल्यांकन ग्रेड: D~F

AI मॉडल इमेज का विश्लेषण कैसे करते हैं

Vision Encoding
- इमेज को छोटे patches में बाँटकर उन्हें numerical data (embeddings) में बदला जाता है
- ध्यान देने योग्य हिस्सों (जैसे प्रमुख ऑब्जेक्ट) को फ़िल्टर किया जाता है और कम महत्वपूर्ण तत्वों (जैसे साधारण background) को हटाया जाता है
Language Encoding
- vision encoder से मिली जानकारी के आधार पर natural language text बनाया जाता है
- इमेज विवरण लिखने या सवालों के जवाब देने के रूप में text जनरेट किया जाता है

टेस्ट इमेज और परिणाम

शिबुया क्रॉसिंग (टोक्यो)
- GPT-4o, Claude: "neon signs और भीड़ से भरा शिबुया क्रॉसिंग" → A ग्रेड
- LLaVA 13B: "शिबुया क्रॉसिंग पर सड़क पार करते लोग" → A ग्रेड
- Llama 3.2 Vision 11B: "टोक्यो का व्यस्त रात का दृश्य, बिलबोर्ड और भीड़" → C ग्रेड
- VIT-GPT2: "ऊँची इमारतों और ट्रैफिक लाइट वाला शहरी रात का दृश्य" → F ग्रेड (असटीक)
Isabella Stewart Gardner Museum (Boston)
- Claude: "Victorian शैली का कमरा, chandelier, gold-leaf frames" → B ग्रेड
- Llama 3.2 Vision 11B: "gold-leaf frames और सजावटी background" → A ग्रेड
- BLIP-2 OPT: "दीवार पर टंगी पेंटिंग और फ्रेम वाला कमरा" → C ग्रेड
- VIT-GPT2: "आईने के सामने मोमबत्तियों और फूलदान वाला drawing room" → F ग्रेड (असटीक)
Wakeboarding (Vermont, USA)
- GPT-4o: "नाव पर खड़े दो लोग wakeboarder को देखते हुए" → A ग्रेड
- Llama 3.2 Vision 90B: "नाव पर wakeboarding देखते दो लोग" → A ग्रेड
- BLIP-2 FLAN: "नाव पर कोई व्यक्ति surfing देख रहा है" → C ग्रेड
- VIT-GPT2: "surfboard पकड़े दो लोग नाव पर खड़े हैं" → E ग्रेड (असटीक)

मूल्यांकन परिणाम

क्लाउड मॉडल (GPT-4o, Claude 3.5 Sonnet): A ग्रेड
- सबसे सटीक विवरण दिए और माहौल भी पकड़ा
लोकल मॉडलों में शीर्ष श्रेणी (Llama 11B, Llama 90B, MiniCPM-V): B ग्रेड
- सटीकता cloud models से कुछ कम थी, लेकिन व्यावहारिक उपयोग संभव है
शुरुआती मॉडल (VIT-GPT2, GIT, BLIP आदि): D~F ग्रेड
- दोहराव वाली अभिव्यक्ति और hallucination देखी गई

आगे विचार करने योग्य बातें

अगर `alt`-text परफेक्ट न हो, तो क्या वह बिल्कुल न होने से बेहतर है?

B ग्रेड स्तर का alt-text भी शायद न होने से बेहतर हो सकता है
हालांकि, गलत जानकारी (जैसे मौजूद न होने वाले ऑब्जेक्ट जोड़ना) दृष्टिबाधित उपयोगकर्ताओं को भ्रमित कर सकती है

अगले चरण के विकल्प

AI outputs को मिलाना
- कई मॉडलों को मिलाकर सबसे सटीक विवरण बनाना
अपग्रेड का इंतज़ार करना
- अभी के सबसे अच्छे लोकल मॉडल का उपयोग करना और 6~12 महीनों बाद नए मॉडल पर अपडेट करना
क्लाउड मॉडल का उपयोग
- सटीकता के लिए cloud-based model का उपयोग, लेकिन लागत और data privacy समस्या हो सकती है
हाइब्रिड approach
- AI-जनरेटेड alt-text को इंसान द्वारा review करके सुधारना (लेकिन 9,000 तस्वीरों पर लागू करना व्यवहारिक रूप से कठिन)

अभी सबसे उचित विकल्प शायद लोकल मॉडल का उपयोग करते हुए, भविष्य में अधिक उन्नत मॉडलों पर अपडेट करना है

1 टिप्पणियां

quilt8703 2025-03-14

मैं Twitter आदि पर पोस्ट की जाने वाली इमेजों के साथ alt-text जोड़ता हूँ, और कभी-कभी सोचता था कि अगर यह काम AI से हो जाए तो मेरे लिए पोस्ट करना थोड़ा आसान हो जाएगा। मुझे पक्का नहीं था कि इसके लिए LLM की ज़रूरत है भी या नहीं; CLIP जैसी तकनीकें ही शायद काफी होतीं.

मैंने वह काम नहीं किया, उसका एक कारण यह भी था कि ऐसा फीचर screen reader की तरफ़ काफ़ी अच्छी तरह जोड़ा जा सकता है, और मुझे लगा कि इंसान जो context दे सकता है, उसमें थोड़ा भी और जोड़ना ज़्यादा सही होगा। बेशक, सबसे बड़ा कारण तो आलस ही था.