Dragonfly - मल्टी-रेज़ोल्यूशन ज़ूम सक्षम बड़े vision-language मॉडल

xguru · 2024-06-10T10:10:02+09:00

उच्च-रेज़ोल्यूशन इमेज को कई छोटे क्षेत्रों में विभाजित करके विश्लेषण करने वाला vision-language आर्किटेक्चर मॉडल, जो सूक्ष्म समझ और रीजनिंग को सक्षम बनाता है Llama-3-8b-Dragonfly-v1 (सामान्य डोमेन), Llama-3-8b-Dragonfly-Med-v1 (मेडिकल डोमेन) सहित 2 ओपन सोर्स मॉडल जारी किए गए Llama-3-8b-Dragonfly-v1 को 55 लाख image-instruction pair पर ट्रेन किया गया, और Llama-3-8b-Dragonfly-Med-v1 को अतिरिक्त 14 लाख मेडिकल image-instruction पर fine-tune किया गया Dragonfly ने visual common-sense reasoning, image captioning जैसे बेंचमार्क में उत्कृष्ट प्रदर्शन दिखाया Dragonfly-Med ने मेडिकल इमेज समझ के क्षेत्र में Med-Gemini जैसे मौजूदा मॉडलों को पीछे छोड़ा Dragonfly आर्किटेक्चर मल्टी-रेज़ोल्यूशन विज़ुअल एन्कोडिंग (Multi-resolution Visual Encoding): इमेज को low/mid/high resolution में प्रोसेस करता है हर इमेज को उसके resolution के अनुसार कई sub-image में बांटकर उन्हें visual token के रूप में encode करता है encoded token को language space में project करके concatenate किए गए sequence को LLM के input के रूप में देता है इससे बड़े इमेज को कुशलता से प्रोसेस किया जा सकता है और visual data processing की granularity बढ़ाई जा सकती है Zoom-in Patch Selection: high-resolution इमेज में महत्वपूर्ण visual detail पर फोकस करने के लिए selective approach केवल महत्वपूर्ण high-resolution sub-image को चुनकर उपयोग करने वाली एक नई zoom-in patch selection रणनीति का उपयोग mid/high-resolution sub-image के summary embedding की तुलना करके सबसे अधिक संबंधित patch ही चुना जाता है इससे redundancy कम होती है और मुख्य content area पर फोकस बढ़ता है, जिससे मॉडल की समग्र दक्षता और सूक्ष्म क्षेत्र-समझ बेहतर होती है इन दो रणनीतियों के जरिए इमेज क्षेत्रों के सूक्ष्म विवरण पर अधिक ध्यान दिया जाता है और common-sense reasoning क्षमता बेहतर होती है। सूक्ष्म जानकारी पकड़ने के लिए अनुकूलित होने के बावजूद, VQA, image captioning जैसे सामान्य इमेज समझ बेंचमार्क में अच्छा zero-shot प्रदर्शन दिखाता है। Dragonfly मॉडल प्रदर्शन मूल्यांकन AI2D, ScienceQA, MMMU, MMVet, POPE सहित 5 vision-language बेंचमार्क पर मूल्यांकन किया गया AI2D, ScienceQA: विज्ञान डोमेन में visual common-sense reasoning का मूल्यांकन MMMU, MMVet: vision-language क्षमताओं का समग्र मूल्यांकन POPE: object-level hallucination का मूल्यांकन अन्य प्रसिद्ध vision-language मॉडलों के मुकाबले प्रतिस्पर्धी और उत्कृष्ट प्रदर्शन दिखाया Dragonfly-Med प्रदर्शन Stanford Medicine के सहयोग से Dragonfly का वह संस्करण, जिसे 14 लाख मेडिकल image-instruction पर अतिरिक्त ट्रेनिंग दी गई VQA-RAD, SLAKE, Path-VQA जैसे visual question answering बेंचमार्क में Med-Gemini जैसे मौजूदा मॉडलों से बेहतर प्रदर्शन IU X-Ray, Peir Gross, ROCO, MIMIC CXR जैसे मेडिकल image captioning बेंचमार्क में भी SOTA-स्तरीय प्रदर्शन दिखाया आगे की योजना LLaMA3-8B-Instruct को backbone बनाकर नई आर्किटेक्चर और visual encoding रणनीतियों आदि की खोज करने की योजना अधिक विविध वैज्ञानिक क्षेत्रों तक उपयोग का दायरा बढ़ाकर ओपन सोर्स मल्टीमॉडल रिसर्च में योगदान देने का उद्देश्य

(together.ai)

4 पॉइंट द्वारा xguru 2024-06-10 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

उच्च-रेज़ोल्यूशन इमेज को कई छोटे क्षेत्रों में विभाजित करके विश्लेषण करने वाला vision-language आर्किटेक्चर मॉडल, जो सूक्ष्म समझ और रीजनिंग को सक्षम बनाता है
Llama-3-8b-Dragonfly-v1 (सामान्य डोमेन), Llama-3-8b-Dragonfly-Med-v1 (मेडिकल डोमेन) सहित 2 ओपन सोर्स मॉडल जारी किए गए
Llama-3-8b-Dragonfly-v1 को 55 लाख image-instruction pair पर ट्रेन किया गया, और Llama-3-8b-Dragonfly-Med-v1 को अतिरिक्त 14 लाख मेडिकल image-instruction पर fine-tune किया गया
Dragonfly ने visual common-sense reasoning, image captioning जैसे बेंचमार्क में उत्कृष्ट प्रदर्शन दिखाया
Dragonfly-Med ने मेडिकल इमेज समझ के क्षेत्र में Med-Gemini जैसे मौजूदा मॉडलों को पीछे छोड़ा

Dragonfly आर्किटेक्चर

मल्टी-रेज़ोल्यूशन विज़ुअल एन्कोडिंग (Multi-resolution Visual Encoding):
- इमेज को low/mid/high resolution में प्रोसेस करता है
- हर इमेज को उसके resolution के अनुसार कई sub-image में बांटकर उन्हें visual token के रूप में encode करता है
- encoded token को language space में project करके concatenate किए गए sequence को LLM के input के रूप में देता है
- इससे बड़े इमेज को कुशलता से प्रोसेस किया जा सकता है और visual data processing की granularity बढ़ाई जा सकती है
Zoom-in Patch Selection:
- high-resolution इमेज में महत्वपूर्ण visual detail पर फोकस करने के लिए selective approach
- केवल महत्वपूर्ण high-resolution sub-image को चुनकर उपयोग करने वाली एक नई zoom-in patch selection रणनीति का उपयोग
- mid/high-resolution sub-image के summary embedding की तुलना करके सबसे अधिक संबंधित patch ही चुना जाता है
- इससे redundancy कम होती है और मुख्य content area पर फोकस बढ़ता है, जिससे मॉडल की समग्र दक्षता और सूक्ष्म क्षेत्र-समझ बेहतर होती है
इन दो रणनीतियों के जरिए इमेज क्षेत्रों के सूक्ष्म विवरण पर अधिक ध्यान दिया जाता है और common-sense reasoning क्षमता बेहतर होती है।
सूक्ष्म जानकारी पकड़ने के लिए अनुकूलित होने के बावजूद, VQA, image captioning जैसे सामान्य इमेज समझ बेंचमार्क में अच्छा zero-shot प्रदर्शन दिखाता है।

Dragonfly मॉडल प्रदर्शन मूल्यांकन

AI2D, ScienceQA, MMMU, MMVet, POPE सहित 5 vision-language बेंचमार्क पर मूल्यांकन किया गया
- AI2D, ScienceQA: विज्ञान डोमेन में visual common-sense reasoning का मूल्यांकन
- MMMU, MMVet: vision-language क्षमताओं का समग्र मूल्यांकन
- POPE: object-level hallucination का मूल्यांकन
अन्य प्रसिद्ध vision-language मॉडलों के मुकाबले प्रतिस्पर्धी और उत्कृष्ट प्रदर्शन दिखाया

Dragonfly-Med प्रदर्शन

Stanford Medicine के सहयोग से Dragonfly का वह संस्करण, जिसे 14 लाख मेडिकल image-instruction पर अतिरिक्त ट्रेनिंग दी गई
VQA-RAD, SLAKE, Path-VQA जैसे visual question answering बेंचमार्क में Med-Gemini जैसे मौजूदा मॉडलों से बेहतर प्रदर्शन
IU X-Ray, Peir Gross, ROCO, MIMIC CXR जैसे मेडिकल image captioning बेंचमार्क में भी SOTA-स्तरीय प्रदर्शन दिखाया

आगे की योजना

LLaMA3-8B-Instruct को backbone बनाकर नई आर्किटेक्चर और visual encoding रणनीतियों आदि की खोज करने की योजना
अधिक विविध वैज्ञानिक क्षेत्रों तक उपयोग का दायरा बढ़ाकर ओपन सोर्स मल्टीमॉडल रिसर्च में योगदान देने का उद्देश्य