• उच्च-रेज़ोल्यूशन इमेज को कई छोटे क्षेत्रों में विभाजित करके विश्लेषण करने वाला vision-language आर्किटेक्चर मॉडल, जो सूक्ष्म समझ और रीजनिंग को सक्षम बनाता है
  • Llama-3-8b-Dragonfly-v1 (सामान्य डोमेन), Llama-3-8b-Dragonfly-Med-v1 (मेडिकल डोमेन) सहित 2 ओपन सोर्स मॉडल जारी किए गए
  • Llama-3-8b-Dragonfly-v1 को 55 लाख image-instruction pair पर ट्रेन किया गया, और Llama-3-8b-Dragonfly-Med-v1 को अतिरिक्त 14 लाख मेडिकल image-instruction पर fine-tune किया गया
  • Dragonfly ने visual common-sense reasoning, image captioning जैसे बेंचमार्क में उत्कृष्ट प्रदर्शन दिखाया
  • Dragonfly-Med ने मेडिकल इमेज समझ के क्षेत्र में Med-Gemini जैसे मौजूदा मॉडलों को पीछे छोड़ा

Dragonfly आर्किटेक्चर

  • मल्टी-रेज़ोल्यूशन विज़ुअल एन्कोडिंग (Multi-resolution Visual Encoding):

    • इमेज को low/mid/high resolution में प्रोसेस करता है
    • हर इमेज को उसके resolution के अनुसार कई sub-image में बांटकर उन्हें visual token के रूप में encode करता है
    • encoded token को language space में project करके concatenate किए गए sequence को LLM के input के रूप में देता है
    • इससे बड़े इमेज को कुशलता से प्रोसेस किया जा सकता है और visual data processing की granularity बढ़ाई जा सकती है
  • Zoom-in Patch Selection:

    • high-resolution इमेज में महत्वपूर्ण visual detail पर फोकस करने के लिए selective approach
    • केवल महत्वपूर्ण high-resolution sub-image को चुनकर उपयोग करने वाली एक नई zoom-in patch selection रणनीति का उपयोग
    • mid/high-resolution sub-image के summary embedding की तुलना करके सबसे अधिक संबंधित patch ही चुना जाता है
    • इससे redundancy कम होती है और मुख्य content area पर फोकस बढ़ता है, जिससे मॉडल की समग्र दक्षता और सूक्ष्म क्षेत्र-समझ बेहतर होती है
  • इन दो रणनीतियों के जरिए इमेज क्षेत्रों के सूक्ष्म विवरण पर अधिक ध्यान दिया जाता है और common-sense reasoning क्षमता बेहतर होती है।

  • सूक्ष्म जानकारी पकड़ने के लिए अनुकूलित होने के बावजूद, VQA, image captioning जैसे सामान्य इमेज समझ बेंचमार्क में अच्छा zero-shot प्रदर्शन दिखाता है।

Dragonfly मॉडल प्रदर्शन मूल्यांकन

  • AI2D, ScienceQA, MMMU, MMVet, POPE सहित 5 vision-language बेंचमार्क पर मूल्यांकन किया गया
    • AI2D, ScienceQA: विज्ञान डोमेन में visual common-sense reasoning का मूल्यांकन
    • MMMU, MMVet: vision-language क्षमताओं का समग्र मूल्यांकन
    • POPE: object-level hallucination का मूल्यांकन
  • अन्य प्रसिद्ध vision-language मॉडलों के मुकाबले प्रतिस्पर्धी और उत्कृष्ट प्रदर्शन दिखाया

Dragonfly-Med प्रदर्शन

  • Stanford Medicine के सहयोग से Dragonfly का वह संस्करण, जिसे 14 लाख मेडिकल image-instruction पर अतिरिक्त ट्रेनिंग दी गई
  • VQA-RAD, SLAKE, Path-VQA जैसे visual question answering बेंचमार्क में Med-Gemini जैसे मौजूदा मॉडलों से बेहतर प्रदर्शन
  • IU X-Ray, Peir Gross, ROCO, MIMIC CXR जैसे मेडिकल image captioning बेंचमार्क में भी SOTA-स्तरीय प्रदर्शन दिखाया

आगे की योजना

  • LLaMA3-8B-Instruct को backbone बनाकर नई आर्किटेक्चर और visual encoding रणनीतियों आदि की खोज करने की योजना
  • अधिक विविध वैज्ञानिक क्षेत्रों तक उपयोग का दायरा बढ़ाकर ओपन सोर्स मल्टीमॉडल रिसर्च में योगदान देने का उद्देश्य

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.