- उनके प्रोडक्ट में उपयोग होने वाले मल्टीमोडल (इमेज+टेक्स्ट) मॉडल का छोटा वर्ज़न
- आर्किटेक्चर और ट्रेनिंग प्रोसेस बहुत सरल हैं (कोई image encoder नहीं)
- डिजिटल एजेंट्स के लिए डिज़ाइन किया गया है, इसलिए यह किसी भी इमेज resolution को सपोर्ट करता है, और ग्राफ़ व डायग्राम से जुड़े सवालों तथा UI-आधारित प्रश्नों का उत्तर दे सकता है
- इतना तेज़ कि बड़ी इमेज के लिए भी 100ms के भीतर उत्तर जनरेट कर सकता है
- अपने उपयोग-क्षेत्र के लिए ऑप्टिमाइज़्ड होने के बावजूद, मानक image understanding benchmark परफ़ॉर्मेंस भी शानदार है
- CC-BY-NC लाइसेंस के तहत जारी किया गया
अभी कोई टिप्पणी नहीं है.