• उनके प्रोडक्ट में उपयोग होने वाले मल्टीमोडल (इमेज+टेक्स्ट) मॉडल का छोटा वर्ज़न
  • आर्किटेक्चर और ट्रेनिंग प्रोसेस बहुत सरल हैं (कोई image encoder नहीं)
  • डिजिटल एजेंट्स के लिए डिज़ाइन किया गया है, इसलिए यह किसी भी इमेज resolution को सपोर्ट करता है, और ग्राफ़ व डायग्राम से जुड़े सवालों तथा UI-आधारित प्रश्नों का उत्तर दे सकता है
  • इतना तेज़ कि बड़ी इमेज के लिए भी 100ms के भीतर उत्तर जनरेट कर सकता है
  • अपने उपयोग-क्षेत्र के लिए ऑप्टिमाइज़्ड होने के बावजूद, मानक image understanding benchmark परफ़ॉर्मेंस भी शानदार है
  • CC-BY-NC लाइसेंस के तहत जारी किया गया

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.