- एक सामान्य-purpose format को पहचानने वाला, context से सीखने वाला (few-shot), और निर्देशों का पालन करने वाला (zero-shot) Multimodal Large Language Model (MLLM)
- यह मॉडल text, image, और image-caption pair आदि पर train किया गया है, और नीचे दिए गए कार्यों में प्रभावशाली प्रदर्शन दिखाता है
- language understanding, generation, और OCR के बिना NLP (document image से direct recognition)
- multimodal conversation, image captioning, visual question answering
- description सहित image recognition (text निर्देशों के माध्यम से classification specification) जैसे vision tasks
- cross-modal transfer (language से multimodal की ओर, और multimodal से language की ओर knowledge transfer) के माध्यम से MLLM लाभ प्राप्त कर सकता है
1 टिप्पणियां
Repo : https://github.com/microsoft/unilm