- LLM की zero-shot performance अच्छी होने के लिए high-quality instruction set ज़रूरी है, और VLM (visual-language model) के लिए भी यही बात लागू होती है
- लेकिन मौजूदा vision-language instruction set मात्रा/विविधता/रचनात्मकता के लिहाज़ से बहुत सीमित हैं
- MIMIC-IT (MultI-Modal In-Context Instruction Tuning) प्रस्तुत किया गया
- image और video से लिए गए 22 लाख unique instructions और 28 लाख multimodal instruction-response pairs से बना dataset
- MIMIC-IT dataset पर प्रशिक्षित large-scale VLM ही Otter है
- 8 भाषाओं का समर्थन: English, Chinese, Korean, Japanese, German, French, Spanish, Arabic
अभी कोई टिप्पणी नहीं है.