• LLM की zero-shot performance अच्छी होने के लिए high-quality instruction set ज़रूरी है, और VLM (visual-language model) के लिए भी यही बात लागू होती है
  • लेकिन मौजूदा vision-language instruction set मात्रा/विविधता/रचनात्मकता के लिहाज़ से बहुत सीमित हैं
  • MIMIC-IT (MultI-Modal In-Context Instruction Tuning) प्रस्तुत किया गया
  • image और video से लिए गए 22 लाख unique instructions और 28 लाख multimodal instruction-response pairs से बना dataset
  • MIMIC-IT dataset पर प्रशिक्षित large-scale VLM ही Otter है
  • 8 भाषाओं का समर्थन: English, Chinese, Korean, Japanese, German, French, Spanish, Arabic

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.