Otter: ऐसा मल्टीमॉडल मॉडल जिसमें context के भीतर instruction tuning संभव है

xguru · 2023-06-14T10:16:01+09:00

LLM की zero-shot performance अच्छी होने के लिए high-quality instruction set ज़रूरी है, और VLM (visual-language model) के लिए भी यही बात लागू होती है लेकिन मौजूदा vision-language instruction set मात्रा/विविधता/रचनात्मकता के लिहाज़ से बहुत सीमित हैं MIMIC-IT (MultI-Modal In-Context Instruction Tuning) प्रस्तुत किया गया image और video से लिए गए 22 लाख unique instructions और 28 लाख multimodal instruction-response pairs से बना dataset MIMIC-IT dataset पर प्रशिक्षित large-scale VLM ही Otter है 8 भाषाओं का समर्थन: English, Chinese, Korean, Japanese, German, French, Spanish, Arabic

(github.com/Luodian)

6 पॉइंट द्वारा xguru 2023-06-14 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

LLM की zero-shot performance अच्छी होने के लिए high-quality instruction set ज़रूरी है, और VLM (visual-language model) के लिए भी यही बात लागू होती है
लेकिन मौजूदा vision-language instruction set मात्रा/विविधता/रचनात्मकता के लिहाज़ से बहुत सीमित हैं
MIMIC-IT (MultI-Modal In-Context Instruction Tuning) प्रस्तुत किया गया
image और video से लिए गए 22 लाख unique instructions और 28 लाख multimodal instruction-response pairs से बना dataset
MIMIC-IT dataset पर प्रशिक्षित large-scale VLM ही Otter है
8 भाषाओं का समर्थन: English, Chinese, Korean, Japanese, German, French, Spanish, Arabic

Otter: ऐसा मल्टीमॉडल मॉडल जिसमें context के भीतर instruction tuning संभव है

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.