- GPT-4 की तरह image/text input को साथ में process कर सकने वाले multi modal system को विकसित करना इसका लक्ष्य है
- इसके लिए image/video/text को process और inference करने वाले LMM (Large Multimodal Model), DeepMind के Flamingo मॉडल का open source implementation बनाया गया है
- पहले release में शामिल चीज़ें
- Flamingo-स्टाइल LMM को train करने के लिए Python framework
- image/text interleaved बड़े multimodal dataset
- vision-language tasks के लिए in-context learning evaluation benchmark
- LLaMA-आधारित OpenFlamingo-9B मॉडल
- चूंकि Flamingo का training dataset सार्वजनिक नहीं है, इसलिए LAION-2B के Multimodal C4 dataset और 1 करोड़ samples में से 50 लाख samples निकालकर training की गई
1 टिप्पणियां
Flamingo: Few-Shot Learning के लिए Visual Language Model