11 पॉइंट द्वारा xguru 2023-03-31 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • GPT-4 की तरह image/text input को साथ में process कर सकने वाले multi modal system को विकसित करना इसका लक्ष्य है
  • इसके लिए image/video/text को process और inference करने वाले LMM (Large Multimodal Model), DeepMind के Flamingo मॉडल का open source implementation बनाया गया है
  • पहले release में शामिल चीज़ें
    • Flamingo-स्टाइल LMM को train करने के लिए Python framework
    • image/text interleaved बड़े multimodal dataset
    • vision-language tasks के लिए in-context learning evaluation benchmark
    • LLaMA-आधारित OpenFlamingo-9B मॉडल
  • चूंकि Flamingo का training dataset सार्वजनिक नहीं है, इसलिए LAION-2B के Multimodal C4 dataset और 1 करोड़ samples में से 50 लाख samples निकालकर training की गई