Ferret - Apple का मल्टीमॉडल LLM

xguru · 2023-12-28T11:21:02+09:00

MLLM(Multimodal Large Language Model) इमेज के भीतर सभी प्रकार के और सूक्ष्म spatial references को समझता है मुख्य योगदान Ferret Model: hybrid region representation + spatially aware visual sampler GRIT dataset: बड़े पैमाने का, hierarchical, robust instruction-tuning dataset. इसमें 11 लाख samples और 9.5 लाख hard negative data शामिल हैं Ferret Bench: multimodal evaluation benchmark (Referring/Grounding + Semantics + Knowledge + Reasoning की संयुक्त मांग)

(github.com/apple)

13 पॉइंट द्वारा xguru 2023-12-28 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

MLLM(Multimodal Large Language Model)
- इमेज के भीतर सभी प्रकार के और सूक्ष्म spatial references को समझता है
मुख्य योगदान
- Ferret Model: hybrid region representation + spatially aware visual sampler
- GRIT dataset: बड़े पैमाने का, hierarchical, robust instruction-tuning dataset. इसमें 11 लाख samples और 9.5 लाख hard negative data शामिल हैं
- Ferret Bench: multimodal evaluation benchmark (Referring/Grounding + Semantics + Knowledge + Reasoning की संयुक्त मांग)

Ferret - Apple का मल्टीमॉडल LLM

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.