Ferret - Apple का मल्टीमॉडल LLM
(github.com/apple)- MLLM(Multimodal Large Language Model)
- इमेज के भीतर सभी प्रकार के और सूक्ष्म spatial references को समझता है
- मुख्य योगदान
- Ferret Model: hybrid region representation + spatially aware visual sampler
- GRIT dataset: बड़े पैमाने का, hierarchical, robust instruction-tuning dataset. इसमें 11 लाख samples और 9.5 लाख hard negative data शामिल हैं
- Ferret Bench: multimodal evaluation benchmark (Referring/Grounding + Semantics + Knowledge + Reasoning की संयुक्त मांग)
अभी कोई टिप्पणी नहीं है.