• MLLM(Multimodal Large Language Model)
    • इमेज के भीतर सभी प्रकार के और सूक्ष्म spatial references को समझता है
  • मुख्य योगदान
    • Ferret Model: hybrid region representation + spatially aware visual sampler
    • GRIT dataset: बड़े पैमाने का, hierarchical, robust instruction-tuning dataset. इसमें 11 लाख samples और 9.5 लाख hard negative data शामिल हैं
    • Ferret Bench: multimodal evaluation benchmark (Referring/Grounding + Semantics + Knowledge + Reasoning की संयुक्त मांग)

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.