LLaVA: Visual Instruction Tuning
(llava-vl.github.io)- "LLaVA : Large Language and Vision Assistant"
- सामान्य visual और language understanding के लिए vision encoder और Vicuna को मिलाने वाला बड़ा multimodal model
- multimodal GPT-4 स्तर की क्षमताओं और science question-answering में SOTA accuracy हासिल करने का लक्ष्य
- पेपर, कोड और डेमो जारी
अभी कोई टिप्पणी नहीं है.