• "LLaVA : Large Language and Vision Assistant"
  • सामान्य visual और language understanding के लिए vision encoder और Vicuna को मिलाने वाला बड़ा multimodal model
  • multimodal GPT-4 स्तर की क्षमताओं और science question-answering में SOTA accuracy हासिल करने का लक्ष्य
  • पेपर, कोड और डेमो जारी

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.