- GPT-4 में डेमो किए गए जैसा नया vision-language capability प्रदान करता है
- इमेज का विस्तार से वर्णन कर सकता है, खाने की फोटो से रेसिपी बता सकता है, समस्याएँ ढूँढ़ सकता है, ad copy बना सकता है, या इमेज से प्रेरित कहानी और कविता लिख सकता है
- सिर्फ एक projection layer का उपयोग करके BLIP-2 और Vicuna को जोड़ने भर से शानदार performance दिखाता है
- इसे 2 चरणों में train किया गया
- 50 लाख image-text pairs को 4 A100 पर 10 घंटे तक train किया गया। केवल इस चरण में Vicuna इमेज समझ लेता है, लेकिन generation क्षमता पर काफ़ी असर पड़ता है
- इस समस्या को हल करने और usability सुधारने के लिए, मॉडल स्वयं और ChatGPT को साथ उपयोग करके high-quality image-text pairs बनाने की नई विधि प्रस्तावित की गई
- इसके आधार पर छोटे पैमाने का high-quality dataset (कुल 3500 pairs) बनाया गया
- दूसरे fine-tuning चरण में, इस छोटे dataset को conversational templates के साथ train किया गया ताकि generation की reliability और overall usability बेहतर हो
- आश्चर्यजनक रूप से यह चरण computationally efficient है और एक A100 पर सिर्फ 7 मिनट लेता है
अभी कोई टिप्पणी नहीं है.