Apple द्वारा Multimodal LLM MM1 पर प्रकाशित पेपर का सारांश
(discuss.pytorch.kr)Apple ने MM1 नाम के एक multimodal LLM पर अपने शोध परिणाम सार्वजनिक किए हैं। (मॉडल कोड या weights जारी नहीं किए गए हैं, और लगता है कि आगे भी नहीं किए जाएंगे)
Image Encoder, VL-Connector, और dataset तथा training method जैसी चीज़ों पर, जो लोग खुद मॉडल train या tune करते हैं उनके लिए इसे एक बार देखना उपयोगी हो सकता है, इसलिए ChatGPT के साथ मिलकर तैयार किया गया यह सारांश साझा कर रहा हूँ।
मूल लेख arXiv साइट पर 'MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training' में देखा जा सकता है।
Encoder lesson: image resolution का प्रभाव सबसे अधिक है, इसके बाद model size और training data composition का स्थान आता है।
Encoder lesson: Image resolution has the highest impact, followed by model size and training data composition.
VL connector lesson: visual tokens की संख्या और image resolution सबसे महत्वपूर्ण हैं, जबकि VL connector के type का प्रभाव लगभग नहीं के बराबर है।
VL Connector Lesson: Number of visual tokens and image resolution matters most, while the type of VL connector has little effect.
Data lesson 1: interleaved data, few-shot और text-only performance के लिए उपयोगी है, जबकि captioning data zero-shot performance को बेहतर बनाता है।
Data lesson 1: interleaved data is instrumental for few-shot and textonly performance, while captioning data lifts zero-shot performance.
Data lesson 2: text-only data, few-shot और text-only performance में मदद करता है।
Data lesson 2: text-only data helps with few-shot and text-only performance.
Data lesson 3: image data और text data को सावधानी से मिलाने पर बेहतर multimodal performance मिल सकती है और मजबूत text performance भी बरकरार रहती है।
Data lesson 3: Careful mixture of image and text data can yield optimal multimodal performance and retain strong text performance.
Data lesson 4: synthetic data, few-shot learning में मदद करता है।
Data lesson 4: Synthetic data helps with few-shot learning.
अभी कोई टिप्पणी नहीं है.