Llama 3-V - GPT4-V के बराबर प्रदर्शन, 100 गुना छोटे मॉडल और 500 डॉलर में

(aksh-garg.medium.com)

10 पॉइंट द्वारा GN⁺ 2024-05-29 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

Llama3-V, Llama3 पर आधारित पहला multimodal मॉडल है
Llama3-V को 500 डॉलर से कम लागत में train किया गया
benchmarks में इसने Llava की तुलना में 10-20% बेहतर प्रदर्शन दिखाया, और 100 गुना बड़े closed-source मॉडल्स की तुलना में भी अधिकांश metrics पर समान प्रदर्शन दिया

SigLIP: image embedding मॉडल, जो CLIP जैसा है, लेकिन sigmoid loss का उपयोग करता है।
text embedding alignment: SigLIP को fixed रखकर, projection module की मदद से image embeddings को text embeddings के साथ align किया जाता है।
image token जोड़ना: image embeddings को text tokens से पहले जोड़कर Llama3 में input दिया जाता है।

caching: SigLIP मॉडल के image embeddings को पहले से compute करके GPU utilization बढ़ाया जाता है, और training/inference समय बचाया जाता है।
MPS/MLX optimization: SigLIP मॉडल को MPS के लिए optimize करके प्रति सेकंड 32 images process की जाती हैं।

embedding precomputation: SigLIP का उपयोग करके image embeddings पहले से compute किए जाते हैं।
projection layer training: projection layer के माध्यम से image और text embeddings को multimodal embedding space में align किया जाता है।
supervised learning: pretraining के बाद supervised learning के जरिए मॉडल का प्रदर्शन बेहतर किया जाता है।

Llama3 8B में vision encoder जोड़ा गया।
Llava की तुलना में 10-20% बेहतर प्रदर्शन।
GPT4v, Gemini Ultra, Claude Opus जैसे 100 गुना बड़े मॉडल्स के समान प्रदर्शन।
500 डॉलर से कम लागत में efficient training और supervised learning pipeline प्रदान करता है।

GN⁺ की राय

दिलचस्प बात: Llama3-V ने कम लागत में high-performance multimodal मॉडल बनाया, यह खास तौर पर दिलचस्प है।
आलोचनात्मक दृष्टिकोण: मॉडल का आकार और लागत घटाते हुए प्रदर्शन बनाए रखना लंबे समय तक कितना टिकाऊ रहेगा, इस पर सवाल है।
संबंधित तकनीक: इसी तरह की क्षमताओं वाले मॉडल्स में CLIP और DALL-E शामिल हैं।
अपनाने पर विचार: नई तकनीक अपनाते समय मॉडल की accuracy और cost efficiency पर ध्यान देना चाहिए।
तकनीकी चयन के फायदे और नुकसान: कम लागत में उच्च प्रदर्शन मिल सकता है, लेकिन मॉडल की scalability और maintenance cost पर भी विचार करना चाहिए।