- Llama3-V, Llama3 पर आधारित पहला multimodal मॉडल है
- Llama3-V को 500 डॉलर से कम लागत में train किया गया
- benchmarks में इसने Llava की तुलना में 10-20% बेहतर प्रदर्शन दिखाया, और 100 गुना बड़े closed-source मॉडल्स की तुलना में भी अधिकांश metrics पर समान प्रदर्शन दिया
मॉडल आर्किटेक्चर
- SigLIP: image embedding मॉडल, जो CLIP जैसा है, लेकिन sigmoid loss का उपयोग करता है।
- text embedding alignment: SigLIP को fixed रखकर, projection module की मदद से image embeddings को text embeddings के साथ align किया जाता है।
- image token जोड़ना: image embeddings को text tokens से पहले जोड़कर Llama3 में input दिया जाता है।
inference optimization
- caching: SigLIP मॉडल के image embeddings को पहले से compute करके GPU utilization बढ़ाया जाता है, और training/inference समय बचाया जाता है।
- MPS/MLX optimization: SigLIP मॉडल को MPS के लिए optimize करके प्रति सेकंड 32 images process की जाती हैं।
training process
- embedding precomputation: SigLIP का उपयोग करके image embeddings पहले से compute किए जाते हैं।
- projection layer training: projection layer के माध्यम से image और text embeddings को multimodal embedding space में align किया जाता है।
- supervised learning: pretraining के बाद supervised learning के जरिए मॉडल का प्रदर्शन बेहतर किया जाता है।
सारांश
- Llama3 8B में vision encoder जोड़ा गया।
- Llava की तुलना में 10-20% बेहतर प्रदर्शन।
- GPT4v, Gemini Ultra, Claude Opus जैसे 100 गुना बड़े मॉडल्स के समान प्रदर्शन।
- 500 डॉलर से कम लागत में efficient training और supervised learning pipeline प्रदान करता है।
GN⁺ की राय
- दिलचस्प बात: Llama3-V ने कम लागत में high-performance multimodal मॉडल बनाया, यह खास तौर पर दिलचस्प है।
- आलोचनात्मक दृष्टिकोण: मॉडल का आकार और लागत घटाते हुए प्रदर्शन बनाए रखना लंबे समय तक कितना टिकाऊ रहेगा, इस पर सवाल है।
- संबंधित तकनीक: इसी तरह की क्षमताओं वाले मॉडल्स में CLIP और DALL-E शामिल हैं।
- अपनाने पर विचार: नई तकनीक अपनाते समय मॉडल की accuracy और cost efficiency पर ध्यान देना चाहिए।
- तकनीकी चयन के फायदे और नुकसान: कम लागत में उच्च प्रदर्शन मिल सकता है, लेकिन मॉडल की scalability और maintenance cost पर भी विचार करना चाहिए।
अभी कोई टिप्पणी नहीं है.