• Llama3-V, Llama3 पर आधारित पहला multimodal मॉडल है
  • Llama3-V को 500 डॉलर से कम लागत में train किया गया
  • benchmarks में इसने Llava की तुलना में 10-20% बेहतर प्रदर्शन दिखाया, और 100 गुना बड़े closed-source मॉडल्स की तुलना में भी अधिकांश metrics पर समान प्रदर्शन दिया

मॉडल आर्किटेक्चर

  • SigLIP: image embedding मॉडल, जो CLIP जैसा है, लेकिन sigmoid loss का उपयोग करता है।
  • text embedding alignment: SigLIP को fixed रखकर, projection module की मदद से image embeddings को text embeddings के साथ align किया जाता है।
  • image token जोड़ना: image embeddings को text tokens से पहले जोड़कर Llama3 में input दिया जाता है।

inference optimization

  • caching: SigLIP मॉडल के image embeddings को पहले से compute करके GPU utilization बढ़ाया जाता है, और training/inference समय बचाया जाता है।
  • MPS/MLX optimization: SigLIP मॉडल को MPS के लिए optimize करके प्रति सेकंड 32 images process की जाती हैं।

training process

  • embedding precomputation: SigLIP का उपयोग करके image embeddings पहले से compute किए जाते हैं।
  • projection layer training: projection layer के माध्यम से image और text embeddings को multimodal embedding space में align किया जाता है।
  • supervised learning: pretraining के बाद supervised learning के जरिए मॉडल का प्रदर्शन बेहतर किया जाता है।

सारांश

  • Llama3 8B में vision encoder जोड़ा गया।
  • Llava की तुलना में 10-20% बेहतर प्रदर्शन।
  • GPT4v, Gemini Ultra, Claude Opus जैसे 100 गुना बड़े मॉडल्स के समान प्रदर्शन।
  • 500 डॉलर से कम लागत में efficient training और supervised learning pipeline प्रदान करता है।

GN⁺ की राय

  • दिलचस्प बात: Llama3-V ने कम लागत में high-performance multimodal मॉडल बनाया, यह खास तौर पर दिलचस्प है।
  • आलोचनात्मक दृष्टिकोण: मॉडल का आकार और लागत घटाते हुए प्रदर्शन बनाए रखना लंबे समय तक कितना टिकाऊ रहेगा, इस पर सवाल है।
  • संबंधित तकनीक: इसी तरह की क्षमताओं वाले मॉडल्स में CLIP और DALL-E शामिल हैं।
  • अपनाने पर विचार: नई तकनीक अपनाते समय मॉडल की accuracy और cost efficiency पर ध्यान देना चाहिए।
  • तकनीकी चयन के फायदे और नुकसान: कम लागत में उच्च प्रदर्शन मिल सकता है, लेकिन मॉडल की scalability और maintenance cost पर भी विचार करना चाहिए।

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.