Chameleon: Meta का नया multi-modal LLM

(arxiv.org)

4 पॉइंट द्वारा GN⁺ 2024-05-23 | 2 टिप्पणियां | WhatsApp पर शेयर करें

Chameleon शुरुआती fusion token-आधारित mixed-modal मॉडल्स का एक परिवार है, जो इमेज और टेक्स्ट को किसी भी क्रम में समझ और जनरेट कर सकता है
इस मॉडल परिवार में स्थिर training approach, alignment recipe, और शुरुआती fusion token-आधारित mixed-modal सेटअप के लिए architectural parameters शामिल हैं
इसने शुरुआत से ही एक स्थिर training approach अपनाई है, और alignment recipe व architectural parameters को शुरुआती fusion token-आधारित mixed-modal सेटअप के अनुरूप डिज़ाइन किया गया है
इसका मूल्यांकन visual question answering, image caption generation, text generation, image generation, और long-form mixed-modal generation जैसे व्यापक tasks पर किया गया
- image caption generation task में इसने state-of-the-art प्रदर्शन दिखाया
- text-only tasks में इसने Llama-2 को पीछे छोड़ा और Mixtral 8x7B व Gemini-Pro जैसे मॉडल्स के साथ प्रतिस्पर्धी प्रदर्शन दिखाया
- इसमें बेहतरीन image generation क्षमता है और यह एक ही मॉडल से कई तरह के tasks कर सकता है
- long-form mixed-modal generation evaluation में, जब prompt या output में इमेज और टेक्स्ट के मिश्रित sequence शामिल हों, तो इसने Gemini Pro और GPT-4V जैसे कहीं बड़े मॉडल्स के प्रदर्शन की बराबरी की या उसे पार किया
Chameleon ने पूर्ण multimodal documents की unified modeling में महत्वपूर्ण प्रगति हासिल की है
यह विभिन्न tasks में व्यापक क्षमताओं वाले unified multimodal model के लिए एक नया benchmark प्रस्तुत करता है

GN⁺ की राय

multimodal मॉडल्स एक साथ कई तरह के input formats को प्रोसेस कर सकते हैं, इसलिए वे वास्तविक applications में बहुत उपयोगी हैं। उदाहरण के लिए, visual question answering systems या image caption generation में ये बड़ा लाभ देते हैं।
Chameleon ने Llama-2, Mixtral 8x7B, Gemini-Pro आदि की तुलना में प्रतिस्पर्धी प्रदर्शन दिखाया है। यह विभिन्न tasks में इसकी flexibility और performance को साबित करता है।
नई तकनीक अपनाते समय मॉडल की stability, training cost, और data requirements जैसी बातों पर विचार करना चाहिए। Chameleon के मामले में शुरुआती fusion approach स्थिर है, लेकिन वास्तविक deployment में पर्याप्त data और computing resources की आवश्यकता हो सकती है।
long-form mixed-modal generation में इसका प्रदर्शन बेहद दिलचस्प है। इससे जटिल document generation या multimedia content creation में बड़ी संभावनाएँ खुलती हैं।
उद्योग में OpenAI का GPT-4, Google का BERT जैसे कई multimodal models मौजूद हैं। हर मॉडल की विशेषताओं, फायदे और सीमाओं की तुलना करके उपयुक्त मॉडल चुनना महत्वपूर्ण है।

2 टिप्पणियां

fastkoder 2024-06-19

मॉडल checkpoint: https://ai.meta.com/resources/models-and-libraries/…
ब्लॉग: https://ai.meta.com/blog/meta-fair-research-new-releases/
GitHub repository: https://github.com/facebookresearch/chameleon
8 घंटे पहले जारी किया गया!

GN⁺ 2024-05-23

Hacker News की राय

Hacker News टिप्पणियों का संक्षिप्त सार

मूलभूत शोध और softmax समस्या
- मूलभूत शोध काफ़ी दिलचस्प है। खासकर अलग-अलग tokenization spaces में softmax का उपयोग करने की कठिनाई पर किया गया विश्लेषण प्रभावशाली है।
- 34b आकार के मॉडल में समस्या सबसे अधिक स्पष्ट होती है। यह याद दिलाता है कि बड़े पैमाने पर मॉडल training नए तरह की समस्याएँ पैदा करती है।
multimodality और Mirasol3B
- Mirasol3B की तुलना में यह audio को support नहीं करता। Google के Mirasol3B ने audio को image में बदलकर demo संभव बनाया था।
- Meta भी multimodality की दिशा में आगे बढ़ रहा है। नया GPT voice mode भी संभवतः इसी architecture का उपयोग करेगा।
- नई modalities जुड़ने पर समान parameter size में मॉडल का performance बेहतर होता है।
training समय और लागत
- training समय 4282407 घंटे है, और 200W GPU इस्तेमाल करने पर लगभग 1 GWh बिजली की खपत होती है। लागत लगभग $100,000 है।
- एक single GPU पर training करने में 500 साल और $100,000 की energy cost लगेगी। व्यवहार में, 3000 GPU के साथ इसे 2 महीने में train किया जा सकता है।
Chameleon मॉडल का प्रदर्शन
- Chameleon मॉडल Gemini Pro और GPT-4V जैसे बड़े मॉडलों के प्रदर्शन की बराबरी करता है या उसे पार कर जाता है। mixed-modal generation evaluation में यह बेहतरीन प्रदर्शन दिखाता है।
- यह multimodal documents की integrated modeling में एक महत्वपूर्ण प्रगति है।
तकनीकी प्रगति की रफ़्तार
- तकनीकी प्रगति बहुत तेज़ है। इसमें कई दिलचस्प बातें हैं और इसे समझना भी आसान है।
- लेकिन इससे थकान भी महसूस हो सकती है, और इसमें इतना पैसा लगाया जा रहा है कि बहुत कुछ धोखे जैसा लग सकता है। किसी एक विषय में गहराई से जाना और उससे जुड़े papers पढ़ना बेहतर है।
multimodal मॉडलों का अपनाया जाना
- हाल के समय में multimodal models व्यापक रूप से अपनाए गए हैं, लेकिन अब भी modality के अनुसार अलग encoder या decoder का उपयोग किया जाता है।
- उदाहरण के लिए, Gemini Pro image tokens का उपयोग करता है और GPT-4V भी इसी तरह है। दोनों अलग tokenizers को pre-train करते हैं।
integrated model और modal competition
- integrated model दिलचस्प है, लेकिन "modal competition" की खोज यह संकेत देती है कि कम समय के लिए हर modality में विशेषज्ञता रखने वाले अलग मॉडल train करना बेहतर हो सकता है।
Meta की open source योजना
- यह जानने की जिज्ञासा है कि क्या Meta इन मॉडलों को open source के रूप में जारी करने की योजना रखता है।
- यह भी सवाल है कि क्या मॉडल download के लिए उपलब्ध होंगे।

Chameleon: Meta का नया multi-modal LLM

GN⁺ की राय

संबंधित पढ़ाई

2 टिप्पणियां

Hacker News की राय

Hacker News टिप्पणियों का संक्षिप्त सार