Meta ने अभिनव AI मॉडल आर्किटेक्चर Megabyte का अनावरण किया

xguru · 2023-05-26T10:02:01+09:00

GPT-4 जैसे मॉडलों में इस्तेमाल होने वाली Transformer architecture से आगे बढ़कर, इसे अधिक efficient और parallel processing के साथ scale किया जा सकता है Transformer छोटे sequence के लिए उपयुक्त है, लेकिन high-resolution image, podcast, code और किताबों जैसे 10 लाख से अधिक लंबे token तक scale करना कठिन है Megabyte एक multi-scale decoder architecture है, जो 10 लाख से अधिक sequence को model कर सकता है input और output sequence को individual token की जगह "Patch" में विभाजित करता है local AI model हर patch के लिए result generate करता है, और global model इन patch को manage और coordinate करता है test results में, 1.5B parameter model का उपयोग करने वाला Megabyte model, 350M parameter पर चलने वाले Transformer model की तुलना में sequence को 40% अधिक तेज़ी से बनाता है test results के अनुसार, यह GPT-4 के 32000 token और Claude के 100000 token से बहुत आगे जाकर 1.2M token तक संभाल सकता है

(artisana.ai)

14 पॉइंट द्वारा xguru 2023-05-26 | 2 टिप्पणियां | WhatsApp पर शेयर करें

GPT-4 जैसे मॉडलों में इस्तेमाल होने वाली Transformer architecture से आगे बढ़कर, इसे अधिक efficient और parallel processing के साथ scale किया जा सकता है
Transformer छोटे sequence के लिए उपयुक्त है, लेकिन high-resolution image, podcast, code और किताबों जैसे 10 लाख से अधिक लंबे token तक scale करना कठिन है
Megabyte एक multi-scale decoder architecture है, जो 10 लाख से अधिक sequence को model कर सकता है
- input और output sequence को individual token की जगह "Patch" में विभाजित करता है
- local AI model हर patch के लिए result generate करता है, और global model इन patch को manage और coordinate करता है
test results में, 1.5B parameter model का उपयोग करने वाला Megabyte model, 350M parameter पर चलने वाले Transformer model की तुलना में sequence को 40% अधिक तेज़ी से बनाता है
test results के अनुसार, यह GPT-4 के 32000 token और Claude के 100000 token से बहुत आगे जाकर 1.2M token तक संभाल सकता है

2 टिप्पणियां

ninebow 2023-05-27

AI इन्फ्रास्ट्रक्चर और टूल डेवलपमेंट startup ENCORD द्वारा लिखे गए Megabyte के परिचय लेख का नीचे अनुमति के साथ अनुवाद किया गया है. :)

https://discuss.pytorch.kr/t/…

cosine20 2023-05-27

मुख्य लेख में भी है, लेकिन यह पेपर का लिंक है: https://arxiv.org/abs/2305.07185

Meta ने अभिनव AI मॉडल आर्किटेक्चर Megabyte का अनावरण किया

संबंधित पढ़ाई

2 टिप्पणियां