- GPT-4 जैसे मॉडलों में इस्तेमाल होने वाली Transformer architecture से आगे बढ़कर, इसे अधिक efficient और parallel processing के साथ scale किया जा सकता है
- Transformer छोटे sequence के लिए उपयुक्त है, लेकिन high-resolution image, podcast, code और किताबों जैसे 10 लाख से अधिक लंबे token तक scale करना कठिन है
- Megabyte एक multi-scale decoder architecture है, जो 10 लाख से अधिक sequence को model कर सकता है
- input और output sequence को individual token की जगह "Patch" में विभाजित करता है
- local AI model हर patch के लिए result generate करता है, और global model इन patch को manage और coordinate करता है
- test results में, 1.5B parameter model का उपयोग करने वाला Megabyte model, 350M parameter पर चलने वाले Transformer model की तुलना में sequence को 40% अधिक तेज़ी से बनाता है
- test results के अनुसार, यह GPT-4 के 32000 token और Claude के 100000 token से बहुत आगे जाकर 1.2M token तक संभाल सकता है
2 टिप्पणियां
AI इन्फ्रास्ट्रक्चर और टूल डेवलपमेंट startup ENCORD द्वारा लिखे गए Megabyte के परिचय लेख का नीचे अनुमति के साथ अनुवाद किया गया है. :)
https://discuss.pytorch.kr/t/…
मुख्य लेख में भी है, लेकिन यह पेपर का लिंक है: https://arxiv.org/abs/2305.07185