14 पॉइंट द्वारा xguru 2023-05-26 | 2 टिप्पणियां | WhatsApp पर शेयर करें
  • GPT-4 जैसे मॉडलों में इस्तेमाल होने वाली Transformer architecture से आगे बढ़कर, इसे अधिक efficient और parallel processing के साथ scale किया जा सकता है
  • Transformer छोटे sequence के लिए उपयुक्त है, लेकिन high-resolution image, podcast, code और किताबों जैसे 10 लाख से अधिक लंबे token तक scale करना कठिन है
  • Megabyte एक multi-scale decoder architecture है, जो 10 लाख से अधिक sequence को model कर सकता है
    • input और output sequence को individual token की जगह "Patch" में विभाजित करता है
    • local AI model हर patch के लिए result generate करता है, और global model इन patch को manage और coordinate करता है
  • test results में, 1.5B parameter model का उपयोग करने वाला Megabyte model, 350M parameter पर चलने वाले Transformer model की तुलना में sequence को 40% अधिक तेज़ी से बनाता है
  • test results के अनुसार, यह GPT-4 के 32000 token और Claude के 100000 token से बहुत आगे जाकर 1.2M token तक संभाल सकता है

2 टिप्पणियां

 
ninebow 2023-05-27

AI इन्फ्रास्ट्रक्चर और टूल डेवलपमेंट startup ENCORD द्वारा लिखे गए Megabyte के परिचय लेख का नीचे अनुमति के साथ अनुवाद किया गया है. :)

https://discuss.pytorch.kr/t/…

 
cosine20 2023-05-27

मुख्य लेख में भी है, लेकिन यह पेपर का लिंक है: https://arxiv.org/abs/2305.07185