6 पॉइंट द्वारा xguru 2024-05-02 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Gradient द्वारा विकसित यह मॉडल LLama-3 8B की संदर्भ लंबाई को 8K से 1040K से अधिक तक बढ़ाता है
  • यह दिखाता है कि एक SOTA LLM, RoPE theta को सही तरीके से tune करके, न्यूनतम प्रशिक्षण के साथ लंबी संदर्भ लंबाई पर काम करना सीख सकता है
  • इस चरण को 830M टोकन पर प्रशिक्षित किया गया और सभी चरणों में कुल 1.4B टोकन ही उपयोग हुए, जो Llama3 के original pretraining डेटा का केवल 0.1% है
  • नोट: 256K संदर्भ के लिए न्यूनतम 64GB memory की जरूरत होगी। 1M से अधिक संदर्भ के लिए 100GB से ज्यादा memory की जरूरत होगी

1 टिप्पणियां

 
livekth 2024-05-02

कॉनटेक्स्ट विंडो के बढ़ने की वजह से प्रदर्शन इतना गिर गया है कि वह मूल LLaMa 3 की तुलना में लगभग इस्तेमाल के लायक नहीं रहा—ऐसी एक टिप्पणी आई है।

https://twitter.com/ArkaPal999/status/1785611161540378707