Llama3-gradient - LLAMA का संदर्भ लंबाई 8K से 1M तक बढ़ाने वाला मॉडल

xguru · 2024-05-02T10:46:01+09:00

Gradient द्वारा विकसित यह मॉडल LLama-3 8B की संदर्भ लंबाई को 8K से 1040K से अधिक तक बढ़ाता है यह दिखाता है कि एक SOTA LLM, RoPE theta को सही तरीके से tune करके, न्यूनतम प्रशिक्षण के साथ लंबी संदर्भ लंबाई पर काम करना सीख सकता है इस चरण को 830M टोकन पर प्रशिक्षित किया गया और सभी चरणों में कुल 1.4B टोकन ही उपयोग हुए, जो Llama3 के original pretraining डेटा का केवल 0.1% है नोट: 256K संदर्भ के लिए न्यूनतम 64GB memory की जरूरत होगी। 1M से अधिक संदर्भ के लिए 100GB से ज्यादा memory की जरूरत होगी

(ollama.com)

6 पॉइंट द्वारा xguru 2024-05-02 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Gradient द्वारा विकसित यह मॉडल LLama-3 8B की संदर्भ लंबाई को 8K से 1040K से अधिक तक बढ़ाता है
यह दिखाता है कि एक SOTA LLM, RoPE theta को सही तरीके से tune करके, न्यूनतम प्रशिक्षण के साथ लंबी संदर्भ लंबाई पर काम करना सीख सकता है
इस चरण को 830M टोकन पर प्रशिक्षित किया गया और सभी चरणों में कुल 1.4B टोकन ही उपयोग हुए, जो Llama3 के original pretraining डेटा का केवल 0.1% है
नोट: 256K संदर्भ के लिए न्यूनतम 64GB memory की जरूरत होगी। 1M से अधिक संदर्भ के लिए 100GB से ज्यादा memory की जरूरत होगी

1 टिप्पणियां

livekth 2024-05-02

कॉनटेक्स्ट विंडो के बढ़ने की वजह से प्रदर्शन इतना गिर गया है कि वह मूल LLaMa 3 की तुलना में लगभग इस्तेमाल के लायक नहीं रहा—ऐसी एक टिप्पणी आई है।

https://twitter.com/ArkaPal999/status/1785611161540378707

Llama3-gradient - LLAMA का संदर्भ लंबाई 8K से 1M तक बढ़ाने वाला मॉडल

संबंधित पढ़ाई

1 टिप्पणियां