XGen-7B - 1.5T tokens पर अधिकतम 8K sequence length के साथ train किया गया 7B LLM

xguru · 2023-07-01T10:02:01+09:00

LLM के व्यापक उपयोग के साथ, लंबी sequence पर इसे लागू करना महत्वपूर्ण हो गया है: document summarization, code generation, protein sequence prediction आदि लेकिन अधिकांश open source LLM (LLaMA, MPT, Falcon) आदि को अधिकतम 2K token sequence length पर train किया गया है XGen-7B को अधिकतम 8K sequence length तक 1.5T token पर train किया गया है मानक NLP benchmark में, समान model size वाले MPT, Falcon, LLaMA, Redpajama, OpenLLaMA के बराबर या उनसे बेहतर performance text (MMLU, QA) और code (HumanEval) दोनों tasks में उत्कृष्ट परिणाम TPU-v4 पर 1T token के लिए लगभग $150K training cost

(blog.salesforceairesearch.com)

4 पॉइंट द्वारा xguru 2023-07-01 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

LLM के व्यापक उपयोग के साथ, लंबी sequence पर इसे लागू करना महत्वपूर्ण हो गया है: document summarization, code generation, protein sequence prediction आदि
लेकिन अधिकांश open source LLM (LLaMA, MPT, Falcon) आदि को अधिकतम 2K token sequence length पर train किया गया है
XGen-7B को अधिकतम 8K sequence length तक 1.5T token पर train किया गया है
मानक NLP benchmark में, समान model size वाले MPT, Falcon, LLaMA, Redpajama, OpenLLaMA के बराबर या उनसे बेहतर performance
text (MMLU, QA) और code (HumanEval) दोनों tasks में उत्कृष्ट परिणाम
TPU-v4 पर 1T token के लिए लगभग $150K training cost

XGen-7B - 1.5T tokens पर अधिकतम 8K sequence length के साथ train किया गया 7B LLM

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.