- LLM के व्यापक उपयोग के साथ, लंबी sequence पर इसे लागू करना महत्वपूर्ण हो गया है: document summarization, code generation, protein sequence prediction आदि
- लेकिन अधिकांश open source LLM (LLaMA, MPT, Falcon) आदि को अधिकतम 2K token sequence length पर train किया गया है
- XGen-7B को अधिकतम 8K sequence length तक 1.5T token पर train किया गया है
- मानक NLP benchmark में, समान model size वाले MPT, Falcon, LLaMA, Redpajama, OpenLLaMA के बराबर या उनसे बेहतर performance
- text (MMLU, QA) और code (HumanEval) दोनों tasks में उत्कृष्ट परिणाम
- TPU-v4 पर 1T token के लिए लगभग $150K training cost
अभी कोई टिप्पणी नहीं है.