- "Effective Long-Context Scaling of Foundation Models" नामक पेपर के माध्यम से LLaMA2 Long मॉडल जारी किया
- पेपर लिंक: https://arxiv.org/pdf/2309.16039.pdf
- context window की लंबाई 32K(32,768) टोकन तक सपोर्ट करती है
- 70B वर्ज़न पहले ही long-context task संग्रहों में gpt-3.5-turbo-16k के कुल प्रदर्शन को पार कर चुका है
- मौजूदा मॉडल आर्किटेक्चर को बनाए रखते हुए, positional encoding में RoPE(Rotary Positional Embedding) लागू करके कम जानकारी के साथ बेहतर responses उत्पन्न किए गए
- RoPE विवरण: https://blog.eleuther.ai/rotary-embeddings/
अभी कोई टिप्पणी नहीं है.