• 8k context length को सपोर्ट करने वाला 7B parameter open source LLM
  • MPT-7B पर अतिरिक्त 500B token data का उपयोग करके 256 NVidia H100 पर 3 दिनों तक training
  • 3 मॉडल जारी किए गए: MPT-7B-8k, MPT-7B-8k-Instruct, MPT-7B-8k-Chat
  • commercial उपयोग के लिए उपलब्ध
  • ALiBi(Attention with Linear Biases Enables Input Length Extrapolation) के जरिए 8k input सपोर्ट
  • FlashAttention और FasterTrasformer के साथ तेज training और inference

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.