- अब तक का सबसे शक्तिशाली language model
- 7.3B parameter वाला model, जो सभी benchmark में Llama 2 13B को और कई benchmark में Llama 1 34B को पीछे छोड़ता है
- तेज inference के लिए Grouped-query attention (GQA) और कम लागत में लंबी sequence संभालने के लिए Sliding Window Attention (SWA) का उपयोग
- Apache 2.0 license के तहत, बिना किसी प्रतिबंध के उपयोग योग्य
- किसी भी cloud (AWS/GCP/Azure) पर vLLM inference server और skypilot का उपयोग करके deploy किया जा सकता है, और HuggingFace पर भी उपलब्ध है
- इसे आसानी से fine-tune किया जा सकता है, और chat के लिए fine-tune किया गया model Llama 2 13B chat से बेहतर है
1 टिप्पणियां
Hacker News की राय