- SLM: Small Language Model
- 2.7B model होने के बावजूद यह अपने से अधिकतम 25 गुना बड़े models के बराबर या उनसे बेहतर प्रदर्शन दिखाता है
- Mistral 7B, Llama-7B/13B के प्रदर्शन से आगे
- coding और math जैसे multi-step reasoning में 25 गुना बड़े Llama-2-70B model से भी बेहतर
- Google Gemini Nano 2 से छोटा, लेकिन समान या उससे बेहतर प्रदर्शन
- GPT-4, Llama-2 जैसे models की तुलना में कम computing power के साथ text generation, image description जैसे समान कार्य कर सकता है
- आकार छोटा होने के कारण यह researchers के लिए एक आदर्श playground है, जिसमें mechanistic interpretability, safety improvements, या विभिन्न tasks पर fine-tuning experiments शामिल हैं
2 टिप्पणियां
Weights यहाँ हैं https://huggingface.co/microsoft/phi-2
Hacker News की राय