LLaMA-CPU - CPU पर LLaMA चलाने वाला fork
(github.com/markasoftware)- Meta के LLaMA मॉडल को CPU पर चलाता है
- सेटअप लगभग समान है
- 7B मॉडल पर टेस्ट करने पर, लोड करने के लिए 32GiB RAM में भी swap/zram की जरूरत पड़ती है
- वास्तविक inference के समय लगभग 20GiB से कम RAM का ही उपयोग होता है
- Ryzen 7900X पर 7B मॉडल प्रति सेकंड कुछ शब्दों का inference कर सकता है
अभी कोई टिप्पणी नहीं है.