• Meta के LLaMA मॉडल को CPU पर चलाता है
  • सेटअप लगभग समान है
  • 7B मॉडल पर टेस्ट करने पर, लोड करने के लिए 32GiB RAM में भी swap/zram की जरूरत पड़ती है
  • वास्तविक inference के समय लगभग 20GiB से कम RAM का ही उपयोग होता है
  • Ryzen 7900X पर 7B मॉडल प्रति सेकंड कुछ शब्दों का inference कर सकता है

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.