• सभी बाकी ggml tensors के लिए GPU acceleration जोड़ने वाला PR
  • RTX 3090 पर prompt processing 2 गुना, और token generation 1.3~1.8 गुना तक तेज
  • 4090+i9 पर 7B q4 model के मामले में प्रति सेकंड 109 tokens generate

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.