Llama.cpp में मॉडल वेट्स लोडिंग स्पीड 10~100 गुना बेहतर
(github.com/ggerganov)- फ़ाइल फ़ॉर्मैट में बदलाव से
read()के बिनाmmap()संभव हो गया, जिससे वेट्स लोडिंग स्पीड 10~100 गुना तेज़ हो गई - 7B जैसे single file और 13B जैसे multi-file भी अब सपोर्ट होते हैं, और लोडिंग कोड काफ़ी ज़्यादा सरल हो गया है
- साथ ही, इस बदलाव की वजह से tensors 32-byte boundary पर align होते हैं, जिससे कुछ processors पर अतिरिक्त performance improvement की उम्मीद की जा सकती है
1 टिप्पणियां
LLaMA - Meta द्वारा जारी 65b पैरामीटर LLM
llama.cpp - Facebook के LLaMA मॉडल पर pure C/C++ में inference