Llama.cpp में मॉडल वेट्स लोडिंग स्पीड 10~100 गुना बेहतर

xguru · 2023-04-03T10:03:01+09:00

फ़ाइल फ़ॉर्मैट में बदलाव से read() के बिना mmap() संभव हो गया, जिससे वेट्स लोडिंग स्पीड 10~100 गुना तेज़ हो गई 7B जैसे single file और 13B जैसे multi-file भी अब सपोर्ट होते हैं, और लोडिंग कोड काफ़ी ज़्यादा सरल हो गया है साथ ही, इस बदलाव की वजह से tensors 32-byte boundary पर align होते हैं, जिससे कुछ processors पर अतिरिक्त performance improvement की उम्मीद की जा सकती है

(github.com/ggerganov)

13 पॉइंट द्वारा xguru 2023-04-03 | 1 टिप्पणियां | WhatsApp पर शेयर करें

फ़ाइल फ़ॉर्मैट में बदलाव से read() के बिना mmap() संभव हो गया, जिससे वेट्स लोडिंग स्पीड 10~100 गुना तेज़ हो गई
7B जैसे single file और 13B जैसे multi-file भी अब सपोर्ट होते हैं, और लोडिंग कोड काफ़ी ज़्यादा सरल हो गया है
साथ ही, इस बदलाव की वजह से tensors 32-byte boundary पर align होते हैं, जिससे कुछ processors पर अतिरिक्त performance improvement की उम्मीद की जा सकती है

1 टिप्पणियां

xguru 2023-04-03

LLaMA - Meta द्वारा जारी 65b पैरामीटर LLM
llama.cpp - Facebook के LLaMA मॉडल पर pure C/C++ में inference

Llama.cpp में मॉडल वेट्स लोडिंग स्पीड 10~100 गुना बेहतर

संबंधित पढ़ाई

1 टिप्पणियां