LLaMA: INT8 संस्करण
(github.com/tloen)- Meta के LLaMA-13B को सिर्फ 24 GiB RAM पर चलाने योग्य बनाने वाला fork version
- यानी सिर्फ एक RTX4090/3090 से चलाया जा सकता है
- सैद्धांतिक रूप से LLaMA-65B को एक 80GB A100 पर चलाना संभव
- बदलाव
- parallel processing structures हटाए गए
- host machine के weights को quantize किया गया
- memory issues से बचने के लिए weights को क्रमिक रूप से लोड किया गया
bitsandbytesऔरtqdmका उपयोग- repetition penalty सेटिंग (default 1.15)
- RTX4090 + 64GB Ubuntu machine पर model load और quantize करने में लगभग 25 सेकंड लगते हैं
अभी कोई टिप्पणी नहीं है.