LLaMA: INT8 संस्करण

xguru · 2023-03-10T11:02:01+09:00

Meta के LLaMA-13B को सिर्फ 24 GiB RAM पर चलाने योग्य बनाने वाला fork version यानी सिर्फ एक RTX4090/3090 से चलाया जा सकता है सैद्धांतिक रूप से LLaMA-65B को एक 80GB A100 पर चलाना संभव बदलाव parallel processing structures हटाए गए host machine के weights को quantize किया गया memory issues से बचने के लिए weights को क्रमिक रूप से लोड किया गया bitsandbytes और tqdm का उपयोग repetition penalty सेटिंग (default 1.15) RTX4090 + 64GB Ubuntu machine पर model load और quantize करने में लगभग 25 सेकंड लगते हैं

(github.com/tloen)

8 पॉइंट द्वारा xguru 2023-03-10 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

Meta के LLaMA-13B को सिर्फ 24 GiB RAM पर चलाने योग्य बनाने वाला fork version
- यानी सिर्फ एक RTX4090/3090 से चलाया जा सकता है
सैद्धांतिक रूप से LLaMA-65B को एक 80GB A100 पर चलाना संभव
बदलाव
- parallel processing structures हटाए गए
- host machine के weights को quantize किया गया
- memory issues से बचने के लिए weights को क्रमिक रूप से लोड किया गया
- bitsandbytes और tqdm का उपयोग
- repetition penalty सेटिंग (default 1.15)
RTX4090 + 64GB Ubuntu machine पर model load और quantize करने में लगभग 25 सेकंड लगते हैं

LLaMA: INT8 संस्करण

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.