• Meta के LLaMA-13B को सिर्फ 24 GiB RAM पर चलाने योग्य बनाने वाला fork version
    • यानी सिर्फ एक RTX4090/3090 से चलाया जा सकता है
  • सैद्धांतिक रूप से LLaMA-65B को एक 80GB A100 पर चलाना संभव
  • बदलाव
    • parallel processing structures हटाए गए
    • host machine के weights को quantize किया गया
    • memory issues से बचने के लिए weights को क्रमिक रूप से लोड किया गया
    • bitsandbytes और tqdm का उपयोग
    • repetition penalty सेटिंग (default 1.15)
  • RTX4090 + 64GB Ubuntu machine पर model load और quantize करने में लगभग 25 सेकंड लगते हैं

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.