• compression के लिए GPT2-small या LLaMA-7B जैसे aligned और अच्छी तरह प्रशिक्षित छोटे language model का उपयोग
  • prompt में गैर-ज़रूरी tokens का पता लगाकर black-box LLM में compressed prompt के साथ inference संभव बनाता है
    • LLM की inference speed बढ़ाने और मुख्य जानकारी के प्रति LLM की समझ बेहतर करने के लिए prompt और KV-Cache को compress करता है
    • performance loss को न्यूनतम रखते हुए अधिकतम 20x compression हासिल
  • prompt और generated context को कम करके लागत घटाता है
  • prompt के भीतर महत्वपूर्ण जानकारी की density बढ़ाकर लंबे context को support करना संभव

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.