16 पॉइंट द्वारा xguru 2023-12-21 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • RTX 4090(24G) पर Falcon(ReLU)-40B-FP16 चलाने पर llama.cpp की तुलना में 11 गुना तेज़
  • डिवाइस की Activation Locality का उपयोग करने वाला CPU/GPU हाइब्रिड LLM inference engine
    • लगातार सक्रिय रहने वाले कुछ hot neurons और विशेष इनपुट के अनुसार बदलने वाले अधिकांश cold neurons में विभाजित
    • hot neurons को पहले से GPU में लोड करके तेज़ी से सक्रिय किया जाता है, जबकि cold neurons की गणना CPU पर की जाती है, जिससे GPU memory की आवश्यकता और CPU-GPU data transfer दोनों में बड़ी कमी आती है
  • adaptive predictor और neuron-aware sparse operator को एकीकृत करके neuron activation और computation sparsity की दक्षता को अनुकूलित करता है
  • एकल NVIDIA RTX 4090 GPU पर विभिन्न LLMs (OPT-175B सहित) में औसतन 13.20 tokens/second और अधिकतम 29.08 tokens/second की token generation speed हासिल
    • यह शीर्ष-स्तरीय server-grade A100 GPU के परिणाम से केवल 18% कम है
    • मॉडल की accuracy बनाए रखते हुए llama.cpp की तुलना में अधिकतम 11.69 गुना तक बेहतर performance दिखाता है

1 टिप्पणियां

 
cosine20 2023-12-28

4090 उपभोक्ता-ग्रेड तो है ही, lol.....