llama.cpp - Facebook के LLaMA मॉडल को शुद्ध C/C++ में infer करना

xguru · 2023-03-13T11:26:01+09:00

MacBook पर LLaMA मॉडल को 4-bit quantization के साथ चलाने का लक्ष्य बिना dependencies के शुद्ध C/C++ implementation Arm Neon/Accelerate framework के लिए optimized (Apple Silicon) x86 के लिए AVX2 support mixed F16/F32 precision 4-bit quantization support CPU पर चलता है फिलहाल केवल Mac/Linux support; Windows support नियोजित

(github.com/ggerganov)

16 पॉइंट द्वारा xguru 2023-03-13 | 1 टिप्पणियां | WhatsApp पर शेयर करें

MacBook पर LLaMA मॉडल को 4-bit quantization के साथ चलाने का लक्ष्य
बिना dependencies के शुद्ध C/C++ implementation
Arm Neon/Accelerate framework के लिए optimized (Apple Silicon)
x86 के लिए AVX2 support
mixed F16/F32 precision
4-bit quantization support
CPU पर चलता है
फिलहाल केवल Mac/Linux support; Windows support नियोजित

1 टिप्पणियां

laeyoung 2023-03-14

मैंने 7B मॉडल चलाकर देखा, और यह उम्मीद से बेहतर चल रहा है।

llama.cpp - Facebook के LLaMA मॉडल को शुद्ध C/C++ में infer करना

संबंधित पढ़ाई

1 टिप्पणियां