llama.cpp - Facebook के LLaMA मॉडल को शुद्ध C/C++ में infer करना
(github.com/ggerganov)- MacBook पर LLaMA मॉडल को 4-bit quantization के साथ चलाने का लक्ष्य
- बिना dependencies के शुद्ध C/C++ implementation
- Arm Neon/Accelerate framework के लिए optimized (Apple Silicon)
- x86 के लिए AVX2 support
- mixed F16/F32 precision
- 4-bit quantization support
- CPU पर चलता है
- फिलहाल केवल Mac/Linux support; Windows support नियोजित
1 टिप्पणियां
मैंने 7B मॉडल चलाकर देखा, और यह उम्मीद से बेहतर चल रहा है।