- Microsoft का bitnet.cpp 1-बिट large language model (LLM) के लिए आधिकारिक inference framework है, जो CPU और GPU पर तेज़ और lossless inference को सपोर्ट करता है
- ARM CPU पर 1.37~5.07x speed improvement और 55.4~70% energy savings, तथा x86 CPU पर 2.37~6.17x speed improvement और 71.9~82.2% energy savings हासिल की गई
- parallel kernel implementation और embedding quantization जोड़कर पहले की तुलना में 1.15~2.1x अतिरिक्त performance improvement प्रदान किया गया
- BitNet b1.58 मॉडल को एक single CPU पर 5~7 tokens प्रति सेकंड की गति से चलाया जा सकता है, जिससे local environment में very large model operation की संभावना बढ़ती है
- यह llama.cpp और T-MAC पर आधारित होकर विकसित किया गया है, और low-bit LLM inference efficiency के लिए open source ecosystem के विस्तार में योगदान देता है
bitnet.cpp overview
- bitnet.cpp 1-बिट LLM (उदाहरण: BitNet b1.58) के लिए आधिकारिक inference framework है, जो CPU और GPU पर optimized kernels प्रदान करता है
- NPU सपोर्ट भविष्य में जोड़ा जाएगा
- पहला release CPU inference को सपोर्ट करता है और ARM तथा x86 दोनों architectures पर speed और energy efficiency improvements साबित करता है
- ARM CPU: 1.37~5.07x speed improvement, 55.4~70% energy savings
- x86 CPU: 2.37~6.17x speed improvement, 71.9~82.2% energy savings
- 100B parameter BitNet b1.58 model को एक single CPU पर 5~7 tokens प्रति सेकंड की गति से चलाया जा सकता है
latest optimizations
- parallel kernel implementation, tiling configuration, और embedding quantization फीचर जोड़े गए हैं, जिनसे पहले की तुलना में 1.15~2.1x अतिरिक्त speed improvement हासिल हुई
- विभिन्न hardware platforms और workloads पर performance improvement की पुष्टि हुई
- विस्तृत तकनीकी जानकारी
optimization guide दस्तावेज़ में उपलब्ध है
demo और official models
- Apple M2 पर BitNet b1.58 3B model चलाने का demo उपलब्ध है
- आधिकारिक मॉडल के रूप में BitNet-b1.58-2B-4T Hugging Face पर जारी किया गया है, और x86 तथा ARM CPU पर सपोर्टेड है
- सपोर्टेड मॉडलों में bitnet_b1_58-large(0.7B), bitnet_b1_58-3B(3.3B), Llama3-8B-1.58, Falcon3, Falcon-E series शामिल हैं
installation और build
- आवश्यकताएँ: Python 3.9 या उससे ऊपर, CMake 3.22 या उससे ऊपर, Clang 18 या उससे ऊपर
- Windows users के लिए Visual Studio 2022 install करना आवश्यक है
- Debian/Ubuntu users के लिए automatic installation script उपलब्ध है
- Conda environment के उपयोग की सिफारिश की जाती है, और
setup_env.py से model environment सेट किया जा सकता है
- Hugging Face से मॉडल डाउनलोड करने के बाद उसे local path से चलाया जा सकता है
usage और benchmarks
run_inference.py से quantized model inference चलाया जा सकता है
- मुख्य arguments: model path(-m), prompt(-p), thread count(-t), context size(-c), temperature(-temp)
e2e_benchmark.py script से token count, prompt length, thread count निर्दिष्ट करके performance मापी जा सकती है
- यदि public model उपलब्ध न हो, तो
generate-dummy-bitnet-model.py से dummy model बनाकर benchmark चलाया जा सकता है
model conversion और FAQ
.safetensors checkpoint को gguf format में convert करने के लिए script उपलब्ध है
- FAQ में llama.cpp build error (std::chrono से संबंधित) के समाधान और Windows पर clang environment setup की प्रक्रिया दी गई है
- Visual Studio Developer Command Prompt या PowerShell में environment initialization आवश्यक है
अभी कोई टिप्पणी नहीं है.