BitNet - 1-बिट LLM के लिए inference framework

(github.com/microsoft)

17 पॉइंट द्वारा GN⁺ 2026-03-13 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

Microsoft का bitnet.cpp 1-बिट large language model (LLM) के लिए आधिकारिक inference framework है, जो CPU और GPU पर तेज़ और lossless inference को सपोर्ट करता है
ARM CPU पर 1.37~5.07x speed improvement और 55.4~70% energy savings, तथा x86 CPU पर 2.37~6.17x speed improvement और 71.9~82.2% energy savings हासिल की गई
parallel kernel implementation और embedding quantization जोड़कर पहले की तुलना में 1.15~2.1x अतिरिक्त performance improvement प्रदान किया गया
BitNet b1.58 मॉडल को एक single CPU पर 5~7 tokens प्रति सेकंड की गति से चलाया जा सकता है, जिससे local environment में very large model operation की संभावना बढ़ती है
यह llama.cpp और T-MAC पर आधारित होकर विकसित किया गया है, और low-bit LLM inference efficiency के लिए open source ecosystem के विस्तार में योगदान देता है

bitnet.cpp overview

bitnet.cpp 1-बिट LLM (उदाहरण: BitNet b1.58) के लिए आधिकारिक inference framework है, जो CPU और GPU पर optimized kernels प्रदान करता है
- NPU सपोर्ट भविष्य में जोड़ा जाएगा
पहला release CPU inference को सपोर्ट करता है और ARM तथा x86 दोनों architectures पर speed और energy efficiency improvements साबित करता है
- ARM CPU: 1.37~5.07x speed improvement, 55.4~70% energy savings
- x86 CPU: 2.37~6.17x speed improvement, 71.9~82.2% energy savings
100B parameter BitNet b1.58 model को एक single CPU पर 5~7 tokens प्रति सेकंड की गति से चलाया जा सकता है

parallel kernel implementation, tiling configuration, और embedding quantization फीचर जोड़े गए हैं, जिनसे पहले की तुलना में 1.15~2.1x अतिरिक्त speed improvement हासिल हुई
विभिन्न hardware platforms और workloads पर performance improvement की पुष्टि हुई
विस्तृत तकनीकी जानकारी optimization guide दस्तावेज़ में उपलब्ध है

Apple M2 पर BitNet b1.58 3B model चलाने का demo उपलब्ध है
आधिकारिक मॉडल के रूप में BitNet-b1.58-2B-4T Hugging Face पर जारी किया गया है, और x86 तथा ARM CPU पर सपोर्टेड है
सपोर्टेड मॉडलों में bitnet_b1_58-large(0.7B), bitnet_b1_58-3B(3.3B), Llama3-8B-1.58, Falcon3, Falcon-E series शामिल हैं

आवश्यकताएँ: Python 3.9 या उससे ऊपर, CMake 3.22 या उससे ऊपर, Clang 18 या उससे ऊपर
- Windows users के लिए Visual Studio 2022 install करना आवश्यक है
- Debian/Ubuntu users के लिए automatic installation script उपलब्ध है
Conda environment के उपयोग की सिफारिश की जाती है, और setup_env.py से model environment सेट किया जा सकता है
Hugging Face से मॉडल डाउनलोड करने के बाद उसे local path से चलाया जा सकता है

run_inference.py से quantized model inference चलाया जा सकता है
- मुख्य arguments: model path(-m), prompt(-p), thread count(-t), context size(-c), temperature(-temp)
e2e_benchmark.py script से token count, prompt length, thread count निर्दिष्ट करके performance मापी जा सकती है
यदि public model उपलब्ध न हो, तो generate-dummy-bitnet-model.py से dummy model बनाकर benchmark चलाया जा सकता है

.safetensors checkpoint को gguf format में convert करने के लिए script उपलब्ध है
FAQ में llama.cpp build error (std::chrono से संबंधित) के समाधान और Windows पर clang environment setup की प्रक्रिया दी गई है
- Visual Studio Developer Command Prompt या PowerShell में environment initialization आवश्यक है