• Microsoft का bitnet.cpp 1-बिट large language model (LLM) के लिए आधिकारिक inference framework है, जो CPU और GPU पर तेज़ और lossless inference को सपोर्ट करता है
  • ARM CPU पर 1.37~5.07x speed improvement और 55.4~70% energy savings, तथा x86 CPU पर 2.37~6.17x speed improvement और 71.9~82.2% energy savings हासिल की गई
  • parallel kernel implementation और embedding quantization जोड़कर पहले की तुलना में 1.15~2.1x अतिरिक्त performance improvement प्रदान किया गया
  • BitNet b1.58 मॉडल को एक single CPU पर 5~7 tokens प्रति सेकंड की गति से चलाया जा सकता है, जिससे local environment में very large model operation की संभावना बढ़ती है
  • यह llama.cpp और T-MAC पर आधारित होकर विकसित किया गया है, और low-bit LLM inference efficiency के लिए open source ecosystem के विस्तार में योगदान देता है

bitnet.cpp overview

  • bitnet.cpp 1-बिट LLM (उदाहरण: BitNet b1.58) के लिए आधिकारिक inference framework है, जो CPU और GPU पर optimized kernels प्रदान करता है
    • NPU सपोर्ट भविष्य में जोड़ा जाएगा
  • पहला release CPU inference को सपोर्ट करता है और ARM तथा x86 दोनों architectures पर speed और energy efficiency improvements साबित करता है
    • ARM CPU: 1.37~5.07x speed improvement, 55.4~70% energy savings
    • x86 CPU: 2.37~6.17x speed improvement, 71.9~82.2% energy savings
  • 100B parameter BitNet b1.58 model को एक single CPU पर 5~7 tokens प्रति सेकंड की गति से चलाया जा सकता है

latest optimizations

  • parallel kernel implementation, tiling configuration, और embedding quantization फीचर जोड़े गए हैं, जिनसे पहले की तुलना में 1.15~2.1x अतिरिक्त speed improvement हासिल हुई
  • विभिन्न hardware platforms और workloads पर performance improvement की पुष्टि हुई
  • विस्तृत तकनीकी जानकारी optimization guide दस्तावेज़ में उपलब्ध है

demo और official models

  • Apple M2 पर BitNet b1.58 3B model चलाने का demo उपलब्ध है
  • आधिकारिक मॉडल के रूप में BitNet-b1.58-2B-4T Hugging Face पर जारी किया गया है, और x86 तथा ARM CPU पर सपोर्टेड है
  • सपोर्टेड मॉडलों में bitnet_b1_58-large(0.7B), bitnet_b1_58-3B(3.3B), Llama3-8B-1.58, Falcon3, Falcon-E series शामिल हैं

installation और build

  • आवश्यकताएँ: Python 3.9 या उससे ऊपर, CMake 3.22 या उससे ऊपर, Clang 18 या उससे ऊपर
    • Windows users के लिए Visual Studio 2022 install करना आवश्यक है
    • Debian/Ubuntu users के लिए automatic installation script उपलब्ध है
  • Conda environment के उपयोग की सिफारिश की जाती है, और setup_env.py से model environment सेट किया जा सकता है
  • Hugging Face से मॉडल डाउनलोड करने के बाद उसे local path से चलाया जा सकता है

usage और benchmarks

  • run_inference.py से quantized model inference चलाया जा सकता है
    • मुख्य arguments: model path(-m), prompt(-p), thread count(-t), context size(-c), temperature(-temp)
  • e2e_benchmark.py script से token count, prompt length, thread count निर्दिष्ट करके performance मापी जा सकती है
  • यदि public model उपलब्ध न हो, तो generate-dummy-bitnet-model.py से dummy model बनाकर benchmark चलाया जा सकता है

model conversion और FAQ

  • .safetensors checkpoint को gguf format में convert करने के लिए script उपलब्ध है
  • FAQ में llama.cpp build error (std::chrono से संबंधित) के समाधान और Windows पर clang environment setup की प्रक्रिया दी गई है
    • Visual Studio Developer Command Prompt या PowerShell में environment initialization आवश्यक है

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.