13 पॉइंट द्वारा GN⁺ 2025-04-18 | 4 टिप्पणियां | WhatsApp पर शेयर करें
  • Microsoft के शोधकर्ताओं ने BitNet b1.58 2B4T नाम का एक बेहद उच्च-दक्षता वाला AI मॉडल विकसित किया है
  • 1-बिट quantization के जरिए उच्च गति और कम memory usage हासिल किया गया है, जिससे यह CPU पर भी चल सकता है, और इसे MIT लाइसेंस के तहत जारी किया गया है
  • यह Apple M2 जैसे CPU पर भी चल सकता है और GPU के बिना काम करता है
  • 2 अरब parameters वाला BitNet b1.58 2B4T, Meta, Google, Alibaba के मॉडलों से बेहतर प्रदर्शन करता है
  • हालांकि, इसके लिए Microsoft के bitnet.cpp framework का उपयोग करना पड़ता है, और GPU के साथ compatibility की समस्या अभी भी बनी हुई है

Microsoft का अति-हल्का 1-बिट AI मॉडल BitNet b1.58 2B4T

अति-हल्के मॉडल BitNet की अवधारणा

  • BitNet एक 1-बिट quantization लागू करने वाला AI मॉडल है, जो parameters को दर्शाने के लिए केवल -1, 0, 1 इन तीन मानों का उपयोग करता है
  • पारंपरिक quantized मॉडल आमतौर पर 8-बिट या 4-बिट में व्यक्त किए जाते हैं, लेकिन BitNet केवल 1-बिट का उपयोग करके बेहद प्रभावशाली memory efficiency देता है
  • यह तरीका लो-स्पेक hardware, खासकर GPU-रहित CPU environment में बड़ा फायदा देता है

BitNet b1.58 2B4T की विशेषताएं

  • parameters की संख्या: 2 अरब
  • training data: 4 ट्रिलियन tokens (लगभग 3.3 करोड़ पुस्तकों के बराबर)
  • MIT लाइसेंस के तहत open source जारी किया गया
  • Apple M2 CPU जैसे सामान्य-purpose CPU पर भी चलने में सक्षम

प्रदर्शन तुलना और benchmark नतीजे

  • BitNet b1.58 2B4T ने कुछ benchmark में निम्नलिखित मॉडलों से बेहतर प्रदर्शन दिखाया:
    • Meta Llama 3.2 1B
    • Google Gemma 3 1B
    • Alibaba Qwen 2.5 1.5B
  • इस्तेमाल किए गए प्रमुख benchmark:
    • GSM8K: प्राथमिक-स्तर के गणित प्रश्नों का मूल्यांकन
    • PIQA: भौतिक common-sense reasoning क्षमता का मूल्यांकन
  • कुछ परीक्षणों में अधिकतम 2 गुना तेज गति, और memory usage काफी कम

सीमाएं और compatibility समस्याएं

  • BitNet का प्रदर्शन Microsoft के स्वामित्व वाले framework bitnet.cpp पर निर्भर करता है
  • bitnet.cpp फिलहाल केवल कुछ खास CPU को support करता है, GPU supported नहीं है
  • इसके कारण AI infrastructure के मानक GPU environment के साथ compatibility की कमी को इसकी कमी के रूप में देखा जा रहा है

4 टिप्पणियां

 
cartwheel8815 2025-04-21

> BitNet एक 1-बिट quantization लागू करने वाला AI मॉडल है, जो parameters को व्यक्त करने के लिए केवल -1, 0, 1 इन तीन मानों का उपयोग करता है।

मान तो 3 हैं, फिर 1-बिट? यह अजीब लगा, इसलिए HN के कुछ comments देखे,

> https://compilade.net/blog/ternary-packing

हर byte में 2 मान दिखाने वाले 8 bits की जगह 3 मान दिखाने वाले 5 ternary digits के रूप में इसे संभाला जाता है, इसलिए सख्ती से देखें तो यह 1-बिट मॉडल नहीं बल्कि log(3) / log(2) = 1.5849...-बिट मॉडल है। मॉडल के नाम में b1.58 शामिल है, तो लगता है यही सही है।

 
cartwheel8815 2025-04-21

चौथी पंक्ति में 2억 개의 파라미터를 को 20억 개의 파라미터를 में बदलना होगा।

 
GN⁺ 2025-04-18
Hacker News की राय
  • Microsoft का BitNet, FP16 या BF16 जैसी precision वाले Transformer LLM की तुलना में, समान model size और training tokens इस्तेमाल करते हुए भी latency, memory, throughput और energy consumption के लिहाज़ से अधिक cost-efficient है
    • GitHub लिंक और arXiv पेपर के ज़रिए अधिक जानकारी मिल सकती है
  • AI model के "parameter count" को AI model के "GHz" जैसा माना जा सकता है
    • तुलना किए गए सभी models में 1-2 billion parameters हैं, लेकिन उनका वास्तविक आकार 10 गुना या उससे अधिक अलग हो सकता है
  • ज़्यादातर free LLM, CPU पर चल सकते हैं
    • दावा यह है कि यह model CPU पर उपयोगी स्तर की तेज़ी से चलता है
    • GPU पर इसकी run speed पता नहीं है, इसलिए इस दावे की सटीकता को लेकर पूरी तरह आश्वस्त नहीं हुआ जा सकता
  • BitNet b1.58 2B4T model, समान आकार के अन्य models की तुलना में तेज़ है और कम memory इस्तेमाल करता है
    • model size 1GB से अधिक है, और 1-2GB के कई models हैं जो modern CPU पर भी अच्छी तरह चलते हैं
  • NVidia, CUDA के ज़रिए software-level lock-in को तेज़ी से आगे बढ़ा रहा है
    • नहीं तो उसके stock का हाल Zoom जैसा हो सकता है
  • इसे "1-bit" कहा जाता है, लेकिन वास्तव में यह {-1, 0, 1} का उपयोग करता है
    • इस हिस्से को लेकर भ्रम हो सकता है
  • यह जानने की जिज्ञासा है कि क्या कोई library है जो बड़े models को BitNet में distill कर सके
  • यह MIT license के तहत सार्वजनिक रूप से उपलब्ध है, और Apple के M2 सहित CPU पर चल सकता है
    • M2 पहले से ही 7GB या 13GB के LLama और Mistral models को आसानी से चलाता है
  • M series और MacBook इतने आम हो गए हैं कि शायद लोग भूल जाते हैं कि औसत CPU (i3 या i5) कितना कमज़ोर हो सकता है
  • price war आगे भी निचले स्तर तक जाती रहेगी
  • यह 1 साल से भी पुरानी तकनीक है, फिर भी हर कोई इस पर शिफ्ट नहीं हुआ है
    • कारणों को देखें तो यह तकनीक वास्तव में metrics को प्रभावित करती है, और कुछ पर इसका असर दूसरों की तुलना में अधिक है
    • यह कोई universal solution नहीं है
 
cartwheel8815 2025-04-21

चौथी पंक्ति में 비교된 모든 모델은 1-2억 개의 -> 비교된 모든 모델은 10-20억 개의
AI में billion का अनुवाद अजीब लग रहा है।