- Microsoft के शोधकर्ताओं ने BitNet b1.58 2B4T नाम का एक बेहद उच्च-दक्षता वाला AI मॉडल विकसित किया है
- 1-बिट quantization के जरिए उच्च गति और कम memory usage हासिल किया गया है, जिससे यह CPU पर भी चल सकता है, और इसे MIT लाइसेंस के तहत जारी किया गया है
- यह Apple M2 जैसे CPU पर भी चल सकता है और GPU के बिना काम करता है
- 2 अरब parameters वाला BitNet b1.58 2B4T, Meta, Google, Alibaba के मॉडलों से बेहतर प्रदर्शन करता है
- हालांकि, इसके लिए Microsoft के bitnet.cpp framework का उपयोग करना पड़ता है, और GPU के साथ compatibility की समस्या अभी भी बनी हुई है
Microsoft का अति-हल्का 1-बिट AI मॉडल BitNet b1.58 2B4T
अति-हल्के मॉडल BitNet की अवधारणा
- BitNet एक 1-बिट quantization लागू करने वाला AI मॉडल है, जो parameters को दर्शाने के लिए केवल -1, 0, 1 इन तीन मानों का उपयोग करता है
- पारंपरिक quantized मॉडल आमतौर पर 8-बिट या 4-बिट में व्यक्त किए जाते हैं, लेकिन BitNet केवल 1-बिट का उपयोग करके बेहद प्रभावशाली memory efficiency देता है
- यह तरीका लो-स्पेक hardware, खासकर GPU-रहित CPU environment में बड़ा फायदा देता है
BitNet b1.58 2B4T की विशेषताएं
- parameters की संख्या: 2 अरब
- training data: 4 ट्रिलियन tokens (लगभग 3.3 करोड़ पुस्तकों के बराबर)
- MIT लाइसेंस के तहत open source जारी किया गया
- Apple M2 CPU जैसे सामान्य-purpose CPU पर भी चलने में सक्षम
प्रदर्शन तुलना और benchmark नतीजे
- BitNet b1.58 2B4T ने कुछ benchmark में निम्नलिखित मॉडलों से बेहतर प्रदर्शन दिखाया:
- Meta Llama 3.2 1B
- Google Gemma 3 1B
- Alibaba Qwen 2.5 1.5B
- इस्तेमाल किए गए प्रमुख benchmark:
- GSM8K: प्राथमिक-स्तर के गणित प्रश्नों का मूल्यांकन
- PIQA: भौतिक common-sense reasoning क्षमता का मूल्यांकन
- कुछ परीक्षणों में अधिकतम 2 गुना तेज गति, और memory usage काफी कम
सीमाएं और compatibility समस्याएं
- BitNet का प्रदर्शन Microsoft के स्वामित्व वाले framework
bitnet.cpp पर निर्भर करता है
bitnet.cpp फिलहाल केवल कुछ खास CPU को support करता है, GPU supported नहीं है
- इसके कारण AI infrastructure के मानक GPU environment के साथ compatibility की कमी को इसकी कमी के रूप में देखा जा रहा है
4 टिप्पणियां
> BitNet एक 1-बिट quantization लागू करने वाला AI मॉडल है, जो parameters को व्यक्त करने के लिए केवल -1, 0, 1 इन तीन मानों का उपयोग करता है।
मान तो 3 हैं, फिर 1-बिट? यह अजीब लगा, इसलिए HN के कुछ comments देखे,
> https://compilade.net/blog/ternary-packing
हर byte में 2 मान दिखाने वाले 8 bits की जगह 3 मान दिखाने वाले 5 ternary digits के रूप में इसे संभाला जाता है, इसलिए सख्ती से देखें तो यह 1-बिट मॉडल नहीं बल्कि log(3) / log(2) = 1.5849...-बिट मॉडल है। मॉडल के नाम में
b1.58शामिल है, तो लगता है यही सही है।चौथी पंक्ति में
2억 개의 파라미터를को20억 개의 파라미터를में बदलना होगा।Hacker News की राय
चौथी पंक्ति में
비교된 모든 모델은 1-2억 개의->비교된 모든 모델은 10-20억 개의AI में billion का अनुवाद अजीब लग रहा है।