1-बिट LLM का युग: किफायती कंप्यूटिंग के लिए ternary parameters

(arxiv.org)

17 पॉइंट द्वारा GN⁺ 2024-02-29 | 2 टिप्पणियां | WhatsApp पर शेयर करें

1-बिट Large Language Models का युग: सभी Large Language Models 1.58 बिट पर हैं

हालिया शोध BitNet, 1-बिट Large Language Models (LLMs) के एक नए युग की शुरुआत कर रहा है.
इस शोध में BitNet b1.58 पेश किया गया है, जो 1-बिट LLM का एक वैरिएंट है, जिसमें हर एक पैरामीटर (या weight) ternary {-1, 0, 1} होता है.
BitNet b1.58, समान model size और training tokens वाले full-precision (जैसे FP16 या BF16) Transformer LLMs के मुकाबले complexity और अंतिम task performance में बराबरी करता है, जबकि latency, memory, throughput और energy consumption के मामले में कहीं अधिक cost-efficient है.
और गहराई से देखें तो, 1.58-बिट LLMs एक नई scaling law और recipe को परिभाषित करते हैं, जिनसे high-performance और cost-efficient LLMs की नई पीढ़ी को train किया जा सकता है.
यह एक नए computing paradigm को भी संभव बनाता है और 1-बिट LLMs के लिए optimized खास hardware design करने का रास्ता खोलता है.

GN⁺ की राय

1-बिट LLMs, मौजूदा Large Language Models की तुलना में कहीं अधिक efficient computation संभव बना सकते हैं, जिससे AI research और applications में energy consumption और लागत को काफी कम करने की क्षमता है.
इस तकनीक को वास्तव में व्यापक रूप से अपनाए जाने के लिए, मौजूदा hardware और software infrastructure के साथ compatibility और integration के मुद्दे एक महत्वपूर्ण विचार होंगे.
1-बिट LLMs से मिलने वाले फायदे, model size और complexity बढ़ने के साथ और भी महत्वपूर्ण हो जाएंगे, और यह खासकर resource-constrained environments में AI तकनीक का उपयोग करना चाहने वाले developers के लिए आकर्षक होगा.
इस क्षेत्र में Google TPU जैसे AI-specific hardware पहले से मौजूद हैं, लेकिन 1-बिट LLMs के लिए specialized hardware design एक नया market opportunity पैदा कर सकता है.
इस तकनीक को अपनाने से संभावित व्यावहारिक लाभ यह है कि model accuracy और response speed बनाए रखते हुए power consumption और लागत को कम किया जा सके, लेकिन वास्तविक उपयोग में मौजूदा models के साथ performance gap, compatibility issues, और नए hardware requirements जैसे पहलुओं पर विचार करना होगा.

2 टिप्पणियां

kuroneko 2024-02-29

यह बहुत ही दिलचस्प है। यह जानकर हैरानी होती है कि floating point नहीं, सिर्फ {-1, 0, 1} से भी यह संभव था...
आगे यह कैसे विकसित होगा, इसे लेकर काफ़ी उत्सुकता है।

xguru 2024-02-29

Hacker News की राय

शोध के बारे में दो चौंकाने वाली खोजें:
- मौजूदा बड़े भाषा मॉडल (LLM) के parameter मानों को real number की जगह ternary (-1, 0, 1) से बदला जा सकता है।
- matrix multiplication में हर dot product के element-wise multiplication को element-wise addition से बदला जा सकता है, और sign मान के अनुसार बदलता है।
- मौजूदा hardware पर इस तरीके का उपयोग करने से computation और memory efficiency में बड़ा सुधार होता है, बिना performance loss के।
- अगर hardware में इस तरीके को लागू किया जाए तो efficiency में और भी बड़ा सुधार देखा जा सकता है।
BitNet b1.58 की performance और efficiency:
- BitNet b1.58, 3B आकार से full-precision baseline model के बराबर performance दिखाता है।
- यह model performance और inference cost के लिए नए scaling laws को संभव बनाता है।
- 13B BitNet b1.58, latency, memory usage और energy consumption के मामले में 3B FP16 LLM से अधिक efficient है।
- 30B BitNet b1.58, 7B FP16 LLM से, और 70B BitNet b1.58, 13B FP16 LLM से अधिक efficient है।
- यह paper LLM efficiency में एक बड़ा breakthrough दिखाता है, जहाँ efficiency gains बिना performance loss के हासिल होते हैं।
मौजूदा models को इस नए तरीके में बदला जा सकता है या नहीं, इस पर सवाल, और NVIDIA के stock price पर मज़ाक।
AI applications में transistor की भूमिका पर फिर से सोचने की ज़रूरत पर विचार:
- AI में entropy reduction कोई बहुत बड़ी समस्या नहीं है, इसलिए उपलब्ध voltage range का ज़्यादा उपयोग किया जाना चाहिए।
- transistor की भूमिका पर पुनर्विचार करने और यह सुझाव देने की बात कि शायद NAND gate मूल building block न हो।
floating-point representation पर एक ब्लॉग पोस्ट से जोड़ते हुए नए representation तरीकों पर विचार:
- floating-point standard में +0.0 और -0.0 के बीच का फर्क उपयोगी होता है।
- LLM paper में इस्तेमाल किए गए {-1, 0, -1} मानों से जोड़ते हुए यह सवाल कि क्या 2-bit {-1, -0, 0, 1} representation अतिरिक्त लाभ दे सकता है।
- दूसरे LLM quantization papers में प्रस्तावित 2-bit quantization values को लेकर जिज्ञासा।
शोध परिणामों की वास्तविकता पर संदेह, और Microsoft Research तथा UCAS के लेखकों की पुष्टि के बाद उनके महत्व को समझना:
- नतीजे इतने अच्छे लगे कि पहले वे वास्तविक हैं या नहीं, इस पर शक हुआ, लेकिन authors को देखकर लगा कि यह सच है।
- उम्मीद है कि इससे सिर्फ edge computing applications ही नहीं, बल्कि cloud में high-performance LLM उपलब्ध कराने की लागत भी कम होगी।
- दीर्घकालिक आर्थिक प्रभावों पर विचार और नए competitors के उभरने की संभावना पर अटकलें।
'bit' और 'trit' की व्याख्या तथा ternary computing की सैद्धांतिक संभावना पर चर्चा:
- 'bit' की जगह 'trit' शब्द का उपयोग, और ternary computing की संभावनाओं पर सैद्धांतिक व्याख्या।
- ternary computing पर Soviet research और सैद्धांतिक रूप से आदर्श e-base का उल्लेख।
GigaML की नई model training योजना और सहयोग का प्रस्ताव:
- GigaML ने llama.cpp के साथ compatible नया model train करने की योजना की घोषणा की।
- छोटा model (3-4B, 1-bit, open source) नवीनतम stack-v2 dataset पर train किया जाएगा, और सहयोगियों की तलाश है।
नतीजों को लेकर skeptical नज़रिया और reproducibility की ज़रूरत पर ज़ोर:
- इस तरह के सुधारों को लेकर आलोचनात्मक दृष्टिकोण, और अत्यधिक quantization के पिछले प्रयासों के अनुभव का उल्लेख।
LLM क्षेत्र में एक बड़े breakthrough और single card पर 120B model चलाने की संभावना पर आश्चर्य:
- FP16 models जैसी ही performance और complexity हासिल करते हुए, 24GB VRAM वाले single card पर 120B model चलाने की क्षमता पर आश्चर्य।