- LLaMa inference code को pure C++ में दोबारा लिखे गए LLaMA.cpp की वजह से इसे Pixel5, M2 MacBook Pro, Raspberry Pi जैसे विभिन्न हार्डवेयर पर चलाया जा सकता है
- बड़े models को आमतौर पर महंगे GPU की ज़रूरत होती है, तो यह कैसे संभव है?
- GPU अपने बड़े memory bandwidth और compute capability की वजह से deep learning के लिए फायदेमंद होते हैं, लेकिन memory bandwidth अक्सर inference की bottleneck बन जाती है
- क्योंकि वास्तविक computation के लिए HBM memory (RAM) से on-chip memory में डेटा ले जाना पड़ता है
- LLaMa weights के लिए RAM usage में Quantization महत्वपूर्ण है
- precision कम करने से model को memory में store करने के लिए आवश्यक memory की मात्रा को बहुत कम किया जा सकता है
- quantization के ज़रिए model को store करने के लिए आवश्यक memory कम हो जाती है, जिससे वह standard datacenter GPU और high-end consumer GPU की memory में फिट हो सकता है
- memory bandwidth transformer के sampling से जुड़े लगभग सभी कामों में limiting factor है
- quantization जैसी विधियों से memory requirements कम कर दी जाएँ, तो serving बहुत आसान हो जाता है
- यही distillation या "छोटे models को ज़्यादा लंबे समय तक train करना" का एक और कारण है
3 टिप्पणियां
मैंने लोकल मशीन पर LlamaCpp के साथ llama2 लोड करके embedding test किया।
https://breezymind.com/llamacpp-embedding
HN की पहली टिप्पणी उपयोगी है
Hacker News राय