- ICML 2024 में प्रस्तुत "MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases" पेपर में परिचित कराए गए MobileLLM का training code शामिल है
- इस शोध में 1 अरब से कम parameters वाले उच्च-गुणवत्ता LLM पाने के लिए कई design factors पर समग्र रूप से विचार किया गया है
- MobileLLM को (1) SwiGLU activation function, (2) deep and thin architecture, (3) embedding sharing, (4) grouped-query attention को एकीकृत करके बनाया गया है
- MobileLLM-125M/350M ने पहले के 125M/350M SoTA models की तुलना में zero-shot commonsense reasoning tasks में क्रमशः 2.7%/4.3% accuracy improvement हासिल किया है
- अपडेटेड version में MobileLLM-600M/1B/1.5B models को बड़े models तक scale किया गया है और उन्होंने SoTA results दिखाए हैं
GN⁺ का सार
- MobileLLM 1 अरब से कम parameters वाले उच्च-गुणवत्ता language models के लिए एक optimized design philosophy प्रस्तुत करता है
- SwiGLU activation function, deep and thin architecture, embedding sharing, grouped-query attention जैसे तत्वों को एकीकृत करके performance बेहतर की जाती है
- zero-shot commonsense reasoning tasks में इसने मौजूदा models की तुलना में अधिक accuracy हासिल की है
- यह शोध mobile और embedded devices पर language model use cases के लिए महत्वपूर्ण योगदान देता है
- समान क्षमताओं वाले projects में GPT-neo, OPT, BLOOM आदि शामिल हैं
1 टिप्पणियां
Hacker News राय
MobileLLM-125M/350M मॉडल ने पिछले 125M/350M SoTA मॉडलों की तुलना में 2.7%/4.3% सटीकता सुधार दिखाया
यह उल्लेख किया गया कि 1.5B parameter मॉडल ने काफ़ी बड़ी प्रगति हासिल की है
यह पूछा गया कि क्या Apple Watch में छोटे मॉडलों की inference चलाने की hardware क्षमता है
यह पूछा गया कि क्या इसे केवल mobile device तक सीमित रहना चाहिए
यह उल्लेख किया गया कि अभी device पर ही wake-word जैसी STT की आवश्यकता है
iPhone पर चल सकने वाला app खोजा जा रहा है
यह जिज्ञासा व्यक्त की गई कि "गहरा और पतला" हिस्से को कितनी दूर तक आगे बढ़ाया जा सकता है
यह पूछा गया कि क्या distillation जैसी विधियाँ मदद कर सकती हैं
यह उल्लेख किया गया कि छोटे मॉडलों में linear head और token embedding के बीच sharing/weight tying के ज़रिए आकार में सबसे बड़ी कमी मिलती दिखती है
यह पूछा गया कि क्या इस मॉडल का उपयोग करके Windows PC पर भी मॉडल को train किया जा सकता है
यह दिलचस्प है, लेकिन बेहतर auto-complete के अलावा इसके कौन-से use case हैं, यह पूछा गया