3 पॉइंट द्वारा GN⁺ 2024-07-11 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • ICML 2024 में प्रस्तुत "MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases" पेपर में परिचित कराए गए MobileLLM का training code शामिल है
  • इस शोध में 1 अरब से कम parameters वाले उच्च-गुणवत्ता LLM पाने के लिए कई design factors पर समग्र रूप से विचार किया गया है
  • MobileLLM को (1) SwiGLU activation function, (2) deep and thin architecture, (3) embedding sharing, (4) grouped-query attention को एकीकृत करके बनाया गया है
  • MobileLLM-125M/350M ने पहले के 125M/350M SoTA models की तुलना में zero-shot commonsense reasoning tasks में क्रमशः 2.7%/4.3% accuracy improvement हासिल किया है
  • अपडेटेड version में MobileLLM-600M/1B/1.5B models को बड़े models तक scale किया गया है और उन्होंने SoTA results दिखाए हैं

GN⁺ का सार

  • MobileLLM 1 अरब से कम parameters वाले उच्च-गुणवत्ता language models के लिए एक optimized design philosophy प्रस्तुत करता है
  • SwiGLU activation function, deep and thin architecture, embedding sharing, grouped-query attention जैसे तत्वों को एकीकृत करके performance बेहतर की जाती है
  • zero-shot commonsense reasoning tasks में इसने मौजूदा models की तुलना में अधिक accuracy हासिल की है
  • यह शोध mobile और embedded devices पर language model use cases के लिए महत्वपूर्ण योगदान देता है
  • समान क्षमताओं वाले projects में GPT-neo, OPT, BLOOM आदि शामिल हैं

1 टिप्पणियां

 
GN⁺ 2024-07-11
Hacker News राय
  • MobileLLM-125M/350M मॉडल ने पिछले 125M/350M SoTA मॉडलों की तुलना में 2.7%/4.3% सटीकता सुधार दिखाया

    • छोटे मॉडलों में थोड़ा सुधार हुआ है, लेकिन वे अभी भी online मॉडलों जैसे उपयोगों के लिए पर्याप्त नहीं हैं
    • यह उल्लेख किया गया कि क्रमिक प्रगति में कोई समस्या नहीं है
  • यह उल्लेख किया गया कि 1.5B parameter मॉडल ने काफ़ी बड़ी प्रगति हासिल की है

    • यह पूछा गया कि बड़े मॉडल क्यों इस्तेमाल नहीं किए गए
    • यह उल्लेख किया गया कि RPi आकार के hardware के लिए उपयुक्त efficient मॉडल game changer हो सकता है
    • यह उल्लेख किया गया कि TinyLlama 7B मॉडल मुश्किल से चलता है
  • यह पूछा गया कि क्या Apple Watch में छोटे मॉडलों की inference चलाने की hardware क्षमता है

    • यह पूछा गया कि क्या developer account की आवश्यकता है
  • यह पूछा गया कि क्या इसे केवल mobile device तक सीमित रहना चाहिए

    • यह उल्लेख किया गया कि अगर यह ज़्यादा resource-intensive न हो, तो यह गेम के NPC संवाद को अधिक रोचक बना सकता है
    • यह उल्लेख किया गया कि अगर इसे NPC की actions या behavior को प्रभावित करने के लिए tune किया जा सके, तो और बेहतर होगा
  • यह उल्लेख किया गया कि अभी device पर ही wake-word जैसी STT की आवश्यकता है

    • RPi 4B पर चल सकने वाले मॉडलों में सबसे कम WER वाले मॉडल की तलाश है
    • openWakeWord को देखा जा रहा है
    • यह उल्लेख किया गया कि इसकी ज़रूरत DIY inventory system के लिए है
  • iPhone पर चल सकने वाला app खोजा जा रहा है

    • अभी केवल MLC app के बारे में पता है, और उसमें सिर्फ 3 पुराने मॉडल हैं
  • यह जिज्ञासा व्यक्त की गई कि "गहरा और पतला" हिस्से को कितनी दूर तक आगे बढ़ाया जा सकता है

    • यह उल्लेख किया गया कि अगर FFN, L2 cache में फिट हो जाए, तो performance बेहतर होगी
  • यह पूछा गया कि क्या distillation जैसी विधियाँ मदद कर सकती हैं

  • यह उल्लेख किया गया कि छोटे मॉडलों में linear head और token embedding के बीच sharing/weight tying के ज़रिए आकार में सबसे बड़ी कमी मिलती दिखती है

    • इसके बाद आकार को और कम करने के तरीकों पर कोई research है या नहीं, यह पूछा गया
  • यह पूछा गया कि क्या इस मॉडल का उपयोग करके Windows PC पर भी मॉडल को train किया जा सकता है

    • यह उल्लेख किया गया कि बहुत अधिक RAM नहीं है
  • यह दिलचस्प है, लेकिन बेहतर auto-complete के अलावा इसके कौन-से use case हैं, यह पूछा गया