3 पॉइंट द्वारा GN⁺ 2024-04-22 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Meta-Llama-3-8B-Instruct का प्रदर्शन

  • 8B मॉडल होते हुए भी यह Wizard 22B के लगभग बराबर प्रदर्शन दिखाता है
  • मौजूदा 70B मॉडलों से भी बेहतर reasoning क्षमता दिखाता है
  • समस्या-समाधान, कोडिंग क्षमता और कई अन्य क्षेत्रों में बहुत उत्कृष्ट प्रदर्शन दिखाता है

Meta-Llama-3-8B-Instruct की विशेषताएँ

  • Meta ने बड़े पैमाने पर संसाधन लगाकर, लंबे समय तक और अधिक डेटा पर ट्रेनिंग करके यह मॉडल तैयार किया है
  • डेवलपर और हार्डवेयर के अनुसार प्रदर्शन में अंतर हो सकता है। inference parameters के अनुसार भी परिणाम बदल सकते हैं
  • FP16 संस्करण में यह Q8_0 के लगभग समान प्रदर्शन दिखाता है। 8B के लिए इस स्तर का प्रदर्शन quantized model के रूप में सर्वोच्च श्रेणी का है
  • इसकी generated सामग्री में कभी-कभी तीखापन और चतुराई दिखाई देती है। यह वाक्य के आशय को समझकर उपयुक्त प्रतिक्रिया देता है

GN⁺ की राय

  • एकल query पर यह भरोसेमंद उत्तर देता है, लेकिन conversational multi-turn में अभी भी सीमाएँ दिखती हैं। prompt template optimization और hyperparameter tuning के जरिए सुधार की आवश्यकता है
  • 3B मॉडल की तुलना में 8B मॉडल का प्रदर्शन बहुत बेहतर है, इसलिए 8B-स्तर के मॉडलों को अलग-अलग तरीके से fine-tune करके विशेषीकृत मॉडल बनाना आशाजनक लगता है
  • भाषा समझ और reasoning क्षमता उत्कृष्ट होने के कारण, knowledge-intensive और विशेषज्ञता वाले क्षेत्रों में इसके उपयोग की संभावना अधिक है। इसे medical, legal, finance जैसे डोमेन के लिए विशेषीकृत मॉडल के रूप में विकसित किया जा सकता है
  • Meta ने अपने संसाधनों और तकनीकी क्षमता के बल पर 8B मॉडल को इस स्तर तक पहुँचाया है, जो एक बड़ी उपलब्धि है। आगे चलकर personal PC पर भी high-performance AI मॉडल चलाना संभव हो सकता है
  • 8B और 70B के बीच के मध्यम आकार के मॉडल का सार्वजनिक न होना थोड़ा खलता है। अगर लगभग 32B आकार का मॉडल आता है, तो उससे प्रदर्शन और दक्षता का बेहतर संतुलन मिलने की उम्मीद है

1 टिप्पणियां

 
GN⁺ 2024-04-22
Hacker News राय
  • Llama 3 8B मॉडल इस सवाल का जवाब देता है कि अगर छोटे मॉडल को बहुत लंबे समय तक train किया जाए तो क्या परिणाम निकलते हैं। यह रुझान Mistral मॉडल से शुरू हुआ था, और Llama 3 में यह और गहरा हुआ है। 8B parameter मॉडल के लिए 15T tokens का इस्तेमाल अब तक न देखे गए स्तर का है.
  • यह ऐसा release है जो छोटे मॉडलों की quality improvement को लेकर उम्मीदें बढ़ाता है.
  • Llama 3 कुछ ज़्यादा बातूनी लगता है, और ऐसा भी लगता है कि यह कुछ गलत धारणाएँ बना लेता है। उदाहरण के लिए, इसने कल्पना की कि आसमान की ओर थूकने पर वह बादलों तक पहुँच सकता है, फिर खुद ही सुधार लिया कि हकीकत में ऐसा नहीं होता.
  • यह जानने की जिज्ञासा है कि ऐसे नतीजे ज्यादा training और उससे आई capability improvement की वजह से हैं, या फिर इसलिए कि ऐसे riddles अब काफी जाने-पहचाने हैं और training data में अच्छी तरह मौजूद हैं.
  • Llama 3 की खास बात यह है कि training data deduplication (quality) और training data increase (quantity) पर अतिरिक्त मेहनत की गई है, और training material के रूप में 4 गुना ज्यादा code इस्तेमाल किया गया है (जो reasoning के लिए अच्छा है).
  • training data curation और generation पर ज्यादा मेहनत करके शायद ऐसे छोटे मॉडलों में भी बहुत बड़ा performance improvement देखने की उम्मीद की जा सकती है.
  • Llama 3 अभी भी Mixture of Experts(MoE) का इस्तेमाल नहीं करता। इससे संकेत मिलता है कि बहुत बड़े MoE मॉडल बनाना संसाधनों की बर्बादी हो सकता है.
  • Meta Nvidia AI chips पर अरबों डॉलर खर्च कर रहा है। आगे के 5 सालों में फोन और laptop पर GPT-4 स्तर का 8B मॉडल चलाना संभव लगता है.
  • 8b-instruct मॉडल की reasoning क्षमता ने गहरा प्रभाव डाला। छोटे मॉडलों का भविष्य उत्साहजनक लगता है.
  • local LLM की सबसे बड़ी समस्या यह है कि लोग इसे कैसे इस्तेमाल करते हैं, उसके आधार पर उनकी राय अलग-अलग हो सकती है.
  • ज्यादातर कंपनियाँ model training को लगातार जारी रखती हैं, और training खत्म होने का कोई तय बिंदु नहीं होता। इससे समझ आता है कि GPU पर इतना भारी खर्च क्यों होता है.
  • अगर आज ही इस मॉडल को फोन पर चलाना हो, तो पहले Termux में llama.cpp चलाना होगा और फिर ggml जैसे model files लोड करने से शुरुआत करनी होगी.
  • यह देखकर हैरानी होती है कि 8B मॉडल "1kg लोहे और 2kg पंखों में कौन ज्यादा भारी है?" जैसे सवाल का गलत जवाब देता है। GPT-3.5 ने भी गलती की थी, लेकिन 70B मॉडल और GPT-4 सही जवाब देते हैं.