- Llama 3 के पहले दो मॉडल (pre-trained और instruction-tuned 8B तथा 70B मॉडल) जारी किए गए
- व्यापक इंडस्ट्री benchmarks में state-of-the-art प्रदर्शन दिखाते हैं और बेहतर reasoning जैसी नई क्षमताएँ प्रदान करते हैं
- लक्ष्य है कि आज उपलब्ध सर्वश्रेष्ठ proprietary models के बराबरी का सर्वश्रेष्ठ open model बनाया जाए। डेवलपर feedback को शामिल करना और तेज़ी से, बार-बार रिलीज़ करना उद्देश्य है
- Llama Guard 2, Code Shield, CyberSec Eval 2 जैसे नए trust और safety tools पेश किए गए
- आने वाले कुछ महीनों में नई क्षमताएँ, लंबी context window, अतिरिक्त model sizes और बेहतर प्रदर्शन लाया जाएगा, और Llama 3 research paper भी साझा किया जाएगा
- AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM, Snowflake आदि पर जल्द उपलब्ध होगा, और AMD, AWS, Dell, Intel, NVIDIA, Qualcomm जैसे hardware platforms पर भी समर्थित होगा
- Llama 3 तकनीक से बना Meta AI अब दुनिया के शीर्ष AI assistants में से एक है, जो उपयोगकर्ता की बुद्धिमत्ता बढ़ाने और बोझ कम करने में मदद कर सकता है
Llama 3 का प्रदर्शन
- 8B और 70B parameter वाले Llama 3 मॉडल, Llama 2 की तुलना में एक बड़ी छलांग हैं और अपने आकार वर्ग में LLMs के लिए नया उच्चतम स्तर हासिल करते हैं
- pre-training और post-training में सुधार की वजह से pre-trained और instruction-tuned मॉडल 8B और 70B parameter scale पर वर्तमान के सर्वश्रेष्ठ मॉडल हैं
- post-training प्रक्रिया में सुधार से false refusal rate काफ़ी कम हुई है, alignment बेहतर हुआ है, और model responses की विविधता बढ़ी है
- reasoning, code generation और instruction following जैसी क्षमताओं में भी बड़ा सुधार हुआ है, जिससे Llama 3 अधिक steerable बन गया है
- Llama 3 के विकास में standard benchmarks पर model performance का अध्ययन किया गया और real-world scenarios के लिए प्रदर्शन अनुकूलित करने पर भी ज़ोर दिया गया
- इसके लिए 12 प्रमुख use cases को कवर करने वाले 1,800 prompts के साथ एक नया high-quality human evaluation set विकसित किया गया
- इस evaluation set से पता चला कि 70B instruction-following model, real-world scenarios में समान आकार के प्रतिस्पर्धी मॉडलों की तुलना में मज़बूत प्रदर्शन दिखाता है
- pre-trained मॉडल ने भी अपने आकार वर्ग में LLMs के लिए नया state-of-the-art हासिल किया
- उनका मानना है कि बेहतरीन language models विकसित करने के लिए innovation, scaling और simplicity optimization महत्वपूर्ण हैं
- Llama 3 प्रोजेक्ट में इसी design philosophy को अपनाते हुए चार मुख्य तत्वों पर ध्यान दिया गया: model architecture, pre-training data, pre-training scaling और instruction tuning
मॉडल architecture
- Llama 3 में अपेक्षाकृत standard decoder-only transformer architecture चुना गया
- Llama 2 की तुलना में इसमें कुछ प्रमुख सुधार हैं
- Llama 3, 128K token vocabulary वाले tokenizer का उपयोग करता है, जो भाषा को कहीं अधिक कुशलता से encode करता है और model performance को काफ़ी बेहतर बनाता है
- Llama 3 मॉडल की inference efficiency बेहतर करने के लिए 8B और 70B दोनों आकारों में grouped-query attention (GQA) अपनाया गया है
- self-attention को document boundaries के पार जाने से रोकने के लिए model को 8,192 token sequences पर mask के साथ train किया गया
ट्रेनिंग डेटा
- सर्वश्रेष्ठ language models को train करने के लिए बड़े पैमाने पर high-quality training dataset का curation सबसे महत्वपूर्ण है
- Llama 3 को सार्वजनिक रूप से उपलब्ध स्रोतों से जुटाए गए 15T से अधिक tokens पर pre-train किया गया
- training dataset, Llama 2 में उपयोग किए गए dataset से 7 गुना बड़ा है और इसमें 4 गुना अधिक code शामिल है
- भविष्य के multilingual use cases की तैयारी के लिए Llama 3 pre-training dataset का 5% से अधिक हिस्सा 30 से अधिक भाषाओं को कवर करने वाले high-quality non-English data से बना है
pre-training scaling
- Llama 3 मॉडल में pre-training data का प्रभावी उपयोग करने के लिए pre-training scaling पर काफ़ी प्रयास किया गया
- खास तौर पर downstream benchmark evaluation के लिए विस्तृत scaling laws की एक श्रृंखला विकसित की गई
- इन scaling laws के ज़रिये optimal data mix चुनने और training compute का सर्वोत्तम उपयोग करने के बारे में सूचित निर्णय लिए जा सकते हैं
instruction tuning
- chat use cases में pre-trained मॉडल की क्षमता को पूरी तरह सामने लाने के लिए instruction tuning approach में भी नवाचार किया गया
- post-training के लिए अपनाया गया तरीका supervised fine-tuning (SFT), rejection sampling, proximal policy optimization (PPO) और direct policy optimization (DPO) का संयोजन है
- SFT में उपयोग होने वाले prompts की गुणवत्ता और PPO तथा DPO में उपयोग की जाने वाली preference rankings, aligned model के प्रदर्शन पर बहुत अधिक प्रभाव डालती हैं
Llama 3 के साथ निर्माण
- Meta का vision है कि डेवलपर्स Llama 3 को customize करके संबंधित use cases को support कर सकें, best practices को आसानी से अपना सकें और open ecosystem को बेहतर बना सकें
- इस release में Llama Guard 2 और Cybersec Eval 2 के साथ updated components वाले नए trust और safety tools पेश किए गए हैं, साथ ही Code Shield भी, जो LLM द्वारा उत्पन्न unsafe code को फ़िल्टर करने के लिए inference-time guardrail है
- इसके अलावा Llama 3 को torchtune के साथ विकसित किया गया है, जो LLMs को आसानी से author, fine-tune और experiment करने के लिए एक नई PyTorch-native library है
ज़िम्मेदार विकास और deployment के लिए system-level approach
- Llama 3 मॉडल इस तरह डिज़ाइन किए गए हैं कि वे अधिकतम उपयोगी हों और साथ ही इंडस्ट्री-स्तरीय सर्वश्रेष्ठ responsible deployment approach भी सुनिश्चित करें
- इसके लिए Llama के responsible development और deployment के लिए एक नया system-level approach अपनाया गया है
- Llama models को उस system के foundational element के रूप में देखा गया है जिसे डेवलपर्स अपने विशिष्ट end goals को ध्यान में रखकर डिज़ाइन करते हैं
- instruction tuning, model safety सुनिश्चित करने में महत्वपूर्ण भूमिका निभाता है
- instruction-tuned models को internal और external प्रयासों के ज़रिये safety के लिए red teaming से गुज़ारा जाता है
- ये प्रयास iterative हैं और जारी किए जाने वाले models की safety tuning में उपयोग होते हैं
- Llama Guard models, prompt और response safety की नींव प्रदान करते हैं और application requirements के अनुसार नई classifications आसानी से बनाई जा सकती हैं
- नया Llama Guard 2, इंडस्ट्री standard support के लिए हाल ही में घोषित MLCommons taxonomy का उपयोग करता है
- CyberSecEval 2, LLMs में code interpreter exploitation tendency, offensive cybersecurity capability और prompt injection attacks के प्रति vulnerability की measurement जोड़कर पिछले संस्करण का विस्तार करता है
- Code Shield, LLM द्वारा उत्पन्न unsafe code के लिए inference-time filtering को support करता है, जिससे unsafe code suggestions, code interpreter exploitation prevention और secure command execution से जुड़े जोखिम कम होते हैं
Llama 3 का बड़े पैमाने पर deployment
- Llama 3 जल्द ही cloud providers, model API providers और अन्य प्रमुख platforms पर उपलब्ध होगा
- benchmarks के अनुसार tokenizer, Llama 2 की तुलना में 15% तक कम tokens बनाता है, जिससे token efficiency बेहतर होती है
- grouped-query attention (GQA) अब Llama 3 8B में भी जोड़ा गया है
Llama 3 की आगे की योजना
- Llama 3 8B और 70B मॉडल, Llama 3 release plan की सिर्फ शुरुआत हैं
- आने वाले महीनों में multimodal, multilingual conversation capability, बहुत लंबी context window और कुल मिलाकर अधिक शक्तिशाली क्षमताओं वाले कई मॉडल जारी किए जाएंगे
- Llama 3 की training पूरी होने पर एक विस्तृत research paper भी प्रकाशित किया जाएगा
2 टिप्पणियां
बाकी cloud के बारे में तो नहीं पता, लेकिन Azure AI Studio पर Mixtral 8x22B के साथ Llma-3 (Meta-Llama-3-8B, Meta-Llama-3-70B, Meta-Llama-3-70B-Instruct, Meta-Llama-3-8B-Instruct) पहले से ही उपलब्ध है।