Meta Llama 3 पर Andrej Karpathy का मूल्यांकन

xguru · 2024-04-19T09:17:00+09:00

8B, 70B (बेस मॉडल और fine-tuned मॉडल दोनों) जारी किए गए हैं। ये अपने-अपने मॉडल वर्ग में मज़बूत प्रदर्शन दिखाते हैं। 400B मॉडल अभी भी training में है, लेकिन यह पहले ही GPT-4 के क्षेत्र के काफ़ी करीब पहुँच रहा है (उदाहरण: MMLU 84.8 बनाम GPT-4 का 86.5) टोकनाइज़र टोकन की संख्या 32K (Llama 2) से बढ़कर 128K (Llama 3) हो गई, यानी 4 गुना वृद्धि अधिक टोकन के साथ sequence length को और compress किया जा सकता है। 15% कम tokens का दावा किया गया है और downstream performance में सुधार हुआ है आर्किटेक्चर Llama 2 में केवल बड़े मॉडल ही Grouped Query Attention (GQA) का उपयोग करते थे, लेकिन अब सबसे छोटे 8B मॉडल सहित सभी मॉडल GQA का उपयोग करते हैं GQA, Attention के key/value के लिए parameter sharing की व्यवस्था है, जो inference के दौरान KV cache का आकार घटाती है यह complexity कम करने और optimization के लिहाज़ से एक अच्छा और स्वागतयोग्य बदलाव है sequence length context window में अधिकतम tokens की संख्या 4096 (Llama 2) और 2048 (Llama 1) से बढ़कर 8192 हो गई है यह बढ़ोतरी स्वागतयोग्य है, लेकिन मौजूदा मानकों (जैसे GPT-4 का 128K) की तुलना में काफ़ी छोटी है बहुत से लोगों ने शायद इस पहलू पर इससे अधिक की उम्मीद की होगी। बाद में fine-tuning से शायद यह संभव हो (?) training data Llama 2 को 2T tokens पर train किया गया था, और Llama 3 के लिए इसे बढ़ाकर 15T training dataset किया गया है data quality, 4 गुना अधिक code tokens, और 30 से अधिक भाषाओं में 5% non-en tokens पर काफ़ी ध्यान दिया गया है 5% non-en:en mix के मुकाबले काफ़ी कम है, इसलिए यह मॉडल मुख्य रूप से अंग्रेज़ी मॉडल है। फिर भी 0 से अधिक होना काफ़ी अच्छा है scaling law 15T, 8B parameters जैसे "छोटे" मॉडल के training के लिए बहुत बड़ा dataset है, और यह एक नया तथा बेहद स्वागतयोग्य कदम है जो आम तौर पर नहीं किया जाता Chinchilla "compute optimal" point पर 8B मॉडल को train करने के लिए लगभग ~200B tokens पर्याप्त होते अगर आपकी रुचि केवल मॉडल performance के "bang-for-the-buck" में है, तो इतना काफ़ी है लेकिन Meta ने इस बिंदु से लगभग ~75 गुना आगे तक training की, जो असामान्य है, लेकिन व्यक्तिगत रूप से मुझे यह बहुत स्वागतयोग्य लगता है। इससे हम सबको बहुत छोटे, काम करने में आसान और inference के लिए सरल, लेकिन बेहद सक्षम मॉडल मिलते हैं Meta का कहना है कि इस बिंदु पर भी मॉडल पारंपरिक अर्थ में "converge" होता नहीं दिखता यानी जिन LLMs के साथ हम हमेशा काम करते हैं, वे 100-1000 गुना या उससे भी लंबी training से वंचित हैं और convergence point के करीब भी नहीं हैं उम्मीद है कि आगे भी और लंबे समय तक trained, लेकिन कहीं छोटे मॉडल जारी करने का रुझान जारी रहेगा सिस्टम बताया गया है कि Llama 3 को 16K GPU पर 400 TFLOPS के observed throughput के साथ train किया गया सीधे तौर पर नहीं कहा गया, लेकिन मान लेते हैं कि ये H100 fp16 हैं, जिनके लिए NVIDIA की marketing material में 1,979 TFLOPS बताया जाता है लेकिन हम सब जानते हैं कि उनका छोटा-सा asterisk (*with sparsity) बहुत काम कर रहा है, और वास्तविक TFLOPS पाने के लिए इस संख्या को 2 से भाग देकर ~990 मानना चाहिए (sparsity को FLOPS में क्यों गिना जाता है?) खैर, 400/990 ~= 40% utilization निकलता है, जो इतने बड़े GPU cluster पर काफ़ी बुरा नहीं है! इस scale पर यहाँ तक पहुँचने के लिए बहुत मज़बूत engineering की ज़रूरत होती है सारांश Llama 3 एक बहुत सक्षम दिखने वाली मॉडल रिलीज़ है और इसका स्वागत किया जाना चाहिए यह बुनियादी बातों पर टिके रहते हुए, मज़बूत systems और data work पर बहुत समय लगाता है, और long-training models की सीमाओं को explore करता है 400B मॉडल को लेकर भी काफ़ी उत्साह है, क्योंकि यह GPT-4 स्तर की पहली open source रिलीज़ हो सकती है मेरा मानना है कि बहुत से लोग अधिक लंबी context length की माँग करेंगे

(twitter.com/karpathy)

16 पॉइंट द्वारा xguru 2024-04-19 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

8B, 70B (बेस मॉडल और fine-tuned मॉडल दोनों) जारी किए गए हैं। ये अपने-अपने मॉडल वर्ग में मज़बूत प्रदर्शन दिखाते हैं।
400B मॉडल अभी भी training में है, लेकिन यह पहले ही GPT-4 के क्षेत्र के काफ़ी करीब पहुँच रहा है (उदाहरण: MMLU 84.8 बनाम GPT-4 का 86.5)

टोकनाइज़र

टोकन की संख्या 32K (Llama 2) से बढ़कर 128K (Llama 3) हो गई, यानी 4 गुना वृद्धि
अधिक टोकन के साथ sequence length को और compress किया जा सकता है। 15% कम tokens का दावा किया गया है और downstream performance में सुधार हुआ है

आर्किटेक्चर

Llama 2 में केवल बड़े मॉडल ही Grouped Query Attention (GQA) का उपयोग करते थे, लेकिन अब सबसे छोटे 8B मॉडल सहित सभी मॉडल GQA का उपयोग करते हैं
GQA, Attention के key/value के लिए parameter sharing की व्यवस्था है, जो inference के दौरान KV cache का आकार घटाती है
यह complexity कम करने और optimization के लिहाज़ से एक अच्छा और स्वागतयोग्य बदलाव है

sequence length

context window में अधिकतम tokens की संख्या 4096 (Llama 2) और 2048 (Llama 1) से बढ़कर 8192 हो गई है
यह बढ़ोतरी स्वागतयोग्य है, लेकिन मौजूदा मानकों (जैसे GPT-4 का 128K) की तुलना में काफ़ी छोटी है
बहुत से लोगों ने शायद इस पहलू पर इससे अधिक की उम्मीद की होगी। बाद में fine-tuning से शायद यह संभव हो (?)

training data

Llama 2 को 2T tokens पर train किया गया था, और Llama 3 के लिए इसे बढ़ाकर 15T training dataset किया गया है
data quality, 4 गुना अधिक code tokens, और 30 से अधिक भाषाओं में 5% non-en tokens पर काफ़ी ध्यान दिया गया है
5% non-en:en mix के मुकाबले काफ़ी कम है, इसलिए यह मॉडल मुख्य रूप से अंग्रेज़ी मॉडल है। फिर भी 0 से अधिक होना काफ़ी अच्छा है

scaling law

15T, 8B parameters जैसे "छोटे" मॉडल के training के लिए बहुत बड़ा dataset है, और यह एक नया तथा बेहद स्वागतयोग्य कदम है जो आम तौर पर नहीं किया जाता
Chinchilla "compute optimal" point पर 8B मॉडल को train करने के लिए लगभग ~200B tokens पर्याप्त होते
अगर आपकी रुचि केवल मॉडल performance के "bang-for-the-buck" में है, तो इतना काफ़ी है
लेकिन Meta ने इस बिंदु से लगभग ~75 गुना आगे तक training की, जो असामान्य है, लेकिन व्यक्तिगत रूप से मुझे यह बहुत स्वागतयोग्य लगता है।
इससे हम सबको बहुत छोटे, काम करने में आसान और inference के लिए सरल, लेकिन बेहद सक्षम मॉडल मिलते हैं
Meta का कहना है कि इस बिंदु पर भी मॉडल पारंपरिक अर्थ में "converge" होता नहीं दिखता
यानी जिन LLMs के साथ हम हमेशा काम करते हैं, वे 100-1000 गुना या उससे भी लंबी training से वंचित हैं और convergence point के करीब भी नहीं हैं
उम्मीद है कि आगे भी और लंबे समय तक trained, लेकिन कहीं छोटे मॉडल जारी करने का रुझान जारी रहेगा

सिस्टम

बताया गया है कि Llama 3 को 16K GPU पर 400 TFLOPS के observed throughput के साथ train किया गया
सीधे तौर पर नहीं कहा गया, लेकिन मान लेते हैं कि ये H100 fp16 हैं, जिनके लिए NVIDIA की marketing material में 1,979 TFLOPS बताया जाता है
लेकिन हम सब जानते हैं कि उनका छोटा-सा asterisk (*with sparsity) बहुत काम कर रहा है, और वास्तविक TFLOPS पाने के लिए इस संख्या को 2 से भाग देकर ~990 मानना चाहिए
(sparsity को FLOPS में क्यों गिना जाता है?)
खैर, 400/990 ~= 40% utilization निकलता है, जो इतने बड़े GPU cluster पर काफ़ी बुरा नहीं है!
इस scale पर यहाँ तक पहुँचने के लिए बहुत मज़बूत engineering की ज़रूरत होती है

सारांश

Llama 3 एक बहुत सक्षम दिखने वाली मॉडल रिलीज़ है और इसका स्वागत किया जाना चाहिए
यह बुनियादी बातों पर टिके रहते हुए, मज़बूत systems और data work पर बहुत समय लगाता है, और long-training models की सीमाओं को explore करता है
400B मॉडल को लेकर भी काफ़ी उत्साह है, क्योंकि यह GPT-4 स्तर की पहली open source रिलीज़ हो सकती है
मेरा मानना है कि बहुत से लोग अधिक लंबी context length की माँग करेंगे