• 8B, 70B (बेस मॉडल और fine-tuned मॉडल दोनों) जारी किए गए हैं। ये अपने-अपने मॉडल वर्ग में मज़बूत प्रदर्शन दिखाते हैं।
  • 400B मॉडल अभी भी training में है, लेकिन यह पहले ही GPT-4 के क्षेत्र के काफ़ी करीब पहुँच रहा है (उदाहरण: MMLU 84.8 बनाम GPT-4 का 86.5)

टोकनाइज़र

  • टोकन की संख्या 32K (Llama 2) से बढ़कर 128K (Llama 3) हो गई, यानी 4 गुना वृद्धि
  • अधिक टोकन के साथ sequence length को और compress किया जा सकता है। 15% कम tokens का दावा किया गया है और downstream performance में सुधार हुआ है

आर्किटेक्चर

  • Llama 2 में केवल बड़े मॉडल ही Grouped Query Attention (GQA) का उपयोग करते थे, लेकिन अब सबसे छोटे 8B मॉडल सहित सभी मॉडल GQA का उपयोग करते हैं
  • GQA, Attention के key/value के लिए parameter sharing की व्यवस्था है, जो inference के दौरान KV cache का आकार घटाती है
  • यह complexity कम करने और optimization के लिहाज़ से एक अच्छा और स्वागतयोग्य बदलाव है

sequence length

  • context window में अधिकतम tokens की संख्या 4096 (Llama 2) और 2048 (Llama 1) से बढ़कर 8192 हो गई है
  • यह बढ़ोतरी स्वागतयोग्य है, लेकिन मौजूदा मानकों (जैसे GPT-4 का 128K) की तुलना में काफ़ी छोटी है
  • बहुत से लोगों ने शायद इस पहलू पर इससे अधिक की उम्मीद की होगी। बाद में fine-tuning से शायद यह संभव हो (?)

training data

  • Llama 2 को 2T tokens पर train किया गया था, और Llama 3 के लिए इसे बढ़ाकर 15T training dataset किया गया है
  • data quality, 4 गुना अधिक code tokens, और 30 से अधिक भाषाओं में 5% non-en tokens पर काफ़ी ध्यान दिया गया है
  • 5% non-en:en mix के मुकाबले काफ़ी कम है, इसलिए यह मॉडल मुख्य रूप से अंग्रेज़ी मॉडल है। फिर भी 0 से अधिक होना काफ़ी अच्छा है

scaling law

  • 15T, 8B parameters जैसे "छोटे" मॉडल के training के लिए बहुत बड़ा dataset है, और यह एक नया तथा बेहद स्वागतयोग्य कदम है जो आम तौर पर नहीं किया जाता
  • Chinchilla "compute optimal" point पर 8B मॉडल को train करने के लिए लगभग ~200B tokens पर्याप्त होते
  • अगर आपकी रुचि केवल मॉडल performance के "bang-for-the-buck" में है, तो इतना काफ़ी है
  • लेकिन Meta ने इस बिंदु से लगभग ~75 गुना आगे तक training की, जो असामान्य है, लेकिन व्यक्तिगत रूप से मुझे यह बहुत स्वागतयोग्य लगता है।
  • इससे हम सबको बहुत छोटे, काम करने में आसान और inference के लिए सरल, लेकिन बेहद सक्षम मॉडल मिलते हैं
  • Meta का कहना है कि इस बिंदु पर भी मॉडल पारंपरिक अर्थ में "converge" होता नहीं दिखता
  • यानी जिन LLMs के साथ हम हमेशा काम करते हैं, वे 100-1000 गुना या उससे भी लंबी training से वंचित हैं और convergence point के करीब भी नहीं हैं
  • उम्मीद है कि आगे भी और लंबे समय तक trained, लेकिन कहीं छोटे मॉडल जारी करने का रुझान जारी रहेगा

सिस्टम

  • बताया गया है कि Llama 3 को 16K GPU पर 400 TFLOPS के observed throughput के साथ train किया गया
  • सीधे तौर पर नहीं कहा गया, लेकिन मान लेते हैं कि ये H100 fp16 हैं, जिनके लिए NVIDIA की marketing material में 1,979 TFLOPS बताया जाता है
  • लेकिन हम सब जानते हैं कि उनका छोटा-सा asterisk (*with sparsity) बहुत काम कर रहा है, और वास्तविक TFLOPS पाने के लिए इस संख्या को 2 से भाग देकर ~990 मानना चाहिए
  • (sparsity को FLOPS में क्यों गिना जाता है?)
  • खैर, 400/990 ~= 40% utilization निकलता है, जो इतने बड़े GPU cluster पर काफ़ी बुरा नहीं है!
  • इस scale पर यहाँ तक पहुँचने के लिए बहुत मज़बूत engineering की ज़रूरत होती है

सारांश

  • Llama 3 एक बहुत सक्षम दिखने वाली मॉडल रिलीज़ है और इसका स्वागत किया जाना चाहिए
  • यह बुनियादी बातों पर टिके रहते हुए, मज़बूत systems और data work पर बहुत समय लगाता है, और long-training models की सीमाओं को explore करता है
  • 400B मॉडल को लेकर भी काफ़ी उत्साह है, क्योंकि यह GPT-4 स्तर की पहली open source रिलीज़ हो सकती है
  • मेरा मानना है कि बहुत से लोग अधिक लंबी context length की माँग करेंगे

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.