1 पॉइंट द्वारा GN⁺ 2024-04-19 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Meta का Llama पेज Llama model family को आसान deployment, cost efficiency, performance और बड़े पैमाने पर scaling को लक्ष्य बनाने वाले open-source AI के रूप में पेश करता है, और Llama 4 तथा Llama 3 series दोनों को कवर करता है
  • Llama 4 Maverick और Llama 4 Scout early fusion आधारित native multimodal models हैं, जो text और vision tokens को साथ में pre-training करते हैं; दोनों 10M token context को प्रमुखता से बताते हैं
  • Llama 3 series 3.1·3.2·3.3 में बंटी है और 8B·70B·405B, 1B·3B·11B·90B, 70B जैसे sizes के साथ text, edge और multimodal उपयोगों के लिए विकल्प देती है
  • Performance comparisons में MMLU Pro, GPQA Diamond, LiveCodeBench, MMMU, ChartQA, DocVQA, MMLU Multi, MTOB आदि शामिल हैं; Llama 4 Maverick ने MMLU Pro 80.5 और Scout ने 74.3 स्कोर किया
  • Stoque और Shopify के cases में technical support की दोहराई जाने वाली queries में 50% कमी, internal satisfaction में 11% बढ़ोतरी, token throughput में 76% बढ़ोतरी, और JSON output आधारित compute cost में 33% कमी जैसे deployment results सामने आए

Llama model family और version-wise विकल्प

  • Llama एक model family है जिसे अपनी शर्तों के अनुसार build किया जा सकता है; इसका लक्ष्य आसान deployment, cost efficiency, performance और अरबों users के scale तक विस्तार है
  • नए Llama models के मुख्य आयाम native multimodal, advanced reasoning और लंबी context window हैं
  • Model cards और prompt formats Model overview में देखे जा सकते हैं
  • Llama 4: native multimodal और 10M context

    • Llama 4 early fusion के जरिए unlabeled text और vision data को साथ में pre-train करने वाली native multimodal model family है
    • Llama 4 Maverick image और text understanding को support करता है, और 10M token context के साथ long-form tasks संभालता है
    • Memory, personalization और multimodal applications इसके मुख्य उपयोग हैं
    • Llama 4 Scout text और visual intelligence देने वाला model है, जो single H100 GPU efficiency और 10M context window को प्रमुखता से बताता है
    • Long document analysis को Scout का प्रमुख use case बताया गया है
    • Details Llama 4 model documentation में दी गई हैं
  • Llama 3: size और use case के अनुसार model family

    • Llama 3 fine-tuning, distillation और कहीं भी deployment के लिए सक्षम open-source AI model family है
    • Llama 3.3 70B में उपलब्ध multilingual open-source large language model है, और बताया गया है कि यह कम cost पर 405B स्तर की performance और quality का अनुभव दे सकता है
    • यह synthetic data generation जैसे text-based उपयोगों के लिए बनाया गया है; details Llama 3.3 model documentation में देखी जा सकती हैं
    • Llama 3.2 edge उपयोगों के लिए flexible और cost-efficient model family है
      • 1B और 3B lightweight और cost-efficient हैं, इसलिए इन्हें कहीं भी run किया जा सकता है
      • 11B और 90B multimodal models हैं, जो high-resolution images पर reasoning कर सकते हैं और text output दे सकते हैं
      • Details Llama 3.2 model documentation में दी गई हैं
    • Llama 3.1 flexibility और control के लिए open foundation model है, जो 8B·70B·405B sizes में उपलब्ध है
    • इसमें general knowledge, steerability, math, tool use और multilingual translation capabilities शामिल हैं, और इसका उपयोग text summarization, multilingual agents और coding के लिए होता है
    • Details Llama 3.1 model documentation में देखी जा सकती हैं

Performance metrics और real-world deployment results

  • Llama 4 benchmarks और evaluation conditions

    • Llama 4 की क्षमताओं को native multimodal, long context और image grounding के रूप में संक्षेपित किया गया है
    • सभी Llama 4 models unlabeled text और vision tokens को बड़े पैमाने पर साथ में pre-train करने के लिए early fusion का उपयोग करते हैं
    • Benchmarks Llama 4 Maverick और Llama 4 Scout की तुलना करते हैं
      • Reasoning: MMLU Pro में Maverick 80.5, Scout 74.3 है, और GPQA Diamond में Maverick 69.8, Scout 57.2 है
      • Coding: LiveCodeBench में Maverick 43.4, Scout 32.8 है
      • Multimodal image: MMMU में Maverick 73.4, Scout 69.4 है, ChartQA में Maverick 90.0, Scout 88.8 है, और DocVQA में दोनों 94.4 हैं
      • Multilingual: MMLU Multi में Maverick 84.6, Scout 74.3 है
      • Long context: MTOB Half Book में Maverick 54.0 / 46.4, Scout 42.2 / 36.6 है, और MTOB Full Book में Maverick 50.8 / 46.7, Scout 39.7 / 36.3 है
      • Efficiency: 1M tokens की cost दोनों के लिए $0.19–$0.49 बताई गई है
    • Methodology और notes के अनुसार Llama results temperature 0 की 0-shot evaluation हैं, और majority voting या parallel test-time compute का उपयोग नहीं करते
    • GPQA Diamond और LiveCodeBench जैसे high-variance benchmarks में uncertainty घटाने के लिए कई generations के results का average लिया गया
    • Long-context specialist evaluations traditional रूप से general models में report नहीं की जातीं, इसलिए internal run results साझा किए गए
    • Llama 4 Maverick की $0.19/Mtok cost distributed inference मानकर 3:1 blended estimate है, और single host पर $0.30–$0.49/Mtok में उपलब्ध कराई जा सकने की उम्मीद बताई गई है
  • Stoque और Shopify के use cases

    • Stoque ने Llama के साथ internal intelligence को बदलकर teams को insights तेजी से खोजने, friction घटाने और बड़े scale पर अधिक efficient तरीके से काम करने में मदद की
    • Technical support की repeat queries में 50% कमी आई, और management व support tasks completion में 30% बढ़ोतरी हुई
    • Internal user satisfaction 11% बढ़ा
    • Shopify Llama का उपयोग product page generation, content localization और support automation में करता है
    • पिछले model की तुलना में token throughput 76% अधिक है, और intent detection में Macro-F1 accuracy 97.7% दर्ज की गई
    • JSON output से compute cost में 33% कमी आई
    • Generative AI safeguards system-level protection के जरिए संभावित risks को पहले से identify और mitigate करते हैं, और developers को generative AI को अधिक responsibly deploy करने में मदद करते हैं

1 टिप्पणियां

 
GN⁺ 2024-04-19
Hacker News की रायें
  • संदर्भ के लिए उपयोगी लिंक: https://ai.meta.com/blog/meta-llama-3/, https://about.fb.com/news/2024/04/meta-ai-assistant-built-wi..., https://twitter.com/karpathy/status/1781028605709234613

  • Meta ने एक console भी सार्वजनिक किया है: https://www.meta.ai/
    Meta product family में Meta AI integration की भी घोषणा की गई: https://about.fb.com/news/2024/04/meta-ai-assistant-built-wi...
    हालांकि GPT-4-Turbo या Claude Opus से तुलना नहीं दी गई है, इसे देखकर लगता है कि यह frontier models से कुछ दूर है, और LLM Arena में इसका performance कैसा आता है, यह देखना होगा

    • सबसे अच्छे models से तुलना न करने की वजह शायद “same class” comparison करना रही होगी। 70B model Sonnet की category में है, और अगर यह Sonnet को हरा देता है, तो ज्यादातर कामों में Opus या GPT-4 के करीब पहुंच सकता है
      बड़ा फर्क शायद सिर्फ बहुत कठिन reasoning benchmarks में दिखेगा। Llama के weights खुले हैं, इसलिए Opus के विपरीत इसके लिए काफी fine-tuning और LoRA आएंगे
    • अगर Llama-3-400B Claude 3 Opus आदि के बराबर निकला, तो हारने वालों में Nvidia stock, OpenAI और Sam, Google हो सकते हैं, और जीतने वालों में AMD, Intel, universities और दुनिया भर के developers हो सकते हैं
      अगर देश और बड़ी कंपनियां अपने models train करने के लिए GPUs पर पैसा बहाने के बजाय Llama-3/Llama-4 इस्तेमाल करें, तो GPU growth expectations दब सकती हैं; OpenAI के लिए 100 अरब डॉलर raise करने का तर्क कमजोर हो जाएगा; और Google की AI बढ़त भी धुंधली पड़ेगी। AMD और Intel, Nvidia के training GPUs को पकड़ने के बजाय AI inference chips पर focus कर सकते हैं
    • बिना login इस्तेमाल करने देने का फैसला भी अप्रत्याशित है। Meta से इसकी उम्मीद नहीं थी
    • Meta ने बताया है कि वह अभी भी अधिक competitive large variant models train कर रहा है
      400B से बड़े सबसे बड़े models अभी training में हैं, और कहा गया है कि आने वाले कुछ महीनों में multimodal, multilingual conversation, कहीं लंबी context window और कुल मिलाकर ज्यादा मजबूत capabilities वाले कई models release किए जाएंगे
    • “Meta AI isn't available yet in your country” दिख रहा है; उत्सुकता है कि यह कहां available है। Norway में ऐसा दिख रहा है
  • public benchmarks मोटे संकेतक के तौर पर अच्छे हैं, लेकिन developers को अपने use case के हिसाब से custom benchmarks चलाने चाहिए
    Replicate ने Llama 3 API जल्दी बना दिया है https://replicate.com/blog/run-llama-3-with-an-api, और promptfoo https://github.com/typpo/promptfoo से Llama 3, Mixtral, GPT, Claude आदि की तुलना की जा सकती है। उदाहरण के लिए Replicate के meta/meta-llama-3-8b-instruct, meta/meta-llama-3-70b-instruct, OpenAI gpt-4-turbo, Anthropic claude-3-opus-20240229 आदि को वही prompts देकर evaluate किया जा सकता है
    अभी testing जारी है, लेकिन random programming questions के set में Llama 3 8B काफी अच्छा लगता है। ollama भी अब Llama 3 8B support करता है, इसलिए ollama:chat:llama3 से local evaluation आसान हो गया है

    • ऐसे problems से test करने में बहुत सावधानी चाहिए जिनके online पहले से पूरा उपलब्ध होने की संभावना ज्यादा हो
      अच्छा test ऐसा problem है जो random a, b, c के लिए quadratic equation solve करने जैसा सरल हो, लेकिन जिसमें वास्तविक application देखना पड़े। यह ऐसा algorithm है जो सभी models को पता होना चाहिए, फिर भी वे गलती करते हैं, और बाद में verify करने का नाटक करते हुए गलत जवाब दोहराते हैं। LLAMA 3 ने भी कई बार errors बताने के बाद कहा कि “सही solution मिल गया है और कई तरीकों से verify किया है”, लेकिन असली solution पहले की तरह गलत था और verification की कोई कोशिश भी नहीं थी
    • vocabulary से जुड़ी issue के कारण response के अंत में assistant जुड़ जाता था, लेकिन अब काम करना चाहिए
      इसे ollama run llama3 से चलाया जा सकता है, और कई quantization versions और text/70B models भी upload किए जा रहे हैं
  • Llama 3 70B ने मशहूर LMSYS chatbot arena leaderboard में 5वें स्थान पर debut किया है, और Claude 2 Sonnet, Bard(Gemini Pro), Command R+ के बराबर है, जबकि Claude 2 Haiku और पुराने GPT-4 versions से आगे है
    अभी score uncertainty बड़ी है, इसलिए सटीक ranking समय के साथ ही स्पष्ट होगी और बदल भी सकती है। Llama 3 8B 12वें स्थान पर है और Claude 1, Mixtral 8x22B, Qwen-1.5-72B के बराबर है। latest ranking https://arena.lmsys.org/ पर देखी जा सकती है
    English-only leaderboard में Llama 3 70B का GPT-4 और Claude Opus के साथ top tier में बना रहना और भी प्रभावशाली है। यह इस वजह से भी हो सकता है कि safety tuning पहले से कम मजबूत हुई है और prompt refusals घटे हैं, लेकिन फिर भी यह practically useful improvement है। इस गति से 400B model के लगभग dominant होने की काफी संभावना है

  • Chinese rap generate करके देखा तो काफी ठीक बनाया, लेकिन पूरा होते ही response delete हो गया और text बदलकर “अभी Chinese समझ नहीं पाता, लेकिन इस पर काम चल रहा है और जब Chinese में conversation कर पाऊंगा तो message भेजूंगा” हो गया
    अन्य languages में भी इसी तरह non-English generation तो होता है, लेकिन खत्म होने पर response मिट जाता है और उसी notice से replace हो जाता है

    • लगता है कि कुछ tokens generate होने के बाद response quality evaluate करने वाला कोई post-processor है, और अगर यह standard से कम हो तो response वापस ले लेता है
    • local पर चलाएं तो हो जाता है। local version में ऐसे safeguards नहीं हैं
    • Italian में यह काम करता है, लेकिन हमेशा disclaimer जुड़ता है कि “non-English capabilities अभी improve की जा रही हैं, इसलिए errors हो सकते हैं, और English में मदद करने पर यह सबसे ज्यादा useful है”
    • यह अजीब है कि यह bug 12 घंटे बाद भी जारी है
  • ब्लॉग में काफी अच्छी details हैं: https://ai.meta.com/blog/meta-llama-3/
    400B version भी आने वाला है और लगता है कि यह GPT-4 और Claude Opus से काफी बेहतर हो जाएगा। decentralization और public software के जीतने का रुझान है

    • Anthropic के Claude 3 के आंकड़ों https://www.anthropic.com/news/claude-3-family से तुलना करें तो Llama 400B के आंकड़े थोड़े कम लगते हैं
      बेशक benchmark किया गया मॉडल intermediate checkpoint है और training अभी भी चल रही है
    • ऐसा कभी नहीं कहा गया। बल्कि प्रकाशित benchmarks GPT-4 या Opus से कम निकले हैं
      benchmarks पर आंख मूंदकर भरोसा नहीं करना चाहिए, लेकिन GPT-4 या Opus से आगे निकलने का कोई दावा नहीं है। intermediate checkpoint होने की वजह से आगे चलकर आगे निकलने की संभावना है
    • 400B model GPT-4 से काफी बेहतर है, यह बात कहां लिखी है समझ नहीं आ रहा
    • इसे decentralized कहना मुश्किल है। इसे कई जगहों पर चलाया जा सकता है, लेकिन distribution source सिर्फ एक है
      और यह open source भी नहीं है
    • यह न open source है, न decentralized
  • Zuck, Yann, और Meta team का सच में आभार कि उन्होंने open approach अपनाया और model weights, tokenizer, training data की जानकारी वगैरह साझा की
    ये लोग ही llama.cpp जैसे projects के जरिए consumer hardware पर locally काफी अच्छे models चलाने और censorship या control से बचने लायक public research explosion के सबसे बड़े drivers हैं
    ऐसा नहीं है कि मैं ऐसे requests करना चाहता हूं जो OpenAI या Anthropic के controls में फंसें, लेकिन यह पसंद नहीं कि इतनी powerful technology दीवारों के पीछे हो और gatekeepers तय करें कि इसका इस्तेमाल कैसे होगा। openness में विश्वास रखने वाले लोग और companies बहुत हैं, लेकिन जिनके पास hundreds of billions of dollars की पूंजी, sustainable cash flow, और billions of dollars के GPUs हों, वे ऐसा करें तो असर कहीं बड़ा होता है। Zuck को यह रास्ता चुनने की जरूरत नहीं थी, और अगर कोई HBS/McKinsey-style professional manager Facebook चला रहा होता तो शायद इसे इतना open नहीं रखता। AI safety risks के नाम पर crown jewels को centralized API के पीछे न छिपाने से हम सभी को बहुत बड़ा फायदा हुआ है

    • Zuck के interviews देखें तो पता चलता है कि दिल से वह अभी भी engineer हैं। दूसरी बड़ी tech companies ने ऐसी leadership खो दी है
    • अच्छा है कि वह अभी 39 साल के हैं और company चलाने की energy उनमें और भी ज्यादा दिखती है। एक passionate founder का होना Meta की दूसरी बड़ी tech companies की तुलना में बड़ी ताकत है
    • बहुत संभव है कि यह सिर्फ नेक इरादे से नहीं हो रहा। models को commodity बनाकर complementary goods बेचने की strategy हो सकती है
      Joel Spolsky ने पहले इस strategy की बात की थी, लेकिन Meta आखिर AI model के कौन-से complements बेच सकता है, यह पक्का नहीं है। फिर भी किसी न किसी रूप में यह strategic choice साफ लगती है
    • वजह यह है कि वह founder CEO हैं। career-type MBAs से passion और authenticity में अलग हैं
      Zuck की आलोचना करने लायक बातें बहुत हैं, लेकिन mission के प्रति authenticity की कमी उनमें से एक नहीं है
    • Meta ने Open Compute Project को भी lead किया था। मैं Google की open source commitment की वजह से वहां गया था, लेकिन exascale solutions बनाते समय वह culture आगे नहीं चला, जिससे काफी निराशा हुई
      अच्छा लग रहा है कि Meta यहां वह मशाल आगे बढ़ा रहा है, और उम्मीद है यह जारी रहेगा
  • paid ChatGPT Plus के GPT-4 से direct comparison नहीं था, इसलिए numbers match करके देखे
    Llama 3 8B / Llama 3 70B / GPT-4 के हिसाब से MMLU 68.4 / 82.0 / 86.5, GPQA 34.2 / 39.5 / 49.1, MATH 30.0 / 50.4 / 72.2, HumanEval 62.2 / 81.7 / 87.6, DROP 58.4 / 79.7 / 85.4 हैं
    ज्यादातर लोग जो free ChatGPT इस्तेमाल करते हैं, वह GPT-4 से काफी कमजोर GPT-3.5 पर आधारित है। latest GPT-3.5 के comprehensive evaluation numbers नहीं मिल पाए, लेकिन Llama 3 70B आराम से जीतता दिखता है और 8B भी करीब आ सकता है। इस level के model को local पर चलाना और modify कर पाना बहुत दिलचस्प है। GPT-4 के numbers https://github.com/openai/simple-evals के gpt-4-turbo-2024-04-09 (chatgpt) पर आधारित हैं

    • https://ai.meta.com/blog/meta-llama-3/ के नीचे ongoing 400B model के results भी हैं। लगता है अभी पूरी तरह वहां तक नहीं पहुंचा है
      Llama 3 400B Base / Instruct के हिसाब से MMLU 84.8 / 86.1, GPQA - / 48.0, MATH - / 57.8, HumanEval - / 84.1, DROP 83.5 / - हैं
    • GPT-4 के 1.8T parameters होने की बात सोचें तो यह हैरान करने वाला है
    • fine-tuned या merged models का इंतजार है। कई developers ने Llama 2 के आधार पर base model से कहीं बेहतर models बनाए थे, इसलिए नए version से भी वैसा ही flow उम्मीद है
    • जानना चाहूंगा कि Mixtral 8x22B से comparison वाला कोई material पहले से है या नहीं। दुनिया वाकई बहुत तेजी से चल रही है
    • HumanEval score ऊंचा है, इसलिए खास तौर पर उम्मीद है। अभी 400B model भी नहीं आया, और CodeLlama tuning भी नहीं आई है
      अगर कोई IDE के अंदर coding के लिए इसे try करना चाहता है, तो coding assistant tool https://www.double.bot में Llama 3 70B जोड़ दिया है
  • Zuck का interview भी आया है: https://twitter.com/dwarkesh_sp/status/1780990840179187715

    • लगभग 5 मिनट पर एक दिलचस्प हिस्सा आता है, जहां Zuck कहते हैं कि उन्होंने कुछ साल पहले TikTok से मुकाबला करने के लिए Reels recommendation engine बनाने के लिए बहुत सारे H100 GPUs खरीदे थे
      उस समय जरूरत से 2 गुना capacity safety margin के तौर पर ले ली थी, और उसी वजह से वे संयोग से उन गिनी-चुनी companies में से एक बन गए जिनके पास इस scale के LLM को train करने की GPU capacity थी
    • 1–2 साल की MMA ने लगता है charisma में पिछली media training से कहीं ज्यादा मदद की है। आजकल interviews में वह काफी ज्यादा natural लगते हैं
    • Dwarkesh का podcast कुल मिलाकर सच में बहुत अच्छा है
  • मॉडल कार्ड में Llama 2 सहित अन्य Llama मॉडलों की तुलना में बेंचमार्क नतीजे हैं: https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md...
    Llama 2 की तुलना में Llama 3 की performance improvement इतनी नाटकीय है कि प्रभावशाली लगती है। Llama 2 13B से तुलना करने पर भी ऐसा ही है, और context window का 8k होकर दोगुना हो जाना भी कई नए अवसर खोलेगा

    • instruction-tuned model के आधार पर देखें तो Llama 3 8B, Llama 2 70B से भी काफी बेहतर है
    • 8k context length का Mixtral 8x22B के 64k context से काफी छोटा होना निराशाजनक है
      फिर भी जारी किए गए performance metrics प्रभावशाली हैं, और Meta द्वारा इन मॉडलों को जारी करना सराहनीय है