Meta ने Llama 4 लॉन्च किया

(ai.meta.com)

16 पॉइंट द्वारा GN⁺ 2025-04-06 | 2 टिप्पणियां | WhatsApp पर शेयर करें

Scout, Maverick, Behemoth तीन मॉडलों से बना पहला open-weight आधारित native multimodal model
- सभी मॉडल image + text समझने वाले multimodal हैं

Llama 4 Scout

17B active parameters + 16 Expert
10M tokens सपोर्ट करने वाली ultra-long context processing क्षमता
एक GPU (H100) पर चल सकने वाला efficient lightweight model
Gemma 3, Gemini 2.0 Flash-Lite, Mistral 3.1 से बेहतर प्रदर्शन
image alignment, multi-document summarization, large-scale codebase analysis आदि में उत्कृष्ट प्रदर्शन

Llama 4 Maverick

17B active parameters + 128 Expert + 400B total parameters
GPT-4o, Gemini 2.0 Flash से बेहतर प्रदर्शन
Reasoning, coding, image understanding सहित हर क्षेत्र में उत्कृष्ट
ELO score 1417 दर्ज (LMArena के अनुसार)
high performance के मुकाबले efficient cost structure

Llama 4 Behemoth (preview)

288B active parameters + 16 Expert + लगभग 2T total parameters
अभी training में है, लेकिन GPT-4.5, Claude 3.7, Gemini 2.0 Pro से बेहतर प्रदर्शन
Maverick मॉडल की pre-training में teacher model के रूप में उपयोग किया गया

Scout और Maverick आज से llama.com तथा Hugging Face पर डाउनलोड के लिए उपलब्ध हैं

# तकनीकी विशेषताएँ

Mixture of Experts (MoE) architecture

सभी parameters का उपयोग करने के बजाय, सिर्फ कुछ experts को activate करके computation efficiency को अधिकतम किया गया
तेज़ inference, कम लागत, उच्च गुणवत्ता वाली training structure लागू की गई

Native multimodal & Early Fusion

text और vision data को शुरुआत से ही integrate करके jointly train किया गया
अधिकतम 48 images तक input संभव, और testing अधिकतम 8 images पर सफलतापूर्वक की गई

ultra-long context processing (10M Tokens)

Scout मॉडल iRoPE (interleaved Rotary Position Embedding) संरचना के ज़रिए 'infinite context' की संभावना तलाश रहा है
text और code के लिए length generalization performance उत्कृष्ट है

MetaP & FP8 training techniques

high-speed/high-efficiency training के लिए नई hyperparameter tuning तकनीक
FP8 precision के साथ उच्च FLOPs utilization हासिल (Behemoth: 390 TFLOPs/GPU)

# post-processing और RL training strategy

SFT → online RL → DPO की तीन-स्तरीय post-processing pipeline
आसान data को हटाकर मध्यम से उच्च कठिनाई वाले prompts पर केंद्रित training
continuous online RL strategy अपनाई गई: performance improvement और training efficiency को अधिकतम करने के लिए

# सुरक्षा और नैतिकता पर विचार

multi-layer protection strategy

pre/post-training चरणों में data filtering और moderation
Llama Guard: input/output safety checks
Prompt Guard: jailbreak और prompt injection attacks की पहचान
CyberSecEval: generative AI के security risk evaluation tool की सुविधा

quantitative risk detection automation

GOAT (Generative Offensive Agent Testing) लागू किया गया
- intermediate attacker scenarios का simulation
- automated multi-turn tests के ज़रिए जोखिम की शुरुआती पहचान

bias reduction efforts

Llama 4 में Llama 3 की तुलना में bias में बड़ा सुधार
- response refusal rate 7% → 2% से कम
- response imbalance < 1%
- Grok स्तर का political balance बनाए रखने वाले responses

# Llama 4 मॉडल उपयोग मार्गदर्शिका

Scout, Maverick दोनों डाउनलोड और उपयोग के लिए उपलब्ध
- llama.com
- Hugging Face
Meta AI सेवा में Llama 4 integration:
- WhatsApp, Messenger, Instagram DM, meta.ai

# आगे की समय-सारिणी

अधिक तकनीकी विवरण और विज़न साझा करने वाला LlamaCon 2025 29 अप्रैल को आयोजित होगा
- LlamaCon के लिए पंजीकरण करें

2 टिप्पणियां

jjw951215 2025-04-07

लगता है कि यह RAM में पर्याप्त जगह वाले Apple Silicon या NPU श्रेणी के सिस्टम के लिए उपयुक्त है। लेकिन इसे शुद्ध GPU सर्वर पर इस्तेमाल करने के लिए, सबसे न्यूनतम मॉडल में भी int4 quantization के साथ H100 चाहिए, यही बात थोड़ी...

GN⁺ 2025-04-06

Hacker News राय

Llama 4 मॉडल का अवलोकन:
- Llama 4 Scout और Llama 4 Maverick, दोनों Mixture-of-Experts (MoE) डिज़ाइन का उपयोग करते हैं, जिनमें क्रमशः 17B सक्रिय parameters होते हैं
- इनमें text और image input को सपोर्ट करने वाली multimodal क्षमता है
- प्रमुख उपलब्धियों में industry-leading context length, मजबूत coding/reasoning performance, और multilingual support में सुधार शामिल हैं
- knowledge cutoff अगस्त 2024 है
Llama 4 Scout:
- 17B सक्रिय parameters, 16 experts, कुल 109B
- single H100 GPU के लिए उपयुक्त (INT4-quantized)
- 10M token context window
- पिछले Llama releases की तुलना में multimodal tasks में बेहतर performance देता है और resource-friendly है
- efficient long-context attention के लिए iRoPE architecture का उपयोग करता है
- प्रति prompt अधिकतम 8 images के साथ test किया गया
Llama 4 Maverick:
- 17B सक्रिय parameters, 128 experts, कुल 400B
- 1M token context window
- single GPU पर नहीं, बल्कि H100 DGX host पर चलाया जा सकता है या अधिक efficiency के लिए distributed किया जा सकता है
- coding, reasoning, और multilingual tests में GPT-4o तथा Gemini 2.0 Flash से बेहतर है, जबकि cost competitive रहती है
- मजबूत image understanding और grounded reasoning क्षमता बनाए रखता है
Llama 4 Behemoth (preview):
- 288B सक्रिय parameters, 16 experts, कुल लगभग 2T
- अभी training में है और release नहीं हुआ है
- STEM benchmarks में GPT-4.5, Claude Sonnet 3.7, Gemini 2.0 Pro से आगे है (जैसे MATH-500, GPQA Diamond)
- Scout और Maverick के लिए "teacher" model के रूप में co-distillation के जरिए काम करता है
अन्य:
- MoE architecture: प्रति token केवल 17B parameters सक्रिय होते हैं, जिससे inference cost कम होती है
- native multimodality: बड़े पैमाने के unlabeled data पर pre-trained एकीकृत text + vision encoder
Llama 4 Maverick द्वारा संक्षेपित thread:
- hn-summary.sh 43595585 -m openrouter/meta-llama/llama-4-maverick -o max_tokens 20000
- परिणाम: https://gist.github.com/simonw/016ea0fd83fc499f046a94827f9b4946
Scout से मिला परिणाम पूरी तरह बेकार output था:
- hn-summary.sh 43595585 -m openrouter/meta-llama/llama-4-scout -o max_tokens 20000
- परिणाम: https://gist.github.com/simonw/d01cc991d478939e87487d362a8f881f
Groq के जरिए Scout को सीधे चलाया, लेकिन output size पर 2048 की सीमा थी:
- hn-summary.sh 43595585 -m groq/meta-llama/llama-4-scout-17b-16e-instruct -o max_tokens 2048
- परिणाम: https://gist.github.com/simonw/a205c5fc131a1d4e9cd6c432a07feedb
दूसरे models के summaries system prompt के ज्यादा करीब थे। उदाहरण के लिए, Gemini 2.5 Pro की तुलना में यह काफी बेहतर था:
- https://gist.github.com/simonw/f21ecc7fb2aa13ff682d4ffa11ddcbfd
छोटा Scout model Apple Silicon पर काफी आकर्षक है। इसका आकार 109B है, लेकिन यह 16 experts में बंटा है। वास्तविक processing 17B पर होती है। MacBook Pro M4 Max पर 2k context के साथ local 7B model (qwen 2.5 7B instruct) से सवाल पूछने पर ~60 tokens प्रति second मिले। इसलिए 30 tokens प्रति second तक पहुँचना संभव हो सकता है। first token तक का समय फिर भी धीमा हो सकता है
model में 10M token context window है। इतने बड़े आकार पर यह context को कितनी अच्छी तरह track कर पाएगा, यह स्पष्ट नहीं है, लेकिन सिर्फ ~32k तक सीमित न होना ही शानदार है
सभी प्रमुख LLM bias की समस्या से जूझ रहे हैं। खासकर राजनीतिक और सामाजिक विषयों पर इनमें left-leaning झुकाव दिखता है। यह इंटरनेट पर उपलब्ध training data के प्रकार की वजह से हो सकता है
प्रस्तावित prompt, OpenAI releases की तरह अत्यधिक सीमित न होने देता है:
- user intent को समझता है और जरूरत से ज्यादा helpful बनने की कोशिश नहीं करता
- political prompts को reject नहीं करता
- Llama 4 के पास अगस्त 2024 तक का ज्ञान है और यह कई भाषाएँ जानता है
Meta पर एक अलग चर्चा होने के सिर्फ एक घंटे बाद यह release आया:
- LLM पर आपकी मान्यता कुछ भी हो, LeCun की बातों पर भरोसा करना अच्छा विचार नहीं है
- LeCun के नेतृत्व वाला AI lab कई समस्याओं से जूझ रहा है
Groq पर उपलब्ध:
- Llama 4 Scout 460 tokens प्रति second से अधिक की गति पर चल रहा है और Llama 4 Maverick आज release हुआ है
- Llama 4 Scout: $0.11 / M input tokens और $0.34 / M output tokens
- Llama 4 Maverick: $0.50 / M input tokens और $0.77 / M output tokens
यह वाकई बहुत रोमांचक समय है। कुछ वैसा ही जैसा JavaScript frameworks के विस्फोट वाले दौर में था। उस समय एहसास होता था, "क्या मुझे एक और framework सीखना पड़ेगा?" लेकिन अब innovation फिर से तेज़ी से आगे बढ़ रही है, और इस बार यह एक ऐसे रोमांचक सफर जैसा लगता है जिसमें हम हिस्सा ले सकते हैं