- Scout, Maverick, Behemoth तीन मॉडलों से बना पहला open-weight आधारित native multimodal model
- सभी मॉडल image + text समझने वाले multimodal हैं
Llama 4 Scout
- 17B active parameters + 16 Expert
- 10M tokens सपोर्ट करने वाली ultra-long context processing क्षमता
- एक GPU (H100) पर चल सकने वाला efficient lightweight model
- Gemma 3, Gemini 2.0 Flash-Lite, Mistral 3.1 से बेहतर प्रदर्शन
- image alignment, multi-document summarization, large-scale codebase analysis आदि में उत्कृष्ट प्रदर्शन
Llama 4 Maverick
- 17B active parameters + 128 Expert + 400B total parameters
- GPT-4o, Gemini 2.0 Flash से बेहतर प्रदर्शन
- Reasoning, coding, image understanding सहित हर क्षेत्र में उत्कृष्ट
- ELO score 1417 दर्ज (LMArena के अनुसार)
- high performance के मुकाबले efficient cost structure
Llama 4 Behemoth (preview)
- 288B active parameters + 16 Expert + लगभग 2T total parameters
- अभी training में है, लेकिन GPT-4.5, Claude 3.7, Gemini 2.0 Pro से बेहतर प्रदर्शन
- Maverick मॉडल की pre-training में teacher model के रूप में उपयोग किया गया
# तकनीकी विशेषताएँ
Mixture of Experts (MoE) architecture
- सभी parameters का उपयोग करने के बजाय, सिर्फ कुछ experts को activate करके computation efficiency को अधिकतम किया गया
- तेज़ inference, कम लागत, उच्च गुणवत्ता वाली training structure लागू की गई
Native multimodal & Early Fusion
- text और vision data को शुरुआत से ही integrate करके jointly train किया गया
- अधिकतम 48 images तक input संभव, और testing अधिकतम 8 images पर सफलतापूर्वक की गई
ultra-long context processing (10M Tokens)
- Scout मॉडल iRoPE (interleaved Rotary Position Embedding) संरचना के ज़रिए 'infinite context' की संभावना तलाश रहा है
- text और code के लिए length generalization performance उत्कृष्ट है
MetaP & FP8 training techniques
- high-speed/high-efficiency training के लिए नई hyperparameter tuning तकनीक
- FP8 precision के साथ उच्च FLOPs utilization हासिल (Behemoth: 390 TFLOPs/GPU)
# post-processing और RL training strategy
- SFT → online RL → DPO की तीन-स्तरीय post-processing pipeline
- आसान data को हटाकर मध्यम से उच्च कठिनाई वाले prompts पर केंद्रित training
- continuous online RL strategy अपनाई गई: performance improvement और training efficiency को अधिकतम करने के लिए
# सुरक्षा और नैतिकता पर विचार
multi-layer protection strategy
- pre/post-training चरणों में data filtering और moderation
- Llama Guard: input/output safety checks
- Prompt Guard: jailbreak और prompt injection attacks की पहचान
- CyberSecEval: generative AI के security risk evaluation tool की सुविधा
quantitative risk detection automation
- GOAT (Generative Offensive Agent Testing) लागू किया गया
- intermediate attacker scenarios का simulation
- automated multi-turn tests के ज़रिए जोखिम की शुरुआती पहचान
bias reduction efforts
- Llama 4 में Llama 3 की तुलना में bias में बड़ा सुधार
- response refusal rate 7% → 2% से कम
- response imbalance < 1%
- Grok स्तर का political balance बनाए रखने वाले responses
# Llama 4 मॉडल उपयोग मार्गदर्शिका
- Scout, Maverick दोनों डाउनलोड और उपयोग के लिए उपलब्ध
- Meta AI सेवा में Llama 4 integration:
- WhatsApp, Messenger, Instagram DM, meta.ai
# आगे की समय-सारिणी
- अधिक तकनीकी विवरण और विज़न साझा करने वाला LlamaCon 2025 29 अप्रैल को आयोजित होगा
2 टिप्पणियां
लगता है कि यह RAM में पर्याप्त जगह वाले Apple Silicon या NPU श्रेणी के सिस्टम के लिए उपयुक्त है। लेकिन इसे शुद्ध GPU सर्वर पर इस्तेमाल करने के लिए, सबसे न्यूनतम मॉडल में भी int4 quantization के साथ H100 चाहिए, यही बात थोड़ी...
Hacker News राय
Llama 4 मॉडल का अवलोकन:
Llama 4 Scout:
Llama 4 Maverick:
Llama 4 Behemoth (preview):
अन्य:
Llama 4 Maverick द्वारा संक्षेपित thread:
Scout से मिला परिणाम पूरी तरह बेकार output था:
Groq के जरिए Scout को सीधे चलाया, लेकिन output size पर 2048 की सीमा थी:
दूसरे models के summaries system prompt के ज्यादा करीब थे। उदाहरण के लिए, Gemini 2.5 Pro की तुलना में यह काफी बेहतर था:
छोटा Scout model Apple Silicon पर काफी आकर्षक है। इसका आकार 109B है, लेकिन यह 16 experts में बंटा है। वास्तविक processing 17B पर होती है। MacBook Pro M4 Max पर 2k context के साथ local 7B model (qwen 2.5 7B instruct) से सवाल पूछने पर ~60 tokens प्रति second मिले। इसलिए 30 tokens प्रति second तक पहुँचना संभव हो सकता है। first token तक का समय फिर भी धीमा हो सकता है
model में 10M token context window है। इतने बड़े आकार पर यह context को कितनी अच्छी तरह track कर पाएगा, यह स्पष्ट नहीं है, लेकिन सिर्फ ~32k तक सीमित न होना ही शानदार है
सभी प्रमुख LLM bias की समस्या से जूझ रहे हैं। खासकर राजनीतिक और सामाजिक विषयों पर इनमें left-leaning झुकाव दिखता है। यह इंटरनेट पर उपलब्ध training data के प्रकार की वजह से हो सकता है
प्रस्तावित prompt, OpenAI releases की तरह अत्यधिक सीमित न होने देता है:
Meta पर एक अलग चर्चा होने के सिर्फ एक घंटे बाद यह release आया:
Groq पर उपलब्ध:
यह वाकई बहुत रोमांचक समय है। कुछ वैसा ही जैसा JavaScript frameworks के विस्फोट वाले दौर में था। उस समय एहसास होता था, "क्या मुझे एक और framework सीखना पड़ेगा?" लेकिन अब innovation फिर से तेज़ी से आगे बढ़ रही है, और इस बार यह एक ऐसे रोमांचक सफर जैसा लगता है जिसमें हम हिस्सा ले सकते हैं