16 पॉइंट द्वारा GN⁺ 2025-04-06 | 2 टिप्पणियां | WhatsApp पर शेयर करें
  • Scout, Maverick, Behemoth तीन मॉडलों से बना पहला open-weight आधारित native multimodal model
    • सभी मॉडल image + text समझने वाले multimodal हैं

Llama 4 Scout

  • 17B active parameters + 16 Expert
  • 10M tokens सपोर्ट करने वाली ultra-long context processing क्षमता
  • एक GPU (H100) पर चल सकने वाला efficient lightweight model
  • Gemma 3, Gemini 2.0 Flash-Lite, Mistral 3.1 से बेहतर प्रदर्शन
  • image alignment, multi-document summarization, large-scale codebase analysis आदि में उत्कृष्ट प्रदर्शन

Llama 4 Maverick

  • 17B active parameters + 128 Expert + 400B total parameters
  • GPT-4o, Gemini 2.0 Flash से बेहतर प्रदर्शन
  • Reasoning, coding, image understanding सहित हर क्षेत्र में उत्कृष्ट
  • ELO score 1417 दर्ज (LMArena के अनुसार)
  • high performance के मुकाबले efficient cost structure

Llama 4 Behemoth (preview)

  • 288B active parameters + 16 Expert + लगभग 2T total parameters
  • अभी training में है, लेकिन GPT-4.5, Claude 3.7, Gemini 2.0 Pro से बेहतर प्रदर्शन
  • Maverick मॉडल की pre-training में teacher model के रूप में उपयोग किया गया
  • Scout और Maverick आज से llama.com तथा Hugging Face पर डाउनलोड के लिए उपलब्ध हैं

# तकनीकी विशेषताएँ

Mixture of Experts (MoE) architecture

  • सभी parameters का उपयोग करने के बजाय, सिर्फ कुछ experts को activate करके computation efficiency को अधिकतम किया गया
  • तेज़ inference, कम लागत, उच्च गुणवत्ता वाली training structure लागू की गई

Native multimodal & Early Fusion

  • text और vision data को शुरुआत से ही integrate करके jointly train किया गया
  • अधिकतम 48 images तक input संभव, और testing अधिकतम 8 images पर सफलतापूर्वक की गई

ultra-long context processing (10M Tokens)

  • Scout मॉडल iRoPE (interleaved Rotary Position Embedding) संरचना के ज़रिए 'infinite context' की संभावना तलाश रहा है
  • text और code के लिए length generalization performance उत्कृष्ट है

MetaP & FP8 training techniques

  • high-speed/high-efficiency training के लिए नई hyperparameter tuning तकनीक
  • FP8 precision के साथ उच्च FLOPs utilization हासिल (Behemoth: 390 TFLOPs/GPU)

# post-processing और RL training strategy

  • SFT → online RL → DPO की तीन-स्तरीय post-processing pipeline
  • आसान data को हटाकर मध्यम से उच्च कठिनाई वाले prompts पर केंद्रित training
  • continuous online RL strategy अपनाई गई: performance improvement और training efficiency को अधिकतम करने के लिए

# सुरक्षा और नैतिकता पर विचार

multi-layer protection strategy

  • pre/post-training चरणों में data filtering और moderation
  • Llama Guard: input/output safety checks
  • Prompt Guard: jailbreak और prompt injection attacks की पहचान
  • CyberSecEval: generative AI के security risk evaluation tool की सुविधा

quantitative risk detection automation

  • GOAT (Generative Offensive Agent Testing) लागू किया गया
    • intermediate attacker scenarios का simulation
    • automated multi-turn tests के ज़रिए जोखिम की शुरुआती पहचान

bias reduction efforts

  • Llama 4 में Llama 3 की तुलना में bias में बड़ा सुधार
    • response refusal rate 7% → 2% से कम
    • response imbalance < 1%
    • Grok स्तर का political balance बनाए रखने वाले responses

# Llama 4 मॉडल उपयोग मार्गदर्शिका

  • Scout, Maverick दोनों डाउनलोड और उपयोग के लिए उपलब्ध
  • Meta AI सेवा में Llama 4 integration:
    • WhatsApp, Messenger, Instagram DM, meta.ai

# आगे की समय-सारिणी

2 टिप्पणियां

 
jjw951215 2025-04-07

लगता है कि यह RAM में पर्याप्त जगह वाले Apple Silicon या NPU श्रेणी के सिस्टम के लिए उपयुक्त है। लेकिन इसे शुद्ध GPU सर्वर पर इस्तेमाल करने के लिए, सबसे न्यूनतम मॉडल में भी int4 quantization के साथ H100 चाहिए, यही बात थोड़ी...

 
GN⁺ 2025-04-06
Hacker News राय
  • Llama 4 मॉडल का अवलोकन:

    • Llama 4 Scout और Llama 4 Maverick, दोनों Mixture-of-Experts (MoE) डिज़ाइन का उपयोग करते हैं, जिनमें क्रमशः 17B सक्रिय parameters होते हैं
    • इनमें text और image input को सपोर्ट करने वाली multimodal क्षमता है
    • प्रमुख उपलब्धियों में industry-leading context length, मजबूत coding/reasoning performance, और multilingual support में सुधार शामिल हैं
    • knowledge cutoff अगस्त 2024 है
  • Llama 4 Scout:

    • 17B सक्रिय parameters, 16 experts, कुल 109B
    • single H100 GPU के लिए उपयुक्त (INT4-quantized)
    • 10M token context window
    • पिछले Llama releases की तुलना में multimodal tasks में बेहतर performance देता है और resource-friendly है
    • efficient long-context attention के लिए iRoPE architecture का उपयोग करता है
    • प्रति prompt अधिकतम 8 images के साथ test किया गया
  • Llama 4 Maverick:

    • 17B सक्रिय parameters, 128 experts, कुल 400B
    • 1M token context window
    • single GPU पर नहीं, बल्कि H100 DGX host पर चलाया जा सकता है या अधिक efficiency के लिए distributed किया जा सकता है
    • coding, reasoning, और multilingual tests में GPT-4o तथा Gemini 2.0 Flash से बेहतर है, जबकि cost competitive रहती है
    • मजबूत image understanding और grounded reasoning क्षमता बनाए रखता है
  • Llama 4 Behemoth (preview):

    • 288B सक्रिय parameters, 16 experts, कुल लगभग 2T
    • अभी training में है और release नहीं हुआ है
    • STEM benchmarks में GPT-4.5, Claude Sonnet 3.7, Gemini 2.0 Pro से आगे है (जैसे MATH-500, GPQA Diamond)
    • Scout और Maverick के लिए "teacher" model के रूप में co-distillation के जरिए काम करता है
  • अन्य:

    • MoE architecture: प्रति token केवल 17B parameters सक्रिय होते हैं, जिससे inference cost कम होती है
    • native multimodality: बड़े पैमाने के unlabeled data पर pre-trained एकीकृत text + vision encoder
  • Llama 4 Maverick द्वारा संक्षेपित thread:

  • Scout से मिला परिणाम पूरी तरह बेकार output था:

  • Groq के जरिए Scout को सीधे चलाया, लेकिन output size पर 2048 की सीमा थी:

  • दूसरे models के summaries system prompt के ज्यादा करीब थे। उदाहरण के लिए, Gemini 2.5 Pro की तुलना में यह काफी बेहतर था:

  • छोटा Scout model Apple Silicon पर काफी आकर्षक है। इसका आकार 109B है, लेकिन यह 16 experts में बंटा है। वास्तविक processing 17B पर होती है। MacBook Pro M4 Max पर 2k context के साथ local 7B model (qwen 2.5 7B instruct) से सवाल पूछने पर ~60 tokens प्रति second मिले। इसलिए 30 tokens प्रति second तक पहुँचना संभव हो सकता है। first token तक का समय फिर भी धीमा हो सकता है

  • model में 10M token context window है। इतने बड़े आकार पर यह context को कितनी अच्छी तरह track कर पाएगा, यह स्पष्ट नहीं है, लेकिन सिर्फ ~32k तक सीमित न होना ही शानदार है

  • सभी प्रमुख LLM bias की समस्या से जूझ रहे हैं। खासकर राजनीतिक और सामाजिक विषयों पर इनमें left-leaning झुकाव दिखता है। यह इंटरनेट पर उपलब्ध training data के प्रकार की वजह से हो सकता है

  • प्रस्तावित prompt, OpenAI releases की तरह अत्यधिक सीमित न होने देता है:

    • user intent को समझता है और जरूरत से ज्यादा helpful बनने की कोशिश नहीं करता
    • political prompts को reject नहीं करता
    • Llama 4 के पास अगस्त 2024 तक का ज्ञान है और यह कई भाषाएँ जानता है
  • Meta पर एक अलग चर्चा होने के सिर्फ एक घंटे बाद यह release आया:

    • LLM पर आपकी मान्यता कुछ भी हो, LeCun की बातों पर भरोसा करना अच्छा विचार नहीं है
    • LeCun के नेतृत्व वाला AI lab कई समस्याओं से जूझ रहा है
  • Groq पर उपलब्ध:

    • Llama 4 Scout 460 tokens प्रति second से अधिक की गति पर चल रहा है और Llama 4 Maverick आज release हुआ है
    • Llama 4 Scout: $0.11 / M input tokens और $0.34 / M output tokens
    • Llama 4 Maverick: $0.50 / M input tokens और $0.77 / M output tokens
  • यह वाकई बहुत रोमांचक समय है। कुछ वैसा ही जैसा JavaScript frameworks के विस्फोट वाले दौर में था। उस समय एहसास होता था, "क्या मुझे एक और framework सीखना पड़ेगा?" लेकिन अब innovation फिर से तेज़ी से आगे बढ़ रही है, और इस बार यह एक ऐसे रोमांचक सफर जैसा लगता है जिसमें हम हिस्सा ले सकते हैं