Meta Llama 3.2 जारी - ओपन कस्टमाइज़ेबल मॉडल के साथ edge AI और vision को बदलने वाली तकनीक

(ai.meta.com)

11 पॉइंट द्वारा GN⁺ 2024-09-26 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Meta ने Llama 3.2 जारी किया
- इसमें छोटे और मध्यम vision LLMs (11B और 90B) तथा हल्के text-only मॉडल (1B और 3B) शामिल हैं
- Qualcomm और MediaTek हार्डवेयर पर उपलब्ध है और Arm प्रोसेसर के लिए optimized है
- ऐसे मॉडल जो summary, instruction following, और rewriting कार्यों के लिए उपयुक्त हैं
Llama 3.2 मॉडल की विशेषताएँ
- 11B और 90B vision मॉडल image understanding कार्यों में उत्कृष्ट हैं
- torchtune का उपयोग कर custom applications के लिए fine-tuning संभव
- torchchat का उपयोग कर local deployment संभव
- Meta AI smart assistant के माध्यम से उपयोग किया जा सकता है
Llama Stack deployment
- single-node, on-premises, cloud, और on-device वातावरण में Llama मॉडलों के साथ काम को सरल बनाता है
- AWS, Databricks, Dell Technologies, Fireworks, Infosys, Together AI के साथ सहयोग में deployment
Llama 3.2 मॉडल डाउनलोड
- llama.com और Hugging Face से डाउनलोड किया जा सकता है
- AMD, AWS, Databricks, Dell, Google Cloud, Groq, IBM, Intel, Microsoft Azure, NVIDIA, Oracle Cloud, Snowflake आदि partner platforms पर तुरंत development संभव
Llama 3.2 का प्रदर्शन
- 11B और 90B मॉडल document-level understanding, image captioning, और visual grounding कार्यों के लिए उपयुक्त हैं
- 1B और 3B मॉडल multilingual text generation और tool calling capabilities प्रदान करते हैं
- local पर चलाने पर तुरंत response और उच्च privacy बनाए रखते हैं
मॉडल मूल्यांकन
- 150 से अधिक benchmark datasets पर प्रदर्शन का मूल्यांकन
- Claude 3 Haiku और GPT4o-mini के साथ प्रतिस्पर्धी प्रदर्शन
Vision मॉडल
- image input support के लिए नया model architecture पेश किया गया
- text-only क्षमताओं को बनाए रखते हुए image और text prompts को जोड़कर गहरी understanding और reasoning संभव
हल्के मॉडल
- pruning और knowledge distillation methods का उपयोग कर 1B और 3B मॉडल विकसित किए गए
- local पर कुशलतापूर्वक चलाए जा सकते हैं
Llama Stack deployment
- Llama Stack API के माध्यम से standardized interface प्रदान करता है
- विभिन्न वातावरणों में Llama मॉडलों के साथ काम को सरल बनाता है
System-level safety
- Llama Guard 3 11B Vision जारी किया गया
- Llama Guard 3 1B मॉडल deployment cost को काफी कम करता है
Llama 3.2 का उपयोग
- डेवलपर्स को आवश्यक tools और resources प्रदान करता है
- Llama 3.2 और Llama Stack का उपयोग कर innovative applications विकसित किए जा सकते हैं

GN⁺ की संक्षिप्त समीक्षा

Llama 3.2 edge और mobile devices पर चलने वाले हल्के मॉडलों सहित विभिन्न vision और text मॉडल प्रदान करता है
Qualcomm, MediaTek, Arm आदि के साथ सहयोग के माध्यम से विभिन्न हार्डवेयर पर optimized performance प्रदान करता है
Llama Stack deployment के जरिए डेवलपर्स को विभिन्न वातावरणों में आसानी से Llama मॉडल उपयोग करने में मदद मिलती है
Llama 3.2 उच्च privacy और तुरंत response प्रदान करता है, इसलिए यह local applications के विकास के लिए उपयुक्त है
यह Claude 3 Haiku और GPT4o-mini के साथ प्रतिस्पर्धा करने लायक प्रदर्शन देता है और विभिन्न benchmarks में उत्कृष्ट परिणाम साबित करता है

1 टिप्पणियां

GN⁺ 2024-09-26

Hacker News राय

नए 1B मॉडल के प्रदर्शन से हैरानी हुई। डाउनलोड साइज 1.3GB है
- इसे पूरे codebase का सारांश बनाने के लिए आज़माया। यह परफेक्ट नहीं है, लेकिन इतने छोटे मॉडल के हिसाब से इसका प्रदर्शन चौंकाने वाला है
- और नोट्स यहाँ देखे जा सकते हैं
- बड़े image model को भी आज़माया। lmarena.ai पर "Direct Chat" के ज़रिए image upload किया जा सकता है
"The Llama jumped over the ______!" उदाहरण में 1-hot encoding के साथ "wall" 100% संभावना के साथ सही उत्तर है
- अगर कोई कहे कि "fence" भी संभव है, तो वह गलत है। लगता है कि model distillation के अच्छी तरह काम करने की यही वजह है
- मूल मॉडल text response के ज़रिए सीखता है, लेकिन child model predictions की नकल करके अधिक अर्थपूर्ण उत्तर सीखता है
- अब समझ आता है कि Meta का Llama 3.2 मॉडल छोटा होने के बावजूद इतना शक्तिशाली क्यों है। मॉडल की प्रगति देखकर हैरानी होती है
Meta की Llama टीम की openness से प्रभावित हूँ। सिर्फ मॉडल access ही नहीं, बल्कि इसे कैसे बनाया गया यह भी सार्वजनिक किया गया है
- भविष्य के मॉडलों के बारे में नहीं पता, लेकिन Meta के खुले रुख के लिए आभार
शुरुआती सवाल: ऐसा मॉडल चाहिए जिसमें software engineer की क्षमता 10 गुना हो, लेकिन मानवीय ज्ञान की ज़रूरत न हो। क्या ऐसा कोई मॉडल है?
Ollama में 3B मॉडल इस्तेमाल किया। optics, biology, और Rust पर सवालों के जवाब तेज़ी से देता है और इसमें काफी ज्ञान है
- बहुत प्रभावशाली मॉडल है
Ollama ब्लॉग पोस्ट: लिंक
llama3.2:3b-instruct-q8_0 मॉडल 3.1 8b-q4 से बेहतर प्रदर्शन देता है। MacBook Pro M1 पर यह तेज़ भी है और नतीजे भी बेहतर हैं
- इसने कुछ पहेलियों और thought experiment पर बेहतर जवाब दिए
- 3.1-8b इंस्टॉल हटा दिया
- मौजूदा Ollama सूची:
  - llama3.2:3b-instruct-q8_0: 3.4GB, 2 घंटे पहले संशोधित
  - gemma2:9b-instruct-q4_1: 6.0GB, 3 दिन पहले संशोधित
  - phi3.5:3.8b-mini-instruct-q8_0: 4.1GB, 3 दिन पहले संशोधित
  - mxbai-embed-large:latest: 669MB, 3 महीने पहले संशोधित
क्या Ollama के लिए किसी web UI client की सिफारिश कर सकते हैं?
पूछा गया कि क्या नवीनतम LLM benchmarks वाला कोई leaderboard है
- Livebench और Lmsys कुछ हफ्ते पीछे चल रहे हैं और प्रमुख मॉडल नहीं जोड़ते
- अगर ऐसा कुछ मौजूद नहीं है, तो इसे खुद बनाने की इच्छा है
3B मॉडल multimodal (Norwegian) में काफ़ी अच्छा था, लेकिन कभी-कभी बहुत सारे बेमतलब जवाब देता है। यह 8B से अधिक संवेदनशील है, लेकिन Gemma 2 2B से अधिक उपयोगी है
- Python list sorting के सवाल पर ठीक-ठाक है
- 90B vision model उपयोगी काम करने से मना कर देता है। HTML में image को recreate करने या image data का उपयोगी तरीके से इस्तेमाल करने में विफल रहता है
- 70B या OpenAI में ऐसी समस्या नहीं थी। इंकार बहुत ज़्यादा हैं

Meta Llama 3.2 जारी - ओपन कस्टमाइज़ेबल मॉडल के साथ edge AI और vision को बदलने वाली तकनीक

GN⁺ की संक्षिप्त समीक्षा

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय