1 पॉइंट द्वारा GN⁺ 2024-04-19 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Llama 3 मॉडल परिचय

  • Meta ने Llama 3 मॉडल पेश किया है। 8B और 70B के pre-trained और instruction-tuned, दोनों versions उपलब्ध कराए गए हैं, ताकि विभिन्न applications के development को support मिल सके।
  • Llama 3 को Meta AI में integrate किया गया है, और इसका उपयोग coding tasks तथा problem solving में किया जा सकता है। इसके जरिए Llama 3 की performance का सीधे अनुभव किया जा सकता है।
  • Llama 3 agent development या AI-आधारित applications के development के लिए आवश्यक capabilities और flexibility प्रदान करेगा।

Llama 3 की performance में सुधार

  • Llama 3 एक publicly accessible state-of-the-art मॉडल है, जो language nuance, context understanding, translation और conversation generation जैसे complex tasks में बेहतरीन performance दिखाता है।
  • बेहतर scalability और performance के साथ, Llama 3 multi-step tasks को आसानी से संभाल सकता है। बेहतर post-training process false refusal rate को काफी कम करता है, response alignment को सुधारता है, और model answers की diversity बढ़ाता है।
  • साथ ही, reasoning, code generation और instruction following जैसी क्षमताओं में भी बड़ा सुधार किया गया है। Llama 3 के साथ AI का भविष्य बनाया जा सकता है।

Llama 3 मॉडल benchmark

  • Llama 3 मॉडल data और scale को एक नए स्तर पर ले जाता है। हाल ही में घोषित 24K GPU clusters के 2 सेटों पर इसे 15 ट्रिलियन से अधिक token data से train किया गया, जो Llama 2 में इस्तेमाल किए गए training dataset से 7 गुना बड़ा है, और इसमें code 4 गुना अधिक है।
  • इसके परिणामस्वरूप अब तक का सबसे अधिक performant Llama मॉडल तैयार हुआ है, और यह Llama 2 की तुलना में दोगुनी 8K context length को support करता है।

जिम्मेदार Llama 3 उपयोग के लिए व्यापक दृष्टिकोण

  • Llama 3 के लॉन्च के साथ, LLM का जिम्मेदारी से उपयोग करते हुए development के बारे में सबसे व्यापक जानकारी देने के लिए Responsible Use Guide (RUG) को update किया गया है।
  • MLCommons द्वारा घोषित नई taxonomy को support करने के लिए optimize किए गए Llama Guard 2, Code Shield, और Cybersec Eval 2 सहित trust और safety tools में updates किए गए हैं।
  • RUG में बताए गए सिद्धांतों के अनुसार, यह सिफारिश की जाती है कि use case और target audience के अनुरूप बनाई गई अपनी content guidelines के आधार पर LLM के सभी inputs और outputs की अच्छी तरह जांच और filtering की जाए।

GN⁺ की राय

  • Llama 3 की बेहतर performance के साथ-साथ जिम्मेदार development के लिए guidelines भी साथ में दी गई हैं, यह प्रभावशाली है। AI मॉडल जितना शक्तिशाली होगा, उसके सही उपयोग के लिए उतना ही अधिक प्रयास भी साथ-साथ होना चाहिए।
  • हालांकि, open source project की प्रकृति को देखते हुए, guidelines का पालन अनिवार्य कराने का कोई तरीका नजर नहीं आता। इसके लिए developers के स्वैच्छिक सहयोग की आवश्यकता होगी।
  • उम्मीद है कि Llama 3, GPT-4 जैसे OpenAI के नवीनतम मॉडलों के बराबर performance दिखाएगा, लेकिन अभी तक objective benchmark results सार्वजनिक नहीं किए गए हैं। अलग-अलग tasks में इसकी वास्तविक performance जानने की उत्सुकता है।
  • चूंकि यह एक open source project है, इसलिए उम्मीद है कि Meta के अलावा भी कई organizations और developers, Llama 3 का उपयोग करके दिलचस्प projects पेश करेंगे। यह Llama 3 की क्षमता को परखने का एक अवसर होगा।

1 टिप्पणियां

 
GN⁺ 2024-04-19
Hacker News प्रतिक्रियाएँ
  • कुछ लोगों ने इस बात के लिए आभार जताया कि Meta ने open source approach अपनाते हुए model weights, tokenizer, training data से जुड़ी जानकारी आदि साझा की। Meta के इस खुले रुख की वजह से consumer hardware पर local रूप से काफी अच्छे models चलाना संभव हुआ है.

  • Llama 3 के जारी होने के साथ Meta ने यह भी घोषणा की कि Ray-Ban Meta smart glasses में multimodal Meta AI को test किया जा सकेगा। यह राय सामने आई कि पारंपरिक computer/smartphone interface कुछ niche applications को छोड़कर गायब हो जाएगा, और उसकी जगह हर व्यक्ति के पास अपना AI assistant होगा, जिसके साथ वह वैसे ही स्वाभाविक रूप से interact कर सकेगा जैसे किसी दूसरे इंसान के साथ करता है।

  • यह राय भी थी कि consumer 24GB GPU पर अच्छी तरह फिट होने वाले models देखने को मिलें, जैसे 8-bit quantized 20B model या 4-bit quantization में चल सकने वाला 40B model। यह भी कहा गया कि Llama 1 के बाद Meta ने 30B model जारी करना बंद कर दिया, जो निराशाजनक है.

  • Llama 3 के model card में दूसरे Llama models की तुलना में benchmark results शामिल हैं। Llama 2 की तुलना में Llama 3 का नाटकीय performance improvement प्रभावशाली है, और context window को दोगुना करके 8k करने से कई नए अवसर खुलते दिखते हैं.

  • यह जानकारी भी साझा की गई कि Zuckerberg ने Llama 3 पर एक interview दिया था.