11 पॉइंट द्वारा GN⁺ 2023-09-28 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • अब तक का सबसे शक्तिशाली language model
  • 7.3B parameter वाला model, जो सभी benchmark में Llama 2 13B को और कई benchmark में Llama 1 34B को पीछे छोड़ता है
  • तेज inference के लिए Grouped-query attention (GQA) और कम लागत में लंबी sequence संभालने के लिए Sliding Window Attention (SWA) का उपयोग
  • Apache 2.0 license के तहत, बिना किसी प्रतिबंध के उपयोग योग्य
  • किसी भी cloud (AWS/GCP/Azure) पर vLLM inference server और skypilot का उपयोग करके deploy किया जा सकता है, और HuggingFace पर भी उपलब्ध है
  • इसे आसानी से fine-tune किया जा सकता है, और chat के लिए fine-tune किया गया model Llama 2 13B chat से बेहतर है

1 टिप्पणियां

 
GN⁺ 2023-09-28
Hacker News की राय
  • Mistral, Meta और DeciLM के विपरीत, इस क्लास के मॉडल्स को Apache लाइसेंस देने वाली पहली कंपनी है।
  • यह मॉडल MacBook Air M1 पर अच्छी तरह चलता है और GPT3.5 के बराबर माना जा सकता है।
  • JSON जैसे structured data को संभालने के लिए "function calling API" के उपयोग की संभावना पर सवाल हैं।
  • मॉडल ट्रेनिंग में इस्तेमाल किए गए dataset को लेकर चिंताएँ उठी हैं, और benchmark leak होने से नतीजे बढ़ा-चढ़ाकर दिखने की संभावना भी बताई गई है।
  • मॉडल की घोषणा Twitter के torrent tracker URI के ज़रिए की गई थी।
  • LLMs के लिए coding assistant tools के टेस्ट में Mistral, CodeLlama और GPT4 जितना अच्छा प्रदर्शन नहीं कर पाया।
  • यह मॉडल llama.cpp द्वारा supported है, इसलिए macOS पर FreeChat में काम करता है।
  • इस बात पर सवाल हैं कि प्रोजेक्ट्स क्यों 7B मॉडल जैसे बड़े bucket के भीतर किसी खास parameter size पर standardize करते हुए दिखते हैं।
  • मॉडल की ट्रेनिंग के बारे में, यह किन data पर आधारित है और इसे कहाँ train किया गया, इस पर अधिक जानकारी की माँग की गई है।
  • ट्रेनिंग सेट में benchmark contamination की जाँच करने के लिए tests की माँग भी की गई है।