Mistral 7B

(mistral.ai)

11 पॉइंट द्वारा GN⁺ 2023-09-28 | 1 टिप्पणियां | WhatsApp पर शेयर करें

अब तक का सबसे शक्तिशाली language model
7.3B parameter वाला model, जो सभी benchmark में Llama 2 13B को और कई benchmark में Llama 1 34B को पीछे छोड़ता है
तेज inference के लिए Grouped-query attention (GQA) और कम लागत में लंबी sequence संभालने के लिए Sliding Window Attention (SWA) का उपयोग
Apache 2.0 license के तहत, बिना किसी प्रतिबंध के उपयोग योग्य
किसी भी cloud (AWS/GCP/Azure) पर vLLM inference server और skypilot का उपयोग करके deploy किया जा सकता है, और HuggingFace पर भी उपलब्ध है
इसे आसानी से fine-tune किया जा सकता है, और chat के लिए fine-tune किया गया model Llama 2 13B chat से बेहतर है

1 टिप्पणियां

GN⁺ 2023-09-28

Hacker News की राय

Mistral, Meta और DeciLM के विपरीत, इस क्लास के मॉडल्स को Apache लाइसेंस देने वाली पहली कंपनी है।
यह मॉडल MacBook Air M1 पर अच्छी तरह चलता है और GPT3.5 के बराबर माना जा सकता है।
JSON जैसे structured data को संभालने के लिए "function calling API" के उपयोग की संभावना पर सवाल हैं।
मॉडल ट्रेनिंग में इस्तेमाल किए गए dataset को लेकर चिंताएँ उठी हैं, और benchmark leak होने से नतीजे बढ़ा-चढ़ाकर दिखने की संभावना भी बताई गई है।
मॉडल की घोषणा Twitter के torrent tracker URI के ज़रिए की गई थी।
LLMs के लिए coding assistant tools के टेस्ट में Mistral, CodeLlama और GPT4 जितना अच्छा प्रदर्शन नहीं कर पाया।
यह मॉडल llama.cpp द्वारा supported है, इसलिए macOS पर FreeChat में काम करता है।
इस बात पर सवाल हैं कि प्रोजेक्ट्स क्यों 7B मॉडल जैसे बड़े bucket के भीतर किसी खास parameter size पर standardize करते हुए दिखते हैं।
मॉडल की ट्रेनिंग के बारे में, यह किन data पर आधारित है और इसे कहाँ train किया गया, इस पर अधिक जानकारी की माँग की गई है।
ट्रेनिंग सेट में benchmark contamination की जाँच करने के लिए tests की माँग भी की गई है।

Mistral 7B

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय