जब weights और hardware मौजूद हों, तो इस model को चलाने का सबसे आसान तरीका क्या है, यह जानना है
model का आधा हिस्सा RAM में offload करने पर भी, किस tool से load करना चाहिए—Ollama, Llama.cpp, या किसी Python library में import कर लेना चाहिए—यह जानना है
और किसी दूसरे model से तुलना करनी हो तो benchmark कैसे करना बेहतर होगा, क्या कोई ready-to-use tool है, यह भी जानना है
llamafile वाला तरीका सबसे अच्छा लगता है
binary command line से चलती है या छोटा web server शुरू कर देती है
llamafile Mixtral-8x7B-Instruct build देता है, इसलिए यह model भी शायद package किया जा सकता है और संभव है कि quantized format में हो
ecosystem को बेहतर जानने वाले किसी व्यक्ति से पुष्टि करनी होगी, लेकिन लगता है कि नया model भी वैसे ही llamafile में चल सकता है https://github.com/Mozilla-Ocho/llamafile
MacBook पर LLM test करने के लिए LM Studio बेहतरीन है: https://lmstudio.ai/
app के अंदर Hugging Face के नए models search करके तुरंत test करना बहुत आसान है
Hugging Face पर The Bloke नाम का एक user है, जो full-size model आने के कुछ ही समय बाद pre-quantized models upload कर देता है
उस page पर नजर रखें और उम्मीद करें कि 4-bit model GPU में fit हो जाए
शायद वह पहले से ही इस पर काम कर रहा होगा
8x22B—अगर यह Mixtral 8x7B जितना अच्छा हुआ, तो वाकई दिलचस्प दौर आने वाला है
सुना है Command R benchmarks में GPT-4 को हराने वाला पहला open source model है
8x7B तो पहले से है, इसलिए एक और 8x7B चाहने की वजह नहीं होगी; मतलब यह बेहतर ही होगा, है न?
विषय से थोड़ा हटकर, लेकिन सोच रहा हूँ कि क्या अब हम उस समय वाली ChatGPT 4 performance तक वापस आ गए हैं जिसे लोग जादू जैसा कहते थे
मेरा मतलब उस baseline से है, जब politically more correct बनाने के दौरान performance काफी गिरने से पहले की स्थिति थी
MacBook पर कई LLM test किए हैं, और GPT-4 के किसी भी समय के version से तुलना करूँ तो अभी भी वे सभी काफी पीछे लगते हैं
हालांकि GPT-3 level के models बहुत हैं, और specific tasks के लिए fine-tuned models भी काफी हैं
open models में जो बड़ी कमी है, वह language support है
Norwegian में उपयोग लायक output देने वाला मुझे सिर्फ एक model मिला, और GPT-4 में यह कभी समस्या नहीं रही
open models के लिहाज से, मुझे लगता है कि कम-से-कम ChatGPT 4 के शुरुआती release की performance तक पहुँच चुके हैं
क्या Llama 3 आने से पहले हर कोई अपना best छोटा model निकालने की होड़ में है?
262GB को खास छोटा कहना मुश्किल है
फिर भी लगता है कि अगर सबके results Llama 3 से खराब निकले, तो बाद में release करना शर्मिंदगी भरा हो सकता है, इसलिए अभी निकालने का माहौल है
Llama 3 अगले 2 हफ्तों में आने की अफवाहों को देखते हुए यह काफी plausible लगता है
Mixtral 8x7B इस्तेमाल करने में अच्छा लगा था, और इस model को भी test करने का इंतजार है
काश इसमें GPT-4 भी होता
अभी भी पार करना उसी model को है
4-bit quantization में शायद 85GB VRAM चाहिए होगी, इसलिए यह 24GB वाले 4 consumer GPUs में ठीक से fit हो जाएगा और KV cache optimization के लिए थोड़ी जगह भी बचेगी
4-bit में इससे कम लग सकता है
क्योंकि expert models के बीच काफी parameters shared होते हैं
हालांकि अगर batch size 1 पर नहीं चला रहे, तो 8-GPU setup की तुलना में यह ज्यादा परेशान कर सकता है
batch के भीतर ज्यादातर या सभी experts activate होने की संभावना लगभग तय है
Mixtral 8x7B का 2-bit quantization 8GB GPU पर भी कुछ use cases के लिए usable था
यह नया model 8–16GB वाली सस्ती GPU configurations पर कैसे चलेगा, यह जानने की उत्सुकता है
यह base model है, instruction model नहीं—यह बात बहुत अहम है
chat के लिए उपयोगी model instruction-fine-tuned model होता है
एक strong base model को सीधे इस्तेमाल करने पर कैसा लगता है, यह जानने की उत्सुकता है
क्या यह बस prompt text को आगे लिखते हुए complete करने जैसा होगा?
Llama 3 के release timing से बिल्कुल मेल खाते हुए आया है
उसी दिन Google Gemini Pro ने लगभग पूरी तरह open long-context multimodal access निकाला, और OpenAI ने भी GPT-4-Turbo upgrade किया, इसलिए news से भरा बड़ा दिन था
1 टिप्पणियां
Hacker News की राय
model का आधा हिस्सा RAM में offload करने पर भी, किस tool से load करना चाहिए—Ollama, Llama.cpp, या किसी Python library में import कर लेना चाहिए—यह जानना है
और किसी दूसरे model से तुलना करनी हो तो benchmark कैसे करना बेहतर होगा, क्या कोई ready-to-use tool है, यह भी जानना है
binary command line से चलती है या छोटा web server शुरू कर देती है
llamafile Mixtral-8x7B-Instruct build देता है, इसलिए यह model भी शायद package किया जा सकता है और संभव है कि quantized format में हो
ecosystem को बेहतर जानने वाले किसी व्यक्ति से पुष्टि करनी होगी, लेकिन लगता है कि नया model भी वैसे ही llamafile में चल सकता है
https://github.com/Mozilla-Ocho/llamafile
app के अंदर Hugging Face के नए models search करके तुरंत test करना बहुत आसान है
उस page पर नजर रखें और उम्मीद करें कि 4-bit model GPU में fit हो जाए
शायद वह पहले से ही इस पर काम कर रहा होगा
https://api.together.xyz/playground/language/mistralai/Mixtral-8x22B
इसमें profile की जगह tweet link दिया गया है:
https://twitter.com/MistralAI/status/1777869263778291896
मेरा मतलब उस baseline से है, जब politically more correct बनाने के दौरान performance काफी गिरने से पहले की स्थिति थी
हालांकि GPT-3 level के models बहुत हैं, और specific tasks के लिए fine-tuned models भी काफी हैं
open models में जो बड़ी कमी है, वह language support है
Norwegian में उपयोग लायक output देने वाला मुझे सिर्फ एक model मिला, और GPT-4 में यह कभी समस्या नहीं रही
फिर भी लगता है कि अगर सबके results Llama 3 से खराब निकले, तो बाद में release करना शर्मिंदगी भरा हो सकता है, इसलिए अभी निकालने का माहौल है
https://huggingface.co/mistral-community/Mixtral-8x22B-v0.1/discussions/4
अभी भी पार करना उसी model को है
क्योंकि expert models के बीच काफी parameters shared होते हैं
हालांकि अगर batch size 1 पर नहीं चला रहे, तो 8-GPU setup की तुलना में यह ज्यादा परेशान कर सकता है
batch के भीतर ज्यादातर या सभी experts activate होने की संभावना लगभग तय है
यह नया model 8–16GB वाली सस्ती GPU configurations पर कैसे चलेगा, यह जानने की उत्सुकता है
chat के लिए उपयोगी model instruction-fine-tuned model होता है
क्या यह बस prompt text को आगे लिखते हुए complete करने जैसा होगा?