Mistral का "Mixtral" 8x7B 32k मॉडल [मैग्नेट]

(twitter.com/MistralAI)

2 पॉइंट द्वारा GN⁺ 2023-12-09 | 1 टिप्पणियां | WhatsApp पर शेयर करें

1 टिप्पणियां

GN⁺ 2023-12-09

Hacker News की राय

दूसरे LLM अपडेट के तौर पर, अभी तक document न की गई neural alignment नाम की नई तकनीक से trained Mistral/Yi fine-tuned models Hugging Face leaderboard पर बाकी models से काफी आगे निकल रहे हैं
7B ज्यादातर 70B models को “हरा” रहा है, और testing में मौजूद 34B भी बहुत अच्छा दिख रहा है
https://huggingface.co/fblgit/una-xaberius-34b-v1beta
https://huggingface.co/fblgit/una-cybertron-7b-v2-bf16
सैद्धांतिक रूप से इस तकनीक को Mistral MoE पर भी लागू किया जा सकता है; अगर सामान्य Mistral 7B जैसी बढ़त मिले और Mistral MoE खुद भी अच्छा हो, तो नतीजा काफी डरावना model हो सकता है
यह शायद वह मोड़ हो सकता है जहां desktop पर चलने वाला open-source model सच में GPT-4 के बेहद करीब आना शुरू कर दे
- मैंने 7B version इस्तेमाल करके देखा, और यह पहले इस्तेमाल किए गए models से साफ तौर पर अलग महसूस हुआ
  यह Docker Compose file समझा पाया, और एक simple Vue application component भी generate किया
  example देकर थोड़ा और पूछने पर पूरी बातचीत में यह अजीब हद तक consistent और focused रहा, और context clear किए बिना भी यह अच्छी तरह समझ पाया कि नया topic शुरू हो रहा है या पिछली बात को refer किया जा रहा है
  खासकर जब मैंने पूछा “What does following mean [docker compose content]”, तो cybertron-7b ने “दिए गए YAML configuration में ‘following’ dependency specification को दर्शाता है” जैसे मेरे expression को सीधे quotes में लेकर जवाब दिया; बातचीत में इस तरह exact expression quote करने वाला model मैंने पहली बार देखा
- रुचि हुई तो सबसे छोटे variant के लिए TheBloke के GGUF version[1] से ollama modelfile बनाया, और इतने छोटे model के हिसाब से इसमें सचमुच GPT-4 जैसा काफी feel बचा हुआ है
  पहले local LLM के तौर पर ज्यादातर इस्तेमाल किए गए openhermes2.5-mistral की तुलना में यह ज्यादा consistent लगता है
  अगर ollama installed है, तो इसे ollama run nollama/una-cybertron-7b-v2 से चला सकते हैं
  [1]: https://huggingface.co/TheBloke/una-cybertron-7B-v2-GGUF
- सही है। UNA लगता है MoE को कई layers, experts, और neural network के लगभग किसी भी हिस्से में align कर सकता है
  Xaberius 34B v1 “BETA” राजा है, लेकिन सचमुच अभी सिर्फ beta ही है
  अब Mixtral पर focus करने वाला हूं, और यह जिस तरह modular है, Christmas gift जैसा है। lab खोलने के लिए @mistral का धन्यवाद
- अब LLM benchmarks, अच्छा मानें तो meaningless हैं और बुरा मानें तो झूठ के करीब नहीं हो गए हैं?
- सही है। Mistral ‘safety training’ से model को castrate करने जैसा कमजोर बनाने की ज्यादा परवाह नहीं करता
  इसलिए Anthropic/Google/OpenAI की तुलना में प्रति parameter performance कहीं बेहतर होने के साथ-साथ steerability भी ज्यादा हो सकती है
Andrej Karpathy की व्याख्या:
@MistralAI का नया open weights LLM
params.json के आधार पर hidden_dim / dim = 14336/4096 => 3.5X MLP विस्तार, n_heads / n_kv_heads = 32/8 => 4X multiquery, "moe" => mixture of experts 8X top 2
संबंधित code जैसा दिखने वाला:
https://github.com/mistralai/megablocks-public
अजीब बात है कि “AI की क्रांति” बताने वाला बहुत rehearsed professional launch video नहीं है
अगर सोच रहे हैं कि अभी AI activity इतनी ज्यादा क्यों है, तो वजह यह है कि सबसे बड़ा deep learning conference NeurIPS अगले हफ्ते है
https://twitter.com/karpathy/status/1733181701361451130
- अगर NeurIPS अगले हफ्ते है, तो क्या कई companies से नई architectures या models जैसी बड़ी announcements की उम्मीद करनी चाहिए? research conference culture से परिचित नहीं हूं, इसलिए पूछ रहा हूं
- hidden_dim / dim = 14336/4096 => 3.5X MLP विस्तार और n_heads / n_kv_heads = 32/8 => 4X दोनों मौजूदा Mistral-7B जैसे ही हैं
- EMNLP 2023 भी अभी चल रहा है, इसलिए announcements जमा होकर आ रही हैं
Mistral शायद explanation पर ज्यादा मेहनत नहीं करता, लेकिन यह तरीका Google की polished, corporate और soulless Gemini announcement की तुलना में product पर कहीं ज्यादा भरोसा दिलाता है
- docs से बेहतर weights release है
  मुझे याद आता है कि एक Google employee Gemini के weights—वो भी सिर्फ छोटे mobile Gemini—release करने को ऐसे brag कर रहा था जैसे वह दूसरी companies से ज्यादा generous कदम हो
क्या grand announcement जरूरी है? 90s वाले तरीके से करें: https://twitter.com/erhartford/status/1733159666417545641/ph...
- यह साफ तौर पर manipulated और unrealistic marketing page या video निकालने की तुलना में कहीं ज्यादा bold और confident तरीका लगता है
यह mixture of experts (MoE) जैसा दिखता है, और params.json इस तरह है
{ "dim": 4096, "n_layers": 32, "head_dim": 128, "hidden_dim": 14336, "n_heads": 32, "n_kv_heads": 8, "norm_eps": 1e-05, "vocab_size": 32000, "moe": { "num_experts_per_tok": 2, "num_experts": 8 } }
- इस context में expert का exact मतलब क्या है?
- वहां code नहीं दिख रहा, कौन सा runtime इन weights को load कर सकता है?
भले ही वे बिल्कुल समान लक्ष्य वाली companies नहीं हैं, लेकिन इस model announcement की तुलना दो दिन पहले Google की Gemini announcement से करें तो यह काफी मजेदार है
इस हफ्ते की शुरुआत में Google के “सिर्फ डेमो, मॉडल नहीं” वाले approach से बिल्कुल उलट
ऐसा लगता है कि इसे Stanford के Megablocks से train किया गया है: https://github.com/mistralai/megablocks-public
विवादास्पद हो सकता है, लेकिन मेरे हिसाब से Mistral 7B असली LLM cutting edge है
ChatGPT 4 वाकई कमाल है और मैं पहले दिन से subscribe कर रहा हूं, लेकिन यह विशाल, दूर स्थित server farms पर चलता है और लगभग black box है
Mistral छोटा है, अपने size के हिसाब से सामान्य सवालों और code दोनों में हैरानी की हद तक consistent और उपयोगी है, सेंसरशिप भी नहीं है, और यह ऐसी छलांग है जिस पर यकीन करना मुश्किल है कि एक साल में संभव हुई
इसे MacBook Air पर 12 tok/s पर चला सकते हैं, और desktop पर इसे आज़माने का इंतज़ार है
- MacBook Air पर चल सकने वाली range में यह cutting edge है, लेकिन पूरे LLM या पूरे open source में cutting edge नहीं है
  Yi 34B और Llama2 70B अभी भी बेहतर हैं
- अगर इंटरनेट पर consume की जाने वाली 50% जानकारी पिछले 24 घंटों में बनी है, तो छोटे models को बड़े models पर काफी बड़ा advantage मिल सकता है
  अगर LLM या SmallLM को हर हफ्ते या हर दिन लगातार retrain या fine-tune करके latest जानकारी reflect कराई जा सके, तो 1–2 साल पहले train किए गए पुराने models के लिए मुकाबला करना मुश्किल होगा
  license का पता नहीं, लेकिन OpenAI Mistral7B जैसे छोटे model को GPT stack में डालकर हर हफ्ते scratch से retrain कर सकता है और फिर GPT-4 जितनी ही कीमत ले सकता है
  performance कमजोर हो तब भी ऐसा लगता है कि कुछ users ज़रूर होंगे जो ज्यादा up-to-date model को पसंद करेंगे
- सहमत हूं। Mistral 7B सच में हैरान कर देने जितना अच्छा है
  Intel version या Berkeley Starling जैसे fine-tuned models सिर्फ 7B के हैं, फिर भी gpt3.5T के काफी करीब लगते हैं
  मैं 13B Mistral का सच में इंतज़ार कर रहा था, लेकिन पता नहीं यह MoE 24GB 3090 पर चलेगा या नहीं
  उम्मीद है quantization, offloading और आगे आने वाली techniques से इसे चलाना संभव हो जाएगा
- MacBook Air पर 12 tok/s थोड़ा कम लगता है
  क्या आप llama.cpp में Metal GPU acceleration इस्तेमाल कर रहे हैं? मेरे पास MacBook नहीं है, लेकिन llama.cpp benchmarks देखकर लगा था कि GPU acceleration से लगभग 30 tok/s तक जा सकता है
- सच में ऐसा ही है। कम से कम llama2 13b के बराबर लगता है
  अगर mistral 70b मौजूद होता और 7b size पर llama2 की तुलना में जितना सुधार दिखाया है, उतने ही अंतर से llama2 70b से बेहतर होता, तो यह निश्चित रूप से gpt3.5 जैसा स्तर होता
अब एक प्रयोगात्मक रूप से काम करने वाला Hugging Face version मौजूद है: https://huggingface.co/DiscoResearch/mixtral-7b-8expert
Google ने fake demo दिखाया, Mistral ने सिर्फ एक magnet link से काम खत्म कर दिया

Mistral का "Mixtral" 8x7B 32k मॉडल [मैग्नेट]

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय