Mistral का "Mixtral" 8x7B 32k मॉडल [मैग्नेट] (twitter.com/MistralAI) 2 पॉइंट द्वारा GN⁺ 2023-12-09 | 1 टिप्पणियां | WhatsApp पर शेयर करें संबंधित पढ़ाई Mistral AI ने नया 8x22B MOE मॉडल लॉन्च किया 1 पॉइंट · 1 टिप्पणियां · 2024-04-12 Mistral AI ने नया ओपन मॉडल Mixtral 8x22B पेश किया 9 पॉइंट · 6 टिप्पणियां · 2024-04-18 Mistral AI ने Llama 2 70B मॉडल से बेहतर Mixtral 8x7B मॉडल पेश किया 12 पॉइंट · 2 टिप्पणियां · 2023-12-12 Mistral Voxtral Realtime 4B स्पीच रिकग्निशन मॉडल के लिए शुद्ध C-आधारित CPU-ओनली inference implementation 13 पॉइंट · 1 टिप्पणियां · 2026-02-12 Mixtral 8x7B: विरल विशेषज्ञ मिश्रण भाषा मॉडल 1 पॉइंट · 1 टिप्पणियां · 2024-01-10 1 टिप्पणियां GN⁺ 2023-12-09 Hacker News राय Andrej Karpathy की राय: MistralAI के नए open source LLM (Large Language Model) का परिचय params.json फ़ाइल में ध्यान देने योग्य सेटिंग्स: hidden_dim / dim = 14336/4096 => MLP expansion 3.5x n_heads / n_kv_heads = 32/8 => 4x multiquery "moe" => Mixture of Experts में top-2 of 8x संबंधित कोड GitHub पर देखा जा सकता है AI क्रांति पर कोई बढ़ा-चढ़ाकर बनाया गया promotional video नहीं है NeurIPS नाम का बड़ा deep learning conference नज़दीक आ रहा है, इसलिए AI में बहुत हलचल हो रही है अन्य LLM खबरें: Mistral/Yi ने 'neural alignment' नाम की नई तकनीक से fine-tuned models का उपयोग करके Hugging Face leaderboard पर दूसरे models को पछाड़ दिया है 7B model ज़्यादातर 70B models को 'हराता' है टेस्ट किया जा रहा 34B model बहुत अच्छा दिख रहा है अगर यह तकनीक Mistral Moe पर लागू होती है, तो यह बहुत बेहतरीन model हो सकता है desktop पर चलने वाला OSS, GPT-4 को चुनौती देने वाला एक अहम turning point हो सकता है Mistral का approach: Mistral व्याख्या पर ज़्यादा ध्यान नहीं देता, लेकिन यह शैली Google की polished corporate announcements की तुलना में अधिक भरोसेमंद लगती है सरल announcement शैली: 90s-style की सरल announcement को पसंद किया गया Mistral के model specs: Mixture of Experts संरचना वाला params.json फ़ाइल सार्वजनिक किया गया Mistral और Google की announcement शैली की तुलना: Google के Gemini announcement के विपरीत Mistral की model announcement शैली लगता है कि Mistral को Stanford के Megablocks के आधार पर train किया गया है Mistral की marketing strategy: जहाँ दूसरी कंपनियाँ landing page और promotional video पर ज़ोर देती हैं, वहीं Mistral ने बस सादगी से model जारी किया Mistral की सार्वजनिक जानकारी: Mixture of Experts architecture का उपयोग 7B parameters वाले 8 experts कुल 96GB weights, इसलिए सामान्य home GPU पर चलाना संभव नहीं
1 टिप्पणियां
Hacker News राय
Andrej Karpathy की राय:
params.jsonफ़ाइल में ध्यान देने योग्य सेटिंग्स:hidden_dim / dim = 14336/4096=> MLP expansion 3.5xn_heads / n_kv_heads = 32/8=> 4x multiquery"moe"=> Mixture of Experts में top-2 of 8xअन्य LLM खबरें:
Mistral का approach:
सरल announcement शैली:
Mistral के model specs:
params.jsonफ़ाइल सार्वजनिक किया गयाMistral और Google की announcement शैली की तुलना:
Mistral की marketing strategy:
Mistral की सार्वजनिक जानकारी: