1 टिप्पणियां

 
GN⁺ 2023-12-09
Hacker News राय
  • Andrej Karpathy की राय:

    • MistralAI के नए open source LLM (Large Language Model) का परिचय
    • params.json फ़ाइल में ध्यान देने योग्य सेटिंग्स:
      • hidden_dim / dim = 14336/4096 => MLP expansion 3.5x
      • n_heads / n_kv_heads = 32/8 => 4x multiquery
      • "moe" => Mixture of Experts में top-2 of 8x
    • संबंधित कोड GitHub पर देखा जा सकता है
    • AI क्रांति पर कोई बढ़ा-चढ़ाकर बनाया गया promotional video नहीं है
    • NeurIPS नाम का बड़ा deep learning conference नज़दीक आ रहा है, इसलिए AI में बहुत हलचल हो रही है
  • अन्य LLM खबरें:

    • Mistral/Yi ने 'neural alignment' नाम की नई तकनीक से fine-tuned models का उपयोग करके Hugging Face leaderboard पर दूसरे models को पछाड़ दिया है
    • 7B model ज़्यादातर 70B models को 'हराता' है
    • टेस्ट किया जा रहा 34B model बहुत अच्छा दिख रहा है
    • अगर यह तकनीक Mistral Moe पर लागू होती है, तो यह बहुत बेहतरीन model हो सकता है
    • desktop पर चलने वाला OSS, GPT-4 को चुनौती देने वाला एक अहम turning point हो सकता है
  • Mistral का approach:

    • Mistral व्याख्या पर ज़्यादा ध्यान नहीं देता, लेकिन यह शैली Google की polished corporate announcements की तुलना में अधिक भरोसेमंद लगती है
  • सरल announcement शैली:

    • 90s-style की सरल announcement को पसंद किया गया
  • Mistral के model specs:

    • Mixture of Experts संरचना वाला params.json फ़ाइल सार्वजनिक किया गया
  • Mistral और Google की announcement शैली की तुलना:

    • Google के Gemini announcement के विपरीत Mistral की model announcement शैली
    • लगता है कि Mistral को Stanford के Megablocks के आधार पर train किया गया है
  • Mistral की marketing strategy:

    • जहाँ दूसरी कंपनियाँ landing page और promotional video पर ज़ोर देती हैं, वहीं Mistral ने बस सादगी से model जारी किया
  • Mistral की सार्वजनिक जानकारी:

    • Mixture of Experts architecture का उपयोग
    • 7B parameters वाले 8 experts
    • कुल 96GB weights, इसलिए सामान्य home GPU पर चलाना संभव नहीं