1 पॉइंट द्वारा GN⁺ 2024-01-10 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Mixtral of Experts परिचय

  • Mixtral 8x7B एक Sparse Mixture of Experts (SMoE) भाषा मॉडल है.
  • Mixtral की संरचना Mistral 7B जैसी ही है, लेकिन हर लेयर 8 feedforward blocks (experts) से बनी है.
  • हर token के लिए router network दो experts चुनता है जो मौजूदा state को प्रोसेस करते हैं, और फिर उनके outputs को मिलाता है.

प्रदर्शन और बेंचमार्क

  • हर token 47B parameters तक पहुंच सकता है, लेकिन inference के दौरान केवल 13B active parameters का उपयोग होता है.
  • Mixtral को 32k token context size के साथ train किया गया है, और यह सभी मूल्यांकित benchmarks में Llama 2 70B और GPT-3.5 से बेहतर या उनके बराबर प्रदर्शन करता है.
  • खास तौर पर math, code generation, और multilingual benchmarks में यह Llama 2 70B से काफी बेहतर है.

मॉडल Fine-tuning और लाइसेंस

  • निर्देशों का पालन करने के लिए Fine-tuning किया गया मॉडल Mixtral 8x7B - Instruct, human benchmarks में GPT-3.5 Turbo, Claude-2.1, Gemini Pro, और Llama 2 70B - chat मॉडल से बेहतर प्रदर्शन करता है.
  • base model और instruct model दोनों Apache 2.0 license के तहत जारी किए गए हैं.

GN⁺ की राय

  • Mixtral 8x7B को मौजूदा भाषा मॉडलों की तुलना में उत्कृष्ट प्रदर्शन करने वाला माना जा रहा है. यह AI language processing क्षेत्र में प्रगति का एक महत्वपूर्ण संकेतक है.
  • खास तौर पर विभिन्न भाषाओं और code generation में इसकी बेहतर performance machine translation, automatic programming जैसे कई application क्षेत्रों पर सकारात्मक प्रभाव डाल सकती है.
  • Apache 2.0 license के तहत जारी किया जाना researchers और developers को इस मॉडल का स्वतंत्र रूप से उपयोग और सुधार करने का अवसर देता है, जिससे open source AI community के विकास में योगदान मिल सकता है.

1 टिप्पणियां

 
GN⁺ 2024-01-10
Hacker News राय
  • Mixtral 8x7B मॉडल पर चर्चा

    • Mixtral 8x7B मॉडल लगभग एक महीने से उपयोग में है और 13B आकार में बहुत शानदार प्रदर्शन दिखाता है।
    • यह प्रतिस्पर्धी मॉडलों की तुलना में ऊँची रैंकिंग रखता है और रोज़मर्रा के Mac उपयोग में चैट, कोड इनपुट आदि के लिए बहुत उपयोगी है।
    • यह संभावना जताई गई है कि Mistral 7B से शुरू हुए 8 experts अलग-अलग दिशाओं में विकसित हुए होंगे।
    • Mistral के मामले में, 8x7B नेटवर्क को train करना शायद 7B नेटवर्क के 8 अलग-अलग मॉडल train करने जितनी मेहनत नहीं मांगता था।
    • LLM क्षेत्र में अब भी तेज़ innovation जारी है, और Calm जैसे नए research तथा Goliath-120b जैसे experimental model सामने आ रहे हैं।
    • उम्मीद है कि 2024 की पहली छमाही में consumer hardware पर अच्छी performance वाले मॉडल सामने आएँगे।
  • मॉडल का प्रदर्शन और उपयोगिता

    • यह मॉडल 13b parameters का उपयोग करके 3090 पर उच्च गुणवत्ता के साथ स्मूदली चलता है, humaneval में GPT-3.5 को पीछे छोड़ता है और 32k context को support करता है।
    • 3090 gamers के बीच आम तौर पर इस्तेमाल होने वाला consumer-grade hardware है।
    • उम्मीद है कि game developers गेम्स के भीतर Mixtral का उपयोग शुरू करेंगे।
  • मॉडल उपयोग करने का तरीका

    • Mixtral मॉडल को Mozilla/jart ने Llamafile के रूप में जारी किया है, और उपयोगकर्ता उस फ़ाइल को डाउनलोड करके चला सकते हैं।
  • Mac silicon पर उपयोग

    • Mac silicon उपयोगकर्ता ollama.ai के ज़रिए Mixtral डाउनलोड कर सकते हैं और ollama-webui का उपयोग करके web UI बना सकते हैं।
  • संबंधित समाचार और चर्चा

    • Mixtral मॉडल से जुड़ी हाल की खबरों और चर्चाओं के लिंक दिए गए हैं।
  • मॉडल का benchmark प्रदर्शन

    • Mixtral गणित, code generation और multilingual benchmark में Llama 2 70B मॉडल से काफ़ी आगे है।
    • गणित के क्षेत्र में इसके प्रदर्शन को लेकर रुचि है, और यह क्षेत्र अभी भी प्रभावी रूप से हल नहीं हुआ लगता है।
  • पेपर पर आलोचनात्मक राय

    • LLM पर लिखे गए पेपर में पर्याप्त विस्तार की कमी होने की आलोचना है।
    • यह बताया नहीं गया कि experts को कैसे train किया गया या कौन-सा dataset इस्तेमाल किया गया।
  • Mistral संस्थापक के इंटरव्यू की बातें

    • Mistral के संस्थापक ने A16Z podcast इंटरव्यू में कहा कि उनके पास chatGPT और GPT4 स्तर के बीच कई internal model हैं।
    • अब तक की high-quality releases को देखते हुए open source LLM को लेकर उम्मीद जताई गई है।
  • हर expert मॉडल का विवरण

    • पेपर में यह नहीं बताया गया कि 8 मॉडलों में से कोई एक multilingual translation में विशेषज्ञ है या कोई दूसरा coding में विशेषज्ञ है।
  • multimodal मॉडल जारी होने को लेकर उम्मीद

    • केवल text संभालने वाले मॉडल की प्रगति चौंकाने वाली रही है, लेकिन यह जिज्ञासा है कि GPT-4 का "उभरता हुआ" व्यवहार कहीं multimodal training की वजह से तो नहीं है।
    • यह जानने में रुचि है कि multimodal शामिल छोटे मॉडल भी क्या इसी तरह की छलांग दिखाएँगे।