Yi - अगली पीढ़ी का ओपन सोर्स द्विभाषी LLM

xguru · 2024-03-12T10:03:02+09:00

डेवलपर्स द्वारा शुरुआत से प्रशिक्षित अगली पीढ़ी का ओपन सोर्स large language model द्विभाषी मॉडल के लक्ष्य के साथ 3T बहुभाषी corpus पर प्रशिक्षित, और language understanding, common-sense reasoning, reading comprehension जैसी क्षमताओं में मजबूत प्रदर्शन दिखाता है 6B और 34B pre-trained language models पर आधारित, और chatbot model, 200K long-context model, depth upscaling model, vision-language model तक विस्तारित Yi-34B-Chat मॉडल AlpacaEval leaderboard में GPT-4 Turbo के बाद दूसरे स्थान पर रहा और अन्य LLMs को पीछे छोड़ा अंग्रेज़ी और चीनी दोनों में मौजूदा open source models से बेहतर प्रदर्शन करता है और विभिन्न benchmarks में पहला स्थान प्राप्त करता है Llama जैसी ही model architecture अपनाता है, लेकिन यह Llama का derived model नहीं है. Llama के weights का उपयोग नहीं करता विभिन्न sizes में उपलब्ध है, और specific requirements के अनुसार मॉडल को fine-tune किया जा सकता है chat models Yi-34B-Chat, Yi-34B-Chat-4bits, Yi-34B-Chat-8bits Yi-6B-Chat, Yi-6B-Chat-4bits, Yi-6B-Chat-8bits base models Yi-34B, Yi-34B-200K Yi-9B Yi-6B, Yi-6B-200K

(github.com/01-ai)

9 पॉइंट द्वारा xguru 2024-03-12 | 1 टिप्पणियां | WhatsApp पर शेयर करें

डेवलपर्स द्वारा शुरुआत से प्रशिक्षित अगली पीढ़ी का ओपन सोर्स large language model
द्विभाषी मॉडल के लक्ष्य के साथ 3T बहुभाषी corpus पर प्रशिक्षित, और language understanding, common-sense reasoning, reading comprehension जैसी क्षमताओं में मजबूत प्रदर्शन दिखाता है
6B और 34B pre-trained language models पर आधारित, और chatbot model, 200K long-context model, depth upscaling model, vision-language model तक विस्तारित
Yi-34B-Chat मॉडल
- AlpacaEval leaderboard में GPT-4 Turbo के बाद दूसरे स्थान पर रहा और अन्य LLMs को पीछे छोड़ा
- अंग्रेज़ी और चीनी दोनों में मौजूदा open source models से बेहतर प्रदर्शन करता है और विभिन्न benchmarks में पहला स्थान प्राप्त करता है
Llama जैसी ही model architecture अपनाता है, लेकिन यह Llama का derived model नहीं है. Llama के weights का उपयोग नहीं करता
विभिन्न sizes में उपलब्ध है, और specific requirements के अनुसार मॉडल को fine-tune किया जा सकता है
- chat models
  - Yi-34B-Chat, Yi-34B-Chat-4bits, Yi-34B-Chat-8bits
  - Yi-6B-Chat, Yi-6B-Chat-4bits, Yi-6B-Chat-8bits
- base models
  - Yi-34B, Yi-34B-200K
  - Yi-9B
  - Yi-6B, Yi-6B-200K

1 टिप्पणियां

xguru 2024-03-12

Hacker News प्रतिक्रियाएँ

Yi-34B-Chat मॉडल ने AlpacaEval लीडरबोर्ड पर GPT-4 Turbo के बाद दूसरा स्थान हासिल किया और GPT-4, Mixtral, Claude जैसे अन्य LLMs को पीछे छोड़ दिया।
Yi-34B मॉडल ओपन सोर्स मॉडलों में अंग्रेज़ी और चीनी benchmarks में पहले स्थान पर रहा। यह Hugging Face Open LLM Leaderboard (pretrained models) और C-Eval के आधार पर है।
repository का source code Apache 2.0 license का पालन करता है, लेकिन weights नहीं करते।
Yi मॉडल कुछ खास test prompts पर विफल हो जाता है। कई बार कोशिश करने पर भी Yi हर बार अलग-अलग जवाबों में से किसी एक को विजेता चुनता है।
"01.ai" नाम शुभ संकेत नहीं देता, क्योंकि यह फ़िल्म 'Matrix' में उस पहले AI राष्ट्र के नाम जैसा है जिसने मानवता के खिलाफ युद्ध किया और इंसानों को गुलाम बना लिया।
Yi मॉडल का प्रदर्शन data engineering प्रयासों से आई data quality की वजह से है।
Yi 34B Chat मॉडल ने NYT Connections benchmark में अच्छा प्रदर्शन नहीं किया और LMSYS Elo-आधारित लीडरबोर्ड में 22वाँ स्थान पाया। चीनी भाषा में इसका प्रदर्शन बेहतर है।
इन मॉडलों का प्रदर्शन बेहतर होते देख यह उम्मीद बनती है कि 2-3 साल के भीतर mobile-first LLMs text-to-speech और typing prediction को बेहतर बनाएँगे और battery खपत भी काफी कम करेंगे।
Yi-9B नाम का एक नया मॉडल भी है.

Yi - अगली पीढ़ी का ओपन सोर्स द्विभाषी LLM

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News प्रतिक्रियाएँ