Microsoft ने 2.7B का छोटा लेकिन शक्तिशाली Phi-2 language model पेश किया

xguru · 2023-12-15T09:21:19+09:00

SLM: Small Language Model 2.7B model होने के बावजूद यह अपने से अधिकतम 25 गुना बड़े models के बराबर या उनसे बेहतर प्रदर्शन दिखाता है Mistral 7B, Llama-7B/13B के प्रदर्शन से आगे coding और math जैसे multi-step reasoning में 25 गुना बड़े Llama-2-70B model से भी बेहतर Google Gemini Nano 2 से छोटा, लेकिन समान या उससे बेहतर प्रदर्शन GPT-4, Llama-2 जैसे models की तुलना में कम computing power के साथ text generation, image description जैसे समान कार्य कर सकता है आकार छोटा होने के कारण यह researchers के लिए एक आदर्श playground है, जिसमें mechanistic interpretability, safety improvements, या विभिन्न tasks पर fine-tuning experiments शामिल हैं

(microsoft.com)

17 पॉइंट द्वारा xguru 2023-12-15 | 2 टिप्पणियां | WhatsApp पर शेयर करें

SLM: Small Language Model
2.7B model होने के बावजूद यह अपने से अधिकतम 25 गुना बड़े models के बराबर या उनसे बेहतर प्रदर्शन दिखाता है
- Mistral 7B, Llama-7B/13B के प्रदर्शन से आगे
- coding और math जैसे multi-step reasoning में 25 गुना बड़े Llama-2-70B model से भी बेहतर
- Google Gemini Nano 2 से छोटा, लेकिन समान या उससे बेहतर प्रदर्शन
GPT-4, Llama-2 जैसे models की तुलना में कम computing power के साथ text generation, image description जैसे समान कार्य कर सकता है
आकार छोटा होने के कारण यह researchers के लिए एक आदर्श playground है, जिसमें mechanistic interpretability, safety improvements, या विभिन्न tasks पर fine-tuning experiments शामिल हैं

2 टिप्पणियां

xguru 2023-12-15

Weights यहाँ हैं https://huggingface.co/microsoft/phi-2

xguru 2023-12-15

Hacker News की राय

GPT-3 और Phi-2 के parameter count की तुलना
- GPT-3 में 174 अरब parameters हैं।
- Phi-2 में 2.7 अरब parameters हैं, यानी यह GPT-3 से लगभग 65 गुना छोटा है।
training data की मात्रा की तुलना
- GPT-3 को 300 अरब tokens पर train किया गया था।
- Phi-2 को 1400 अरब tokens पर train किया गया, यानी इसे GPT-3 की तुलना में लगभग 5 गुना अधिक data पर train किया गया।
मानव भाषा अधिग्रहण और AI
- एक मानव शिशु को भाषा सीखने के लिए लगभग 3 करोड़ "token-equivalent" learning data की आवश्यकता होती है।
- इससे संकेत मिलता है कि मनुष्यों की जैविक संरचना भाषा अधिग्रहण के लिए विशेषीकृत है, और इसमें ऐसे शक्तिशाली "guides" या constraints हैं जो संभव मानव भाषाओं के hypothesis space को कम करते हैं।
- यह जानने की जिज्ञासा है कि क्या language models ऐसी ही कोई संरचना खोज सकते हैं जिससे वे कम data में सीख सकें।
Phi-2 के weights की उपलब्धता
- Phi-2 के weights जारी किए गए हैं, लेकिन उन्हें download करने के लिए Azure Studio में login करना पड़ता है।
- Azure AI Studio में Phi-2 पेज ढूंढकर "artifacts" टैब पर क्लिक करने से इसे download किया जा सकता है।
Phi-2 की training cost
- Phi-2 को 96 A100 GPU पर 14 दिनों तक train किया गया।
- इसका मतलब है कि training cost लगभग 30,000 USD रही होगी।
- अगर LLM (Large Language Model) की training cost कार खरीदने की लागत से भी कम हो जाए, तो यह AI के लोकतंत्रीकरण में बड़ा योगदान दे सकती है।
Phi-2 पर research-only सीमा
- "केवल research के लिए उपयोग" जैसी सीमा होने के बावजूद, Phi-2 का performance इसे अलग-अलग devices पर local उपयोग के लिए अधिक संभावनाशील बनाता है।
- कुछ लोगों की राय है कि इसका प्रदर्शन इतना अच्छा है कि भविष्य उज्ज्वल भी लगता है और डरावना भी।
छोटे models की प्रतिस्पर्धा
- हाल के समय में छोटे models के क्षेत्र में गंभीर प्रतिस्पर्धा चल रही है।
- ऐसे छोटे models का मुख्य लक्ष्य phone/laptop आदि पर local deployment होकर नई पीढ़ी के apps/user interfaces को आगे बढ़ाना है।
Phi-2 और Mistral 7B के performance की तुलना
- 2.7 अरब आकार का Phi-2, 7 अरब आकार वाले Mistral 7B से बेहतर performance दिखाता है, यह प्रभावशाली है।
website access समस्या
- website तक पहुंच नहीं हो पा रही, लेकिन cached version के जरिए इसे देखा जा सकता है।
Phi-2 के distribution का तरीका
- Phi-1.5 को huggingface पर जारी किया गया था, लेकिन Phi-2 को केवल Azure AI Studio में जोड़ा गया है, जिससे developers को sign up करने के लिए प्रेरित किया जा रहा है।
- इस बात पर सवाल है कि Microsoft, huggingface जैसे ML के GitHub में भाग क्यों नहीं ले रहा।
Phi-2 model के download की उपलब्धता
- यह सवाल है कि Phi-2 model को local रूप से download किया जा सकता है या यह केवल Azure पर ही उपयोग किया जा सकता है।

Microsoft ने 2.7B का छोटा लेकिन शक्तिशाली Phi-2 language model पेश किया

संबंधित पढ़ाई

2 टिप्पणियां

Hacker News की राय