8 पॉइंट द्वारा GN⁺ 2024-04-24 | 2 टिप्पणियां | WhatsApp पर शेयर करें

phi-3-mini भाषा मॉडल का परिचय

  • phi-3-mini एक 3.8B पैरामीटर वाला भाषा मॉडल है, जिसे 3.3 ट्रिलियन टोकन पर प्रशिक्षित किया गया है
  • शैक्षणिक बेंचमार्क और आंतरिक परीक्षण परिणामों के अनुसार, यह Mixtral 8x7B, GPT-3.5 जैसे मॉडलों के बराबर प्रदर्शन दिखाता है (MMLU 69%, MT-bench 8.38 अंक)
  • मोबाइल फोन पर डिप्लॉय किया जा सकने जितना छोटा होने के बावजूद, यह शानदार प्रदर्शन दिखाता है
  • यह phi-2 में इस्तेमाल किए गए डेटासेट का विस्तारित संस्करण है, जिसमें फ़िल्टर किया गया वेब डेटा और सिंथेटिक डेटा शामिल है
  • मजबूती, सुरक्षा और चैट फ़ॉर्मेट के लिए इसे अतिरिक्त रूप से align किया गया है

phi-3-small, phi-3-medium मॉडल का परिचय

  • 4.8 ट्रिलियन टोकन पर प्रशिक्षित 7B और 14B मॉडल, phi-3-small और phi-3-medium, के शुरुआती parameter scaling परिणाम भी दिए गए हैं
  • ये phi-3-mini की तुलना में कहीं बेहतर प्रदर्शन दिखाते हैं (MMLU 75%, 78%, MT-bench 8.7 अंक, 8.9 अंक)

GN⁺ की राय

  • यह प्रभावशाली है कि मोबाइल फोन पर इस्तेमाल किए जा सकने वाले छोटे भाषा मॉडल भी उच्च प्रदर्शन दिखा रहे हैं। आगे चलकर मोबाइल डिवाइसों पर AI के उपयोग की संभावनाएँ और बढ़ती दिखती हैं
  • हालांकि, व्यक्तिगत जानकारी की सुरक्षा और privacy से जुड़े मुद्दों को लेकर चिंता हो सकती है। लोकल डिवाइस पर प्रोसेस होने पर भी यूज़र डेटा को सुरक्षित रूप से प्रबंधित किया जाना चाहिए
  • वेब डेटा और सिंथेटिक डेटा का उपयोग करने वाली प्रशिक्षण पद्धति दिलचस्प है। डेटा संग्रह और शोधन में काफी मेहनत लगी होगी। यह एक उदाहरण है कि उच्च-गुणवत्ता वाला डेटा अच्छे प्रदर्शन तक ले जाता है
  • मॉडल आकार के अनुसार प्रदर्शन तुलना के परिणाम भी रोचक हैं। दक्षता के लिहाज़ से सही आकार का मॉडल चुनना महत्वपूर्ण लगता है
  • Stability AI का StableLM, Anthropic का Claude जैसे हल्के ओपन सोर्स भाषा मॉडल सामने आ रहे हैं। उम्मीद है कि इनके विविध उपयोग के मामले सामने आएँगे

2 टिप्पणियां

 
GN⁺ 2024-04-24
Hacker News राय
  • Phi-3 मॉडल के benchmark नतीजों की सावधानी से व्याख्या करने की ज़रूरत है। पहले के Phi-2 मॉडल में भी ऐसा उदाहरण रहा है जहाँ वास्तविक प्रदर्शन benchmark आँकड़ों से कम था। यह ज़रूरी नहीं कि यह सीधे वास्तविक उपयोग या LMSYS leaderboard रैंकिंग में बदल जाए।

  • फिर भी, Phi-3 छोटे मॉडल आकार में अच्छा प्रदर्शन दिखाता है। यह संकेत देता है कि GPT-4 के प्रदर्शन को छोटे मॉडल में ट्रांसफर करने के लिए "synthetic data" के ज़रिए distillation प्रभावी हो सकती है। इससे यह संभावना भी दिखती है कि बड़े मॉडल को optimal training देने के बाद उसे छोटे मॉडल में distill करने वाला Chinchilla तरीका कारगर हो सकता है।

  • LMSYS अंग्रेज़ी leaderboard में Phi-3 मॉडल, Llama 3, GPT-3.5 आदि के बराबरी लायक प्रदर्शन दिखाते हैं। खास तौर पर Phi-3-mini 3.8B, 3.8B parameters के साथ Llama 3 8B की टक्कर देता है। यह इस संभावना की ओर इशारा करता है कि फोन पर चलने वाला GPT-4 स्तर का open source LLM सामने आ सकता है।

  • हालांकि, ऐसे benchmark में मॉडल के लिए gaming करना आसान होने की सीमा रहती है। अलग-अलग task की बजाय समग्र प्रदर्शन पर ध्यान देना ज़रूरी है। कई दृष्टिकोणों से बारीकी से समीक्षा की आवश्यकता लगती है।

  • Phi-3 के कुछ मॉडल HuggingFace पर जारी किए गए हैं। इससे मॉडलों का उपयोग पहले से आसान होने की उम्मीद है।

  • 3.3 ट्रिलियन tokens के विशाल synthetic data पर training ने मॉडल को हल्का बनाने में योगदान दिया है। यह copyright समस्याओं को कम करने में भी मददगार हो सकता है।

  • लेकिन वास्तविक उपयोग में training data के बाहर के क्षेत्रों में यह काफी गलत या मनगढ़ंत जवाब देता है। संकीर्ण task finetuning में यह प्रभावी हो सकता है, लेकिन सामान्य बातचीत में GPT-3.5 की जगह लेना मुश्किल लगता है।

  • मॉडल weights, 4k और 128k context versions में HuggingFace पर जारी किए गए हैं। finetuning या RAG(Retrieval-Augmented Generation) उपयोग की संभावनाओं पर रुचि बढ़ रही है.