2023 ओपन LLM का साल था

xguru · 2023-12-21T10:33:04+09:00

बड़े भाषा मॉडल (LLM) के प्रति जनता की रुचि बढ़ी, और open source तथा closed source को लेकर चर्चा व्यापक हुई Pretrained LLM के लिए रेसिपी मॉडल आर्किटेक्चर: विशिष्ट implementation और गणितीय संरचना का वर्णन ट्रेनिंग डेटासेट: वे उदाहरण और दस्तावेज़ शामिल करता है जिनसे मॉडल सीखता है टोकनाइज़र: टेक्स्ट को संख्याओं में बदलने का तरीका परिभाषित करता है ट्रेनिंग hyperparameters: मॉडल को कैसे train किया जाए, यह परिभाषित करते हैं computing power और विशेषज्ञों की निगरानी की आवश्यकता pre-trained मॉडल के weights inference में उपयोग किए जाते हैं 2022: size competition से data competition तक 2022 की शुरुआत तक मॉडल का आकार performance का एक महत्वपूर्ण कारक था BLOOM, OPT, GLM-130B जैसे मॉडल जारी किए गए DeepMind के नए शोध ने data size के महत्व पर ज़ोर दिया और paradigm shift लाया 2023: open release का साल छोटे LLM का उदय: फ़रवरी में LLaMA(Meta), अप्रैल में Pythia(Eleuther AI), मई में MPT(MosaicML), जून में X-GEN(Salesforce), Falcon(TIIUAE), जुलाई में Llama 2(Meta) जारी हुए। सितंबर में Qwen(Alibaba) और Mistral(Mistral.AI), नवंबर में Yi(01-ai), और दिसंबर में DeciLM(Deci), Phi-2(Microsoft) तथा SOLAR(Upstage) जारी हुए मॉडल weights शामिल थे, और छोटे मॉडल्स में अच्छा performance दिखने के कारण समुदाय ने इन्हें तेज़ी से अपनाया मुख्य अंतर ट्रेनिंग डेटा और मॉडल लाइसेंस थे संवादात्मक मॉडल्स का उदय 2023 में अधिकांश pre-trained मॉडल conversational versions के साथ जारी किए गए chat-based fine-tuning, instruction fine-tuning, reinforcement learning from human feedback (RLHF), DPO(Direct Preference Optimzation) जैसी विधियों का उपयोग हुआ MPT, Falcon, XGen, Llama-2, Qwen, Yi, DeciLM मॉडल्स के conversational versions जारी हुए समुदाय की भूमिका समुदाय और शोधकर्ताओं ने उपलब्ध base models का उपयोग कर नए datasets और fine-tuned models विकसित किए विभिन्न datasets और fine-tuning strategies जारी की गईं Human Preference: OpenAI का WebGPT dataset, HH-RLHF dataset(Anthropic) और Summarize(OpenAI) Instruction : BigScience द्वारा Public Pool of Prompts, Google द्वारा FLAN 1 and 2, AllenAI द्वारा Natural Instructions, Self Instruct, SuperNatural instructions, Unnatural instructions Human ChatGPT Instruction corpus (HC3), Alpaca, Vicuna, ShareGPT, Koala, Dolly, UltraChat, UltraLM, Zephyr, OpenHermes2,.. पहुंच का लोकतंत्रीकरण मॉडल/डेटा merging: मॉडल के weights को जोड़कर उनकी खूबियों को एकीकृत करना PEFT: पूरे मॉडल का उपयोग किए बिना भी fine-tuning संभव quantization: मॉडल आकार घटाने की तकनीक, जिससे अधिक लोग LLM का उपयोग कर सकें आगे क्या है? Transformer से आगे निकलने वाली नई आर्किटेक्चर का उदय और performance में सुधार Mixtral, Mamba, Striped Hyena जैसे नए मॉडल जारी

(huggingface.co)

19 पॉइंट द्वारा xguru 2023-12-21 | 1 टिप्पणियां | WhatsApp पर शेयर करें

बड़े भाषा मॉडल (LLM) के प्रति जनता की रुचि बढ़ी, और open source तथा closed source को लेकर चर्चा व्यापक हुई

Pretrained LLM के लिए रेसिपी

मॉडल आर्किटेक्चर: विशिष्ट implementation और गणितीय संरचना का वर्णन
ट्रेनिंग डेटासेट: वे उदाहरण और दस्तावेज़ शामिल करता है जिनसे मॉडल सीखता है
टोकनाइज़र: टेक्स्ट को संख्याओं में बदलने का तरीका परिभाषित करता है
ट्रेनिंग hyperparameters: मॉडल को कैसे train किया जाए, यह परिभाषित करते हैं
computing power और विशेषज्ञों की निगरानी की आवश्यकता
pre-trained मॉडल के weights inference में उपयोग किए जाते हैं

2022: size competition से data competition तक

2022 की शुरुआत तक मॉडल का आकार performance का एक महत्वपूर्ण कारक था
BLOOM, OPT, GLM-130B जैसे मॉडल जारी किए गए
DeepMind के नए शोध ने data size के महत्व पर ज़ोर दिया और paradigm shift लाया

2023: open release का साल

छोटे LLM का उदय: फ़रवरी में LLaMA(Meta), अप्रैल में Pythia(Eleuther AI), मई में MPT(MosaicML), जून में X-GEN(Salesforce), Falcon(TIIUAE), जुलाई में Llama 2(Meta) जारी हुए। सितंबर में Qwen(Alibaba) और Mistral(Mistral.AI), नवंबर में Yi(01-ai), और दिसंबर में DeciLM(Deci), Phi-2(Microsoft) तथा SOLAR(Upstage) जारी हुए
मॉडल weights शामिल थे, और छोटे मॉडल्स में अच्छा performance दिखने के कारण समुदाय ने इन्हें तेज़ी से अपनाया
मुख्य अंतर ट्रेनिंग डेटा और मॉडल लाइसेंस थे

संवादात्मक मॉडल्स का उदय

2023 में अधिकांश pre-trained मॉडल conversational versions के साथ जारी किए गए
chat-based fine-tuning, instruction fine-tuning, reinforcement learning from human feedback (RLHF), DPO(Direct Preference Optimzation) जैसी विधियों का उपयोग हुआ
MPT, Falcon, XGen, Llama-2, Qwen, Yi, DeciLM मॉडल्स के conversational versions जारी हुए

समुदाय की भूमिका

समुदाय और शोधकर्ताओं ने उपलब्ध base models का उपयोग कर नए datasets और fine-tuned models विकसित किए
विभिन्न datasets और fine-tuning strategies जारी की गईं
- Human Preference: OpenAI का WebGPT dataset, HH-RLHF dataset(Anthropic) और Summarize(OpenAI)
- Instruction : BigScience द्वारा Public Pool of Prompts, Google द्वारा FLAN 1 and 2, AllenAI द्वारा Natural Instructions, Self Instruct, SuperNatural instructions, Unnatural instructions
- Human ChatGPT Instruction corpus (HC3), Alpaca, Vicuna, ShareGPT, Koala, Dolly, UltraChat, UltraLM, Zephyr, OpenHermes2,..

पहुंच का लोकतंत्रीकरण

मॉडल/डेटा merging: मॉडल के weights को जोड़कर उनकी खूबियों को एकीकृत करना
PEFT: पूरे मॉडल का उपयोग किए बिना भी fine-tuning संभव
quantization: मॉडल आकार घटाने की तकनीक, जिससे अधिक लोग LLM का उपयोग कर सकें

आगे क्या है?

Transformer से आगे निकलने वाली नई आर्किटेक्चर का उदय और performance में सुधार
Mixtral, Mamba, Striped Hyena जैसे नए मॉडल जारी

1 टिप्पणियां

laeyoung 2023-12-22

कई अच्छे open source मॉडल आए, यह अच्छा लगा। LLaMA भी, और वे open source मॉडल भी जो Web पर चलने लायक उपलब्ध कराए गए थे—मैंने तरह-तरह के मॉडल डाउनलोड करके काफी कुछ आज़माया भी। लेकिन असल में जिन चीज़ों का लोग काम में और रोज़मर्रा में इस्तेमाल कर रहे हैं, वे आखिरकार ChatGPT या GPT-4 को लेकर SaaS के रूप में देने वाले ही हैं, तो यह थोड़ा विडंबनापूर्ण भी लगता है। open source मॉडल भी महत्वपूर्ण हैं, लेकिन आखिर में अगर उन्हें स्थिर रूप से चलाने वाली infrastructure और उसे लगातार स्थिर समर्थन देने वाले आर्थिक प्रायोजक(?) न हों, तो मुश्किल हो जाती है—ऐसा सोचने लगा हूँ।