- बड़े language models (Large Language Models, LLMs) को डिप्लॉय करने की कठिनाइयों पर एक लेख: इनके आकार और compute आवश्यकताओं के कारण कई research teams के लिए, खासकर low-latency performance की जरूरत वाले applications में, इन तक पहुंचना मुश्किल होता है
- इन चुनौतियों को पार करने के लिए, fine-tuning या distillation का उपयोग करके train किए गए छोटे specialized models अक्सर डिप्लॉय किए जाते हैं। हालांकि, इन तरीकों की अपनी सीमाएँ हैं, जैसे human-generated labels या बड़ी मात्रा में unlabeled data की आवश्यकता
- लेखक "step-by-step distillation" नामक एक नया mechanism पेश करते हैं, जिसके जरिए standard fine-tuning या distillation approaches की तुलना में बहुत कम training data के साथ छोटे task-specific models को train किया जा सकता है
- यह mechanism benchmark datasets के केवल 80% examples का उपयोग करके 770M-parameter T5 model को few-shot prompting किए गए 540B PaLM model से बेहतर प्रदर्शन करने में सक्षम बनाता है, और standard approaches की तुलना में 700 गुना से अधिक model size reduction को दिखाता है, जबकि training data भी बहुत कम चाहिए
- step-by-step distillation का मुख्य विचार LLMs से जानकारी-समृद्ध natural language reasoning निकालना है, और उसका उपयोग छोटे मॉडल को अधिक कुशलता से train करने के लिए करना है
- यह प्रक्रिया दो मुख्य चरणों से बनी है: पहला, few-shot CoT prompts का उपयोग करके LLMs से reasoning निकालना; दूसरा, training process को multi-task problem के रूप में व्यवस्थित करना ताकि reasoning को छोटे मॉडल की training में शामिल किया जा सके
- लेखकों ने तीन अलग-अलग NLP tasks में फैले चार benchmark datasets पर प्रयोग किए, और पाया कि step-by-step distillation method standard fine-tuning की तुलना में कहीं कम training data का उपयोग करते हुए बेहतर performance हासिल करता है
- step-by-step distillation mechanism Google Cloud Platform की Vertex AI में private preview के रूप में उपलब्ध है
- यह शोध Cheng-Yu Hsieh, Chun-Liang Li, Chih-Kuan Yeh, Hootan Nakhost, Yasuhisa Fujii, Alexander Ratner, Ranjay Krishna, Chen-Yu Lee, और Tomas Pfister द्वारा किया गया था।
1 टिप्पणियां
Hacker News राय