3 पॉइंट द्वारा GN⁺ 2023-09-24 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • बड़े language models (Large Language Models, LLMs) को डिप्लॉय करने की कठिनाइयों पर एक लेख: इनके आकार और compute आवश्यकताओं के कारण कई research teams के लिए, खासकर low-latency performance की जरूरत वाले applications में, इन तक पहुंचना मुश्किल होता है
  • इन चुनौतियों को पार करने के लिए, fine-tuning या distillation का उपयोग करके train किए गए छोटे specialized models अक्सर डिप्लॉय किए जाते हैं। हालांकि, इन तरीकों की अपनी सीमाएँ हैं, जैसे human-generated labels या बड़ी मात्रा में unlabeled data की आवश्यकता
  • लेखक "step-by-step distillation" नामक एक नया mechanism पेश करते हैं, जिसके जरिए standard fine-tuning या distillation approaches की तुलना में बहुत कम training data के साथ छोटे task-specific models को train किया जा सकता है
  • यह mechanism benchmark datasets के केवल 80% examples का उपयोग करके 770M-parameter T5 model को few-shot prompting किए गए 540B PaLM model से बेहतर प्रदर्शन करने में सक्षम बनाता है, और standard approaches की तुलना में 700 गुना से अधिक model size reduction को दिखाता है, जबकि training data भी बहुत कम चाहिए
  • step-by-step distillation का मुख्य विचार LLMs से जानकारी-समृद्ध natural language reasoning निकालना है, और उसका उपयोग छोटे मॉडल को अधिक कुशलता से train करने के लिए करना है
  • यह प्रक्रिया दो मुख्य चरणों से बनी है: पहला, few-shot CoT prompts का उपयोग करके LLMs से reasoning निकालना; दूसरा, training process को multi-task problem के रूप में व्यवस्थित करना ताकि reasoning को छोटे मॉडल की training में शामिल किया जा सके
  • लेखकों ने तीन अलग-अलग NLP tasks में फैले चार benchmark datasets पर प्रयोग किए, और पाया कि step-by-step distillation method standard fine-tuning की तुलना में कहीं कम training data का उपयोग करते हुए बेहतर performance हासिल करता है
  • step-by-step distillation mechanism Google Cloud Platform की Vertex AI में private preview के रूप में उपलब्ध है
  • यह शोध Cheng-Yu Hsieh, Chun-Liang Li, Chih-Kuan Yeh, Hootan Nakhost, Yasuhisa Fujii, Alexander Ratner, Ranjay Krishna, Chen-Yu Lee, और Tomas Pfister द्वारा किया गया था।

1 टिप्पणियां

 
GN⁺ 2023-09-24
Hacker News राय
  • आकार और उपयोगिता के बीच सर्वोत्तम संतुलन के कारण, छोटे expert models के अधिकांश applications पर हावी होने की उम्मीद है.
  • T5 का उपयोग करने वाले distilled models यह संकेत देते हैं कि encoder-decoder architecture अभी भी प्रासंगिक हो सकता है.
  • यह approach जरूरत से ज्यादा जटिल नहीं है, जो यह दिखाता है कि Large Language Models (LLMs) के क्षेत्र में अभी भी बहुत कुछ खोजा जाना बाकी है.
  • LLMs के भविष्य में इस शैली में प्रशिक्षित expert models का मिश्रण शामिल हो सकता है.
  • LLM, Machine Learning (ML) और Artificial Intelligence (AI) क्षेत्रों में गतिविधि और प्रगति का स्तर प्रभावशाली है.
  • जब Nvidia जैसे hardware महंगे हों, तो इस तरह के optimization मूल्यवान होते हैं.
  • सबसे प्रभावी models multimodal होंगे, और संभवतः सावधानी से अनुकूलित core curriculum के साथ प्रशिक्षित किए जाएंगे.
  • इस बात पर सवाल है कि LLM का training data distilled और task-specific models की तुलना में कम क्यों है.
  • इस पर अटकलें हैं कि क्या Reinforcement Learning from Human Feedback (RLHF) छोटे models के लिए भी जरूरी होगा ताकि वे अत्याधुनिक LLMs जितना अच्छा प्रदर्शन कर सकें.
  • यह स्पष्ट नहीं है कि बड़े LLMs में बहुत-सी capacity उपयोग नहीं होती, या छोटे language models सिर्फ reasoning tasks की नकल कर रहे हैं.
  • 144GB तक उपलब्ध GPU memory को support करने वाला Mac Studio, LLM service space में उपयोग किया जा सकता है.
  • यह सुझाव दिया गया है कि Facebook उपयोगकर्ताओं की पूरी chat history पर LLM को train कर सकता है.