1 पॉइंट द्वारा GN⁺ 2024-05-02 | 1 टिप्पणियां | WhatsApp पर शेयर करें

मल्टी-टोकन पूर्वानुमान से बेहतर बड़े भाषा मॉडल प्रशिक्षण

  • GPT और Llama जैसे Large Language Models सामान्यतः अगले टोकन पूर्वानुमान लॉस पर प्रशिक्षित होते हैं
  • इस शोध में प्रस्ताव है कि यदि भाषा मॉडल को एक साथ कई भविष्य के टोकन अनुमानित करने के लिए प्रशिक्षित किया जाए तो सैंपल दक्षता बेहतर हो जाती है
  • खास तौर पर, प्रशिक्षण कॉर्पस के प्रत्येक स्थान पर साझा मॉडल ट्रंक पर चलने वाले n स्वतंत्र आउटपुट हेड्स का उपयोग करके अगले n टोकन अनुमानित करने के लिए मॉडल को प्रोत्साहित किया जाता है
  • मल्टी-टोकन पूर्वानुमान को एक अतिरिक्त प्रशिक्षण टास्क के रूप में लेते हुए, कोड और प्राकृतिक भाषा दोनों मॉडलों के लिए प्रशिक्षण समय में किसी अतिरिक्त ओवरहेड के बिना डाउनस्ट्रीम कार्य-क्षमता में सुधार पाया गया

मॉडल जितना बड़ा हो, उतना प्रभावी; और मल्टी-एपोक प्रशिक्षण में भी आकर्षक

  • यह विधि मॉडल का आकार बढ़ने पर अधिक उपयोगी होती है और कई epochs तक प्रशिक्षण में भी इसका लाभ बना रहता है
  • विशेष रूप से कोडिंग जैसे जेनरेशन बेंचमार्क पर इसका लाभ स्पष्ट है, क्योंकि यह मॉडल मजबूत बेसलाइन से लगातार कुछ प्रतिशत अंकों तक बेहतर प्रदर्शन दिखाता है
  • 13B parameter मॉडल ने HumanEval में 12% और MBPP में 17% अधिक प्रश्न हल किए

इंडक्शन हेड निर्माण और एल्गोरिदमिक रीज़निंग में लाभ

  • छोटे एल्गोरिदमिक कार्यों पर किए गए प्रयोग दिखाते हैं कि मल्टी-टोकन पूर्वानुमान इंडक्शन हेड विकास और एल्गोरिदमिक रीज़निंग क्षमता के लिए लाभदायक है
  • अतिरिक्त लाभ के रूप में, 4-टोकन पूर्वानुमान पर प्रशिक्षित मॉडल बड़े बैच साइज पर भी इन्फरेंस स्पीड में अधिकतम 3x तक तेज़ है

GN⁺ की राय

  • भाषा मॉडल की दक्षता बढ़ाने के लिए एक नया प्रशिक्षण तरीका प्रस्तावित करने वाला यह रोचक शोध है। खासकर बड़े मॉडलों में प्रदर्शन सुधार का स्पष्ट दिखना उल्लेखनीय है

  • यदि मल्टी-टोकन पूर्वानुमान का दीर्घकालिक निर्भरता (long-range dependency) सीखने पर क्या प्रभाव पड़ता है, इसका अतिरिक्त परीक्षण हो तो बेहतर होगा। उदाहरण के लिए, वाक्य-दर-वाक्य संदर्भ-समाधान जैसे लंबी दूरी की dependency वाले टास्क में प्रदर्शन बदलाव देखना भी अर्थपूर्ण होगा

  • कोडिंग या गणितीय समस्या-समाधान जैसे विशिष्ट डोमेन के जेनरेशन टास्क में सुधार स्पष्ट रूप से बड़ा बताया गया है, जबकि सामान्य प्राकृतिक भाषा समझ या QA टास्क में इसका असर क्या होगा यह उत्सुकता का विषय है। यदि विभिन्न बेंचमार्क पर प्रयोगात्मक परिणाम और मिलें तो इसे और बेहतर समझा जा सकेगा

  • इन्फरेंस स्पीड में सुधार व्यावहारिक दृष्टि से बड़ा लाभ दे सकता है। विशेषकर वास्तविक समय की मांग वाले चैटबॉट या प्रश्नोत्तर प्रणालियों में इसका उपयोग करना लाभकारी दिखता है

  • Anthropic की Constitutional AI और OpenAI के InstructGPT जैसे RLHF-बेस्ड मॉडल जब चर्चा में हैं, ऐसे में यह शोध इसलिए महत्वपूर्ण है क्योंकि यह केवल सुपरवाइज़्ड लर्निंग से ही भाषा मॉडल की प्रदर्शन-क्षमता बेहतर करने का तरीका सुझाता है। निश्चय ही नैतिक वैल्यू अलाइनमेंट जैसी चुनौतियां अभी भी बाकी हैं, लेकिन प्रशिक्षण दक्षता के हिसाब से यह प्रतिस्पर्धी दृष्टिकोण प्रतीत होता है

1 टिप्पणियां

 
GN⁺ 2024-05-02
Hacker News टिप्पणी

सार:

  • LLM में अलग-अलग शब्दावलियाँ (डेटा, प्री-ट्रेनिंग, ट्रेनिंग, इनफरेंस, mixture of experts, RAG आदि) किस संदर्भ में उपयोग हो रही हैं, यह समझाने के लिए आसान व्याख्या की जरूरत है।
  • Self-speculative decoding में अनुमानित लेबल सीक्वेंस को फिर से नेटवर्क में फीड करके केवल मिलान वाले बिंदु तक अनुमान को बनाए रखना शामिल है, जिससे परफॉर्मेंस गिराए बिना स्पीड बढ़ाई जा सकती है।
  • LLM वर्तमान में आउटपुट टोकनों के सभी संभावित संयोजन पर probability distribution को पूरी तरह से नहीं देखता; यदि ऐसा हो, तो बेहतर परफॉर्मेंस की उम्मीद की जा सकती है।
  • LLM के cross-entropy loss function को बदलकर ट्रेनिंग डेटा में केवल nवें भविष्य टोकन को ध्यान में रखने और n के अनुसार LLM के परफॉर्मेंस का विश्लेषण करने पर काम करना एक दिलचस्प शोध विषय हो सकता है।
  • क्या कोई तरीका हो सकता है जिससे LLM द्वारा आउटपुट किए गए टोकन की state का उपयोग अगले उत्तर में किया जा सके?
  • क्या LLM को इस तरह train किया जा सकता है कि वह पूरे वाक्य के अर्थ को encode करने वाला vector अनुमानित करे?
  • पेपर की सेक्शन 5.2 की व्याख्या कुछ हद तक अधूरी लगती है; खासकर H(YX) को हटाने पर की गई दलील अस्पष्ट है।
  • LLM को आगे के टोकनों के लिए छोटे PixelCNN-जैसे मॉडल आउटपुट करने देने पर विचार किया जा सकता है, ताकि भविष्य के टोकनों की conditional probability को बेहतर तरीके से explain किया जा सके।
  • सिर्फ अगले n टोकन ही नहीं, बल्कि 128, 512, 2048 जैसे दूर भविष्य के टोकन भी predict करके क्या मॉडल लंबी दूरी वाले discourse structure को बेहतर सीख सकता है, यह देखना रोचक होगा।
  • जब कई टोकन एक साथ predict किए जाते हैं और आपस में interference आता है, तो उसे कैसे सुलझाया जा सकता है—यह अभी खुला सवाल है।