मल्टी-टोकन प्रेडिक्शन बड़े भाषा मॉडल्स की sample efficiency और performance को बेहतर बनाता है

(arxiv.org)

2 पॉइंट द्वारा brainer 2024-05-01 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

• यह शोधपत्र बड़े भाषा मॉडल (LLM) के लिए मल्टी-टोकन प्रेडिक्शन नाम की एक नई training method प्रस्तावित करता है, जिसमें मॉडल को एक साथ कई future tokens की भविष्यवाणी करने के लिए प्रशिक्षित किया जाता है। लेखक दावा करते हैं कि यह approach अधिक sample efficiency देती है, यानी मॉडल दिए गए training data की समान मात्रा से अधिक प्रभावी ढंग से सीख सकता है.

• वे code generation और natural language processing सहित विभिन्न downstream tasks पर इस method की प्रभावशीलता दिखाते हैं, और बताते हैं कि मल्टी-टोकन प्रेडिक्शन लगातार कई percentage points से मजबूत baselines को पार करता है। विशेष रूप से, उनका 13B parameter model HumanEval और MBPP जैसे चुनौतीपूर्ण coding benchmarks पर उल्लेखनीय सुधार हासिल करता है.

• बेहतर performance के अलावा, मल्टी-टोकन प्रेडिक्शन computational benefits भी देता है। 4-token prediction के साथ प्रशिक्षित मॉडल, batch size बड़ा होने पर भी, inference speed में अधिकतम 3x तक तेजी दिखाता है, जिससे यह वास्तविक अनुप्रयोगों के लिए अधिक efficient बनता है.

मल्टी-टोकन प्रेडिक्शन बड़े भाषा मॉडल्स की sample efficiency और performance को बेहतर बनाता है

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.