• यह शोधपत्र बड़े भाषा मॉडल (LLM) के लिए मल्टी-टोकन प्रेडिक्शन नाम की एक नई training method प्रस्तावित करता है, जिसमें मॉडल को एक साथ कई future tokens की भविष्यवाणी करने के लिए प्रशिक्षित किया जाता है। लेखक दावा करते हैं कि यह approach अधिक sample efficiency देती है, यानी मॉडल दिए गए training data की समान मात्रा से अधिक प्रभावी ढंग से सीख सकता है.

• वे code generation और natural language processing सहित विभिन्न downstream tasks पर इस method की प्रभावशीलता दिखाते हैं, और बताते हैं कि मल्टी-टोकन प्रेडिक्शन लगातार कई percentage points से मजबूत baselines को पार करता है। विशेष रूप से, उनका 13B parameter model HumanEval और MBPP जैसे चुनौतीपूर्ण coding benchmarks पर उल्लेखनीय सुधार हासिल करता है.

• बेहतर performance के अलावा, मल्टी-टोकन प्रेडिक्शन computational benefits भी देता है। 4-token prediction के साथ प्रशिक्षित मॉडल, batch size बड़ा होने पर भी, inference speed में अधिकतम 3x तक तेजी दिखाता है, जिससे यह वास्तविक अनुप्रयोगों के लिए अधिक efficient बनता है.

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.