- CodeLlama-34B और CodeLlama-34B-Python को Phind के आंतरिक डेटासेट पर फाइन-ट्यून किया गया, और इन्होंने HumanEval में क्रमशः 67.6% और 69.5% pass@1 हासिल कर GPT-4 के 67% को पार किया
- हाल ही में जारी किए गए CodeLlama मॉडलों ने HumanEval में प्रभावशाली प्रदर्शन दिखाया था; CodeLlama-34B ने 48.8% pass@1 और CodeLlama-34B-Python ने 53.7% pass@1 हासिल किया
- दोनों मॉडलों को लगभग 80k उच्च-गुणवत्ता वाले प्रोग्रामिंग प्रश्नों और समाधानों वाले स्वामित्वयुक्त डेटासेट पर फाइन-ट्यून किया गया, जो कोड completion उदाहरणों के बजाय निर्देश-उत्तर जोड़ों पर आधारित होने के कारण HumanEval से संरचनात्मक रूप से अलग है
- मॉडलों ने DeepSpeed ZeRO 3 और Flash Attention 2 का उपयोग करते हुए दो Epoch के दौरान कुल 160k उदाहरणों पर प्रशिक्षण लिया; यह 32 A100-80GB GPU, 4096 token sequence length और तीन घंटे के प्रशिक्षण के साथ किया गया
- वैध परिणाम सुनिश्चित करने के लिए OpenAI की contamination removal methodology को डेटासेट पर लागू किया गया, और कोई contaminated उदाहरण नहीं मिला। इस methodology में प्रत्येक evaluation उदाहरण से 50 अक्षरों वाले तीन substring यादृच्छिक रूप से sample किए जाते हैं, या यदि पूरा उदाहरण 50 अक्षरों से कम हो तो पूरे उदाहरण का उपयोग किया जाता है; यदि sampled substring में से कोई एक processed training उदाहरण के substring से मेल खाता है, तो उसे match के रूप में पहचाना जाता है।
- फाइन-ट्यून किए गए मॉडलों ने HumanEval में Phind-CodeLlama-34B-v1 के लिए 67.6% और Phind-CodeLlama-34B-Python-v1 के लिए 69.5% pass@1 स्कोर हासिल किया
- दोनों मॉडल Huggingface पर सार्वजनिक किए गए हैं ताकि verifiability सुनिश्चित हो और open source community को समर्थन मिले; परिणामों के स्वतंत्र सत्यापन को प्रोत्साहित किया गया है
1 टिप्पणियां
यह HN पोस्ट है.
https://news.ycombinator.com/item?id=37267597