Llama 2 Chat 70B ने मॉडल मूल्यांकन में ChatGPT(3.5) को पीछे छोड़ा
(tatsu-lab.github.io)- Instruction-Following भाषा मॉडलों का स्वचालित मूल्यांकन करने वाले AlpacaEval Leaderboard के अनुसार
- GPT-4 95.28% > Llama Chat 70B 92.66% > Claude 2 91.36% > ChatGPT 89.37%
- AlpacaEval, AlpacaFarm evaluation set का उपयोग करके GPT-4 के उत्तरों से तुलना कर स्वचालित मूल्यांकन करता है
अभी कोई टिप्पणी नहीं है.