• Instruction-Following भाषा मॉडलों का स्वचालित मूल्यांकन करने वाले AlpacaEval Leaderboard के अनुसार
  • GPT-4 95.28% > Llama Chat 70B 92.66% > Claude 2 91.36% > ChatGPT 89.37%
  • AlpacaEval, AlpacaFarm evaluation set का उपयोग करके GPT-4 के उत्तरों से तुलना कर स्वचालित मूल्यांकन करता है

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.