- 20 सवालों के एक सेट का उपयोग करके 60 से अधिक Language Learning Models (LLMs) के प्रदर्शन का परीक्षण किया गया, और प्रत्येक LLM के जवाबों को संकलित किया गया
- ये सवाल LLM की बुनियादी reasoning, निर्देशों का पालन करने की क्षमता, और creativity को परखने के लिए डिज़ाइन किए गए हैं
- LLM से मिले जवाब SQLite database में संग्रहीत किए जाते हैं
- सवाल सरल arithmetic problems से लेकर हाई स्कूल के छात्र को quantum field theory समझाने जैसे अधिक जटिल कार्यों तक फैले हुए हैं
- इस स्क्रिप्ट में sentence translation, code में bug पहचानना, और Python functions बनाना जैसे कार्य भी शामिल हैं, जिन्हें LLMs को करना होता है
- लेखक ने स्क्रिप्ट चलाने के लिए OpenRouter, TogetherAI, OpenAI, Cohere, Aleph Alpha & AI21 के API का उपयोग किया
- लेखक की योजना है कि प्रत्येक model के लिए अनुकूलित stop sequences और prompt format का उपयोग करके स्क्रिप्ट को बेहतर बनाया जाए
- भविष्य के विचारों में public voting के ज़रिए ELO rating की गणना, दो models की side-by-side तुलना, और community द्वारा भेजे गए prompts शामिल हैं
1 टिप्पणियां
Hacker News टिप्पणियाँ