20 सवालों के ज़रिए 60 LLMs से पूछताछ

(benchmarks.llmonitor.com)

8 पॉइंट द्वारा GN⁺ 2023-09-10 | 1 टिप्पणियां | WhatsApp पर शेयर करें

20 सवालों के एक सेट का उपयोग करके 60 से अधिक Language Learning Models (LLMs) के प्रदर्शन का परीक्षण किया गया, और प्रत्येक LLM के जवाबों को संकलित किया गया
ये सवाल LLM की बुनियादी reasoning, निर्देशों का पालन करने की क्षमता, और creativity को परखने के लिए डिज़ाइन किए गए हैं
LLM से मिले जवाब SQLite database में संग्रहीत किए जाते हैं
सवाल सरल arithmetic problems से लेकर हाई स्कूल के छात्र को quantum field theory समझाने जैसे अधिक जटिल कार्यों तक फैले हुए हैं
इस स्क्रिप्ट में sentence translation, code में bug पहचानना, और Python functions बनाना जैसे कार्य भी शामिल हैं, जिन्हें LLMs को करना होता है
लेखक ने स्क्रिप्ट चलाने के लिए OpenRouter, TogetherAI, OpenAI, Cohere, Aleph Alpha & AI21 के API का उपयोग किया
- लेखक की योजना है कि प्रत्येक model के लिए अनुकूलित stop sequences और prompt format का उपयोग करके स्क्रिप्ट को बेहतर बनाया जाए
- भविष्य के विचारों में public voting के ज़रिए ELO rating की गणना, दो models की side-by-side तुलना, और community द्वारा भेजे गए prompts शामिल हैं

1 टिप्पणियां

GN⁺ 2023-09-10

Hacker News टिप्पणियाँ

उपयोगकर्ता ने एक सामान्य harness बनाया है जो विभिन्न Large Language Models (LLMs) पर benchmark चलाता है, और दूसरों को अपने डेटा से models को test करने के लिए प्रोत्साहित करता है। यह library OpenAI, Anthropic, Google, Llama, Codellama, Replicate और Ollama के models को support करती है.
Vercel का AI Playground एक उपयोगी tool के रूप में उभरा है, जहाँ कई LLMs से एक साथ सवाल पूछे जा सकते हैं, लेकिन अभी यह 24 को ही support करता है, 60 को नहीं.
लेख में LLMs को benchmark करने के तरीके की सराहना हुई, क्योंकि यह परीक्षा पास करने जैसे पारंपरिक तरीकों की तुलना में अधिक वास्तविक लगता है। हालांकि, इस बात पर चिंता जताई गई कि सवाल training set का हिस्सा बन सकते हैं और परिणामों को विकृत कर सकते हैं.
पारिवारिक संबंधों पर आधारित सवालों के जवाब में LLMs के बीच अंतर देखा गया, और एक उपयोगकर्ता ने बताया कि जिस सवाल पर लेख ने कहा था कि सभी LLMs गलत थे, उसका GPT4 ने सही जवाब दिया.
Falcon Instruct (40B) को छुट्टी पर मजाक के कारण मज़ेदार ढंग से "सबसे मजेदार model" कहा गया.
LLMs के लिए अतिरिक्त benchmarks सुझाए गए, जिनमें "TheoremQA: theorem-based [STEM] question answering dataset" और "Awesome-legal-nlp" शामिल हैं.
ChatGPT 3.5 की लंबी-चौड़ी प्रतिक्रियाओं के लिए आलोचना हुई, और एक उपयोगकर्ता ने कहा कि यह अक्सर अनावश्यक रूप से बहुत लंबे स्पष्टीकरण देता है.
AI की प्रगति पर आश्चर्य जताते हुए, एक उपयोगकर्ता ने कहा कि LLMs "Kubernetes के पक्ष और विपक्ष में नैतिक और गैर-यौन haiku" बना सकते हैं.
CodeLlama model के प्रदर्शन पर सवाल उठे, और एक उपयोगकर्ता ने बताया कि उसे लेख में दिए गए नतीजों से कहीं बेहतर परिणाम मिले.
LLMs में रुचि के बावजूद, कुछ उपयोगकर्ताओं ने models की response quality पर निराशा जताई, खासकर music theory से जुड़े सवालों में, और यह भी पूछा कि क्या ये models समय के साथ वास्तव में बहुत बेहतर होंगे.

20 सवालों के ज़रिए 60 LLMs से पूछताछ

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News टिप्पणियाँ