LLM द्वारा हटाए गए

xguru · 2025-01-08T09:33:01+09:00

AI की तेज़ी से बढ़ती क्षमताओं के कारण अप्रासंगिक हो चुके बेंचमार्क (अब इन्हें नवीनतम मॉडल का सटीक आकलन करने में इस्तेमाल नहीं किया जा सकता) ये अभी भी बेंचमार्क के रूप में कुछ हद तक उपयोगी हैं, लेकिन "AI क्या X कर सकता है?" जैसे प्रश्न का कोई अर्थपूर्ण उत्तर देने में ये सक्षम नहीं 2024: ARC-AGI, MATH, BIG-Bench-Hard, HumanEval, IFEval 2023: GSM8K, Turing Test, ARC(AI2), HellaSwag, MMLU, WinoGrande 2022: BIG-Bench 2019: SuperGLUE, WSC, GLUE, TriviaQA, SQaAD v2.0, SQuAD 2018: SWAG

(r0bk.github.io)

7 पॉइंट द्वारा xguru 2025-01-08 | 3 टिप्पणियां | WhatsApp पर शेयर करें

AI की तेज़ी से बढ़ती क्षमताओं के कारण अप्रासंगिक हो चुके बेंचमार्क (अब इन्हें नवीनतम मॉडल का सटीक आकलन करने में इस्तेमाल नहीं किया जा सकता)
- ये अभी भी बेंचमार्क के रूप में कुछ हद तक उपयोगी हैं, लेकिन "AI क्या X कर सकता है?" जैसे प्रश्न का कोई अर्थपूर्ण उत्तर देने में ये सक्षम नहीं
2024: ARC-AGI, MATH, BIG-Bench-Hard, HumanEval, IFEval
2023: GSM8K, Turing Test, ARC(AI2), HellaSwag, MMLU, WinoGrande
2022: BIG-Bench
2019: SuperGLUE, WSC, GLUE, TriviaQA, SQaAD v2.0, SQuAD
2018: SWAG

3 टिप्पणियां

kandk 2025-01-08

लगता है SQuAD भी गायब हो रहा है?

nutella 2025-01-08

‘Killed by Google’ याद आ गया।

xguru 2025-01-08

कुछ specific benchmarks को लेकर अभी भी समर्थन और विरोध दोनों हैं, लेकिन यह काफी रोचक है।
https://news.ycombinator.com/item?id=42606231

LLM द्वारा हटाए गए

संबंधित पढ़ाई

3 टिप्पणियां