7 पॉइंट द्वारा xguru 2025-01-08 | 3 टिप्पणियां | WhatsApp पर शेयर करें
  • AI की तेज़ी से बढ़ती क्षमताओं के कारण अप्रासंगिक हो चुके बेंचमार्क (अब इन्हें नवीनतम मॉडल का सटीक आकलन करने में इस्तेमाल नहीं किया जा सकता)
    • ये अभी भी बेंचमार्क के रूप में कुछ हद तक उपयोगी हैं, लेकिन "AI क्या X कर सकता है?" जैसे प्रश्न का कोई अर्थपूर्ण उत्तर देने में ये सक्षम नहीं
  • 2024: ARC-AGI, MATH, BIG-Bench-Hard, HumanEval, IFEval
  • 2023: GSM8K, Turing Test, ARC(AI2), HellaSwag, MMLU, WinoGrande
  • 2022: BIG-Bench
  • 2019: SuperGLUE, WSC, GLUE, TriviaQA, SQaAD v2.0, SQuAD
  • 2018: SWAG

3 टिप्पणियां

 
kandk 2025-01-08

लगता है SQuAD भी गायब हो रहा है?

 
nutella 2025-01-08

‘Killed by Google’ याद आ गया।

 
xguru 2025-01-08

कुछ specific benchmarks को लेकर अभी भी समर्थन और विरोध दोनों हैं, लेकिन यह काफी रोचक है।
https://news.ycombinator.com/item?id=42606231