GPT-5.2 जारी
(openai.com)[GPT-5.1 thinking → GPT-5.2 thinking]
-
इन्वेस्टमेंट बैंकिंग स्प्रेडशीट टास्क (आंतरिक): 59.1% → 68.4%
- 3 वित्तीय स्टेटमेंट/LBO स्प्रेडशीट मॉडलिंग टास्क
-
SWE-Bench Pro (सार्वजनिक): 50.8% → 55.6%
- 4 भाषाओं में वास्तविक रिपॉज़िटरी (repo) पर पैच लागू करना
-
OpenAI MRCRv2 (8 needles, 128k–256k): 29.6% → 77.0%
- बहुत लंबे दस्तावेज़ों से जानकारी खोजकर पुनर्निर्माण करना
-
ScreenSpot Pro (Python सहित): 64.2% → 86.3%
- UI स्क्रीनशॉट को समझना और सवालों के जवाब देना
-
ARC-AGI-2 (सत्यापित): 17.6% → 52.9%
- कठिन अमूर्त तर्क पहेलियाँ (सत्यापित)
अभी कोई टिप्पणी नहीं है.