[GPT-5.1 thinking → GPT-5.2 thinking]

  • इन्वेस्टमेंट बैंकिंग स्प्रेडशीट टास्क (आंतरिक): 59.1% → 68.4%

    • 3 वित्तीय स्टेटमेंट/LBO स्प्रेडशीट मॉडलिंग टास्क
  • SWE-Bench Pro (सार्वजनिक): 50.8% → 55.6%

    • 4 भाषाओं में वास्तविक रिपॉज़िटरी (repo) पर पैच लागू करना
  • OpenAI MRCRv2 (8 needles, 128k–256k): 29.6% → 77.0%

    • बहुत लंबे दस्तावेज़ों से जानकारी खोजकर पुनर्निर्माण करना
  • ScreenSpot Pro (Python सहित): 64.2% → 86.3%

    • UI स्क्रीनशॉट को समझना और सवालों के जवाब देना
  • ARC-AGI-2 (सत्यापित): 17.6% → 52.9%

    • कठिन अमूर्त तर्क पहेलियाँ (सत्यापित)

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.