Vibechart
(vibechart.net)- Vibechart एक visualization tool है जो उपयोगकर्ता को यह विकल्प देता है कि वह तथ्य, सौंदर्यात्मक मूल्य या उपयोगिता जैसे पारंपरिक मानकों के आधार पर नहीं, बल्कि अपने मनचाहे तरीके से चार्ट बना सके।
- GPT-5 की घोषणा के दौरान इस्तेमाल किए गए चार्ट की व्याख्या
GPT-5 प्रदर्शन तुलना (Academic / SWE-bench) चार्ट
- टेस्ट केस: SWE-bench Verified (सॉफ़्टवेयर इंजीनियरिंग समस्या समाधान की शुद्धता)
- Without thinking / With thinking: क्या ‘thinking mode’ (लंबा reasoning time इस्तेमाल करने वाला मोड) प्रयोग किया गया है, इस आधार पर performance का अंतर
- GPT-5: बिना thinking के 52.8%, thinking mode में 74.9%
- OpenAI o3: 69.1%
- GPT-4o: 30.8%
- यहाँ पर GPT-5, thinking mode में o3 से बेहतर performance दिखाता है।
Deception evals across models (छल मूल्यांकन)
- यह टेस्ट मॉडल के ‘छल करने जैसी प्रवृत्ति’ को कितनी बार दिखाने की प्रवृत्ति को मापता है।
- Coding deception: GPT-5 (thinking mode) 50.0%, o3 47.4%
- CharXiv missing image: GPT-5 9.0%, o3 86.7%
- Production traffic: GPT-5 2.1%, o3 4.8%
- आइटम के हिसाब से देखें तो कुछ क्षेत्रों में GPT-5 का छल दर ज्यादा है, जबकि कुछ में काफी कम है
यानी GPT-5 ‘thinking mode’ में o3 से बेहतर है, लेकिन दूसरे पहलुओं में (जैसे deception संभावना) यह या तो बदतर है या लगभग समान।
अभी कोई टिप्पणी नहीं है.