Vibechart

(vibechart.net)

1 पॉइंट द्वारा GN⁺ 2025-08-08 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Vibechart एक visualization tool है जो उपयोगकर्ता को यह विकल्प देता है कि वह तथ्य, सौंदर्यात्मक मूल्य या उपयोगिता जैसे पारंपरिक मानकों के आधार पर नहीं, बल्कि अपने मनचाहे तरीके से चार्ट बना सके।
GPT-5 की घोषणा के दौरान इस्तेमाल किए गए चार्ट की व्याख्या

GPT-5 प्रदर्शन तुलना (Academic / SWE-bench) चार्ट

टेस्ट केस: SWE-bench Verified (सॉफ़्टवेयर इंजीनियरिंग समस्या समाधान की शुद्धता)
Without thinking / With thinking: क्या ‘thinking mode’ (लंबा reasoning time इस्तेमाल करने वाला मोड) प्रयोग किया गया है, इस आधार पर performance का अंतर
- GPT-5: बिना thinking के 52.8%, thinking mode में 74.9%
- OpenAI o3: 69.1%
- GPT-4o: 30.8%
यहाँ पर GPT-5, thinking mode में o3 से बेहतर performance दिखाता है।

Deception evals across models (छल मूल्यांकन)

यह टेस्ट मॉडल के ‘छल करने जैसी प्रवृत्ति’ को कितनी बार दिखाने की प्रवृत्ति को मापता है।
Coding deception: GPT-5 (thinking mode) 50.0%, o3 47.4%
CharXiv missing image: GPT-5 9.0%, o3 86.7%
Production traffic: GPT-5 2.1%, o3 4.8%
आइटम के हिसाब से देखें तो कुछ क्षेत्रों में GPT-5 का छल दर ज्यादा है, जबकि कुछ में काफी कम है

यानी GPT-5 ‘thinking mode’ में o3 से बेहतर है, लेकिन दूसरे पहलुओं में (जैसे deception संभावना) यह या तो बदतर है या लगभग समान।

1 टिप्पणियां

GN⁺ 2025-08-08

Hacker News टिप्पणी

OpenAI के GPT-5 लॉन्च पोस्ट के "evaluation" सेक्शन में भी ऐसा संस्करण है जिसमें नंबर और बार का size पहले दोनों से अधिक believable बनाकर दिखाया गया है (लिंक); इसलिए यह शायद सिर्फ़ एक सामान्य गलती भी हो सकती है, लेकिन यह देखकर लगता है कि अरबों डॉलर खर्च करने वाली और सभी मानव गतिविधियों को बदलने का दावा करने वाली कंपनी एक सही PowerPoint भी नहीं बना पाई, जो अच्छा नहीं लगता।
- यह वैसे लगता है जैसे कोई अपनी ही खुराक/फ़ीड खुद चख रहा हो—अगर वही चीज़ वे हमें बेचते, तो यही परिणाम होता।
- शायद इस बार नया AI ही graphics बना गया हो।
- OpenAI के लोग अपने क्षेत्र के सबसे अच्छे लोगों में हैं; ऐसा लगता नहीं कि उन्होंने इतनी बड़ी गलती की हो।
शुरुआत में मुझे लगा था यह vibe coding का metric होगा, लेकिन नहीं था—वो WakaTime है।
मुझे लगता है कि "Coding deception" chart इसमें होना चाहिए था, क्योंकि यह बहुत confusing है (50.0 वास्तव में 47.4 से छोटा नहीं है) (लिंक)
- मैंने उस chart की image ChatGPT-5 में डालकर पूछा, "इस chart में कोई गलती दिख रही है क्या? बता सकते हो क्या गलती है?" ChatGPT ने जवाब दिया: "पहले 'Coding deception' में GPT-5 (thinking version) की pink bar 50.0% दिख रही है और OpenAI o3 की white bar 47.4% दिख रही है, लेकिन visually white bar pink bar से छोटी है। प्रतिशत में थोड़ा कम सही, पर दृश्य रूप से match नहीं करता।" यानी लग रहा था कि स्लाइड review में ChatGPT को use करना चाहिए था।
- पोस्ट और ऊपर के लिंक में समस्या खोजने में काफी समय लगा। ये क्यों बनाया गया, समझ नहीं आया। अब सोचता हूँ शायद AI ने चार्ट बनाया और किसी ने review ही नहीं किया।
- यह गलती इतनी साफ़ है कि लगता है किसी ने chart labeling ग़लत कर दी। शायद मैं ही थोड़ा ज्यादा optimistic हूँ।
- मैंने इसे chart में जोड़कर रखा।
- इसका लगभग आधा हिस्सा समझ आता है। 'deception' LLM में एक undesired गुण है, इसलिए कम होना audience के हिसाब से 'better' लगता है। लेकिन जब ऐसे चीज़ों की तुलना उन चीज़ों से करें जिनमें 'less is more' property नहीं है, तो graph में इसे सही तरीके से दिखाने का तरीका नहीं मिलता (ऊपर से graph का 0 से शुरू न होना अलग समस्या है), इसलिए ये बिल्कुल nonsensical लगता है।
यह कैसे हुआ, समझ नहीं आता। शायद अंतिम समय में किसी senior executive ने feedback दिया हो: "अगर नया मॉडल पुराने की तुलना में थोड़ा ही बेहतर दिखता है, तो y-axis बदलकर अधिक improvement दिखाओ।"
- यह देखकर डर लगता है कि इतने अयोग्य लोग इतने पैसे और power के साथ बैठे हैं।
- शायद उन्होंने GPT-5 से ही slides edit करने को कहा हो।
- OpenAI के आस-पास एक तात्कालिक दबाव महसूस होता है, इसलिए यदि यह over-hype ऊपर से आया हो तो भी अचंभित होने वाली बात नहीं।
- यह industry standard है। उदाहरण के लिए, Nvidia जब भी नया GPU रिलीज़ करती है, अक्सर इसी तरह के charts दिखाती है। Apple भी M-series CPU के साथ यही करती है, और कई बार तो कई generation पुराने मॉडल से तुलना करके और बढ़ा-चढ़ा कर दिखाती है।
मैं हमेशा ऐसी chart में निवेश करना पसंद करूँगा जिसमें gray से pink हिस्सा ज्यादा हो।
OpenAI शुरुआत से जानती थी कि data भी marketing का हिस्सा है, और वही तरीका अपनाती रही है। शायद यह intentional न हो, लेकिन Dota 2 के समय से ही यह टीम परिणामों को बढ़ा-चढ़ाकर और failures छुपाकर डेटा present करना अच्छी तरह जानती है।
यह Cybertruck के glass demo जैसा ही तरीका है।
69.1 column की height 30.8 column जैसी ही है। शायद 30.8 को copy करके सिर्फ़ नंबर बदल दिए और height adjust करना भूल गए; शायद केवल यह देखकर आगे बढ़ गए कि यह नए मॉडल से नीचे है। लेकिन 50.0 column की height उस तरीके से भी explain नहीं होती।
- पहली नज़र में वह bar करीब 15% जैसी लगती है। शायद 50 की जगह 15 लिखना था। लेकिन ऐसी गलती मुझे इतिहास की सबसे चर्चा में रहने वाली startup की keynote में नहीं, किसी स्कूली प्रस्तुति में देखने को मिलती। वैसे, इस प्रस्तुति से जुड़े सभी लोगों को निश्चित रूप से 1.5 मिलियन डॉलर बोनस मिलेगा। सोचकर उदासी होती है।
- एक pro presentation में bars और labels अलग से manually क्यों बनाए गए, समझ में नहीं आता। कोई खास style प्रयोग नहीं था, और यह कि एक बेसिक bar chart में भी ऐसी गलती हो जाए—अगर यह intentional नहीं था तो समझाना कठिन है।
सबको उनका खुद का self-deception बेचने की कोशिश करते देखना बस हँसी की बात लगती है