- बहुत से लोग इस बारे में बात कर चुके हैं, लेकिन अब तक यह केवल बिखरी हुई टिप्पणियों तक सीमित था
- हाल ही में प्रकाशित एक पेपर में GPT-4 के जून वर्ज़न और मार्च वर्ज़न की 500 समस्याओं के साथ वस्तुनिष्ठ तुलना की गई
- मार्च में इसने 488 के सही जवाब दिए, लेकिन जून में सही जवाब केवल 12 रहे
- यानी सिर्फ 3 महीनों में सटीकता 97.6% से 2.4% हो गई
- लेकिन बात यहीं खत्म नहीं होती, स्थिति और भी खराब है
- Chain-of-Thought तकनीक का इस्तेमाल करके इसे reasoning करने के लिए कहा गया
- "17077 एक prime number है? Think step by step." ऐसा निर्देश देने पर GPT-4 ने बीच के चरण बनाए बिना ही "नहीं" जवाब दिया
- कोड जनरेशन भी और खराब हो गई
- LeetCode के 50 आसान प्रश्नों से एक डेटा सेट बनाकर चलाया गया
- मार्च वर्ज़न 52% सफल रहा, लेकिन जून वर्ज़न केवल 10% सफल हुआ
- ऐसा क्यों हो रहा है?
- माना जा रहा है कि OpenAI लगातार बदलाव कर रहा है, लेकिन यह कैसे काम करता है, वे इसका मूल्यांकन कैसे करते हैं, आदि के बारे में हमें जानकारी नहीं है
- अफवाहों के मुताबिक वे कई छोटे specialized GPT-4 मॉडल को जोड़कर इस्तेमाल कर रहे हैं, ताकि वह बड़े मॉडल की तरह काम करे लेकिन कम लागत में चल सके
- क्या सस्ता और तेज़ बनाने की कोशिश इस गुणवत्ता गिरावट की वजह हो सकती है?
- GPT-4 पर निर्भर applications बनाने वाले हर व्यक्ति के लिए यह एक warning sign है
- समय के साथ LLM का व्यवहार बदलना स्वीकार्य नहीं हो सकता
- इस प्रयोग को कोई भी Google Colab में पुन: प्रस्तुत कर सकता है
6 टिप्पणियां
मैंने subscription cancel कर दिया। खराब की गई चीज़ें साफ़ महसूस होने लगी थीं।
देश में chatGPT यूज़र कम्युनिटी में भी ऐसी रिपोर्टें लगातार आ रही थीं, तो लगता है कि वह सच था।
मैं GPT का पेड होने के बाद से हर महीने इसका इस्तेमाल कर रहा हूँ, और मैं इस बात से सहमत हूँ. और, पेड यूज़र होने के बावजूद भी अभी तक version 4 में 3 घंटे में 25 सवालों की सीमा होना मुझे बहुत परेशान करता है।
आज, custom instructions फ़ीचर जोड़ते हुए इसकी सीमा भी बढ़ाकर 50 कर दी गई है।
https://openai.com/blog/custom-instructions-for-chatgpt
क्या हाल के समय में सिर्फ मुझे ही ऐसा लग रहा है, या GPT-4 की गुणवत्ता वाकई काफी गिर गई है?
वह पेपर: How Is ChatGPT’s Behavior Changing over Time?
Google Colab: LLM Drifts: How Is ChatGPT’s Behavior Changing over Time?