GPT-4 समय के साथ बदतर होता जा रहा है

xguru · 2023-07-20T11:06:02+09:00

बहुत से लोग इस बारे में बात कर चुके हैं, लेकिन अब तक यह केवल बिखरी हुई टिप्पणियों तक सीमित था हाल ही में प्रकाशित एक पेपर में GPT-4 के जून वर्ज़न और मार्च वर्ज़न की 500 समस्याओं के साथ वस्तुनिष्ठ तुलना की गई मार्च में इसने 488 के सही जवाब दिए, लेकिन जून में सही जवाब केवल 12 रहे यानी सिर्फ 3 महीनों में सटीकता 97.6% से 2.4% हो गई लेकिन बात यहीं खत्म नहीं होती, स्थिति और भी खराब है Chain-of-Thought तकनीक का इस्तेमाल करके इसे reasoning करने के लिए कहा गया "17077 एक prime number है? Think step by step." ऐसा निर्देश देने पर GPT-4 ने बीच के चरण बनाए बिना ही "नहीं" जवाब दिया कोड जनरेशन भी और खराब हो गई LeetCode के 50 आसान प्रश्नों से एक डेटा सेट बनाकर चलाया गया मार्च वर्ज़न 52% सफल रहा, लेकिन जून वर्ज़न केवल 10% सफल हुआ ऐसा क्यों हो रहा है? माना जा रहा है कि OpenAI लगातार बदलाव कर रहा है, लेकिन यह कैसे काम करता है, वे इसका मूल्यांकन कैसे करते हैं, आदि के बारे में हमें जानकारी नहीं है अफवाहों के मुताबिक वे कई छोटे specialized GPT-4 मॉडल को जोड़कर इस्तेमाल कर रहे हैं, ताकि वह बड़े मॉडल की तरह काम करे लेकिन कम लागत में चल सके क्या सस्ता और तेज़ बनाने की कोशिश इस गुणवत्ता गिरावट की वजह हो सकती है? GPT-4 पर निर्भर applications बनाने वाले हर व्यक्ति के लिए यह एक warning sign है समय के साथ LLM का व्यवहार बदलना स्वीकार्य नहीं हो सकता इस प्रयोग को कोई भी Google Colab में पुन: प्रस्तुत कर सकता है

(twitter.com/svpino)

17 पॉइंट द्वारा xguru 2023-07-20 | 6 टिप्पणियां | WhatsApp पर शेयर करें

बहुत से लोग इस बारे में बात कर चुके हैं, लेकिन अब तक यह केवल बिखरी हुई टिप्पणियों तक सीमित था
हाल ही में प्रकाशित एक पेपर में GPT-4 के जून वर्ज़न और मार्च वर्ज़न की 500 समस्याओं के साथ वस्तुनिष्ठ तुलना की गई
मार्च में इसने 488 के सही जवाब दिए, लेकिन जून में सही जवाब केवल 12 रहे
- यानी सिर्फ 3 महीनों में सटीकता 97.6% से 2.4% हो गई
लेकिन बात यहीं खत्म नहीं होती, स्थिति और भी खराब है
Chain-of-Thought तकनीक का इस्तेमाल करके इसे reasoning करने के लिए कहा गया
- "17077 एक prime number है? Think step by step." ऐसा निर्देश देने पर GPT-4 ने बीच के चरण बनाए बिना ही "नहीं" जवाब दिया
कोड जनरेशन भी और खराब हो गई
- LeetCode के 50 आसान प्रश्नों से एक डेटा सेट बनाकर चलाया गया
- मार्च वर्ज़न 52% सफल रहा, लेकिन जून वर्ज़न केवल 10% सफल हुआ
ऐसा क्यों हो रहा है?
- माना जा रहा है कि OpenAI लगातार बदलाव कर रहा है, लेकिन यह कैसे काम करता है, वे इसका मूल्यांकन कैसे करते हैं, आदि के बारे में हमें जानकारी नहीं है
- अफवाहों के मुताबिक वे कई छोटे specialized GPT-4 मॉडल को जोड़कर इस्तेमाल कर रहे हैं, ताकि वह बड़े मॉडल की तरह काम करे लेकिन कम लागत में चल सके
- क्या सस्ता और तेज़ बनाने की कोशिश इस गुणवत्ता गिरावट की वजह हो सकती है?
GPT-4 पर निर्भर applications बनाने वाले हर व्यक्ति के लिए यह एक warning sign है
- समय के साथ LLM का व्यवहार बदलना स्वीकार्य नहीं हो सकता
इस प्रयोग को कोई भी Google Colab में पुन: प्रस्तुत कर सकता है

6 टिप्पणियां

secret3056 2023-07-20

मैंने subscription cancel कर दिया। खराब की गई चीज़ें साफ़ महसूस होने लगी थीं।

delimoni 2023-07-20

देश में chatGPT यूज़र कम्युनिटी में भी ऐसी रिपोर्टें लगातार आ रही थीं, तो लगता है कि वह सच था।

appcaster 2023-07-20

मैं GPT का पेड होने के बाद से हर महीने इसका इस्तेमाल कर रहा हूँ, और मैं इस बात से सहमत हूँ. और, पेड यूज़र होने के बावजूद भी अभी तक version 4 में 3 घंटे में 25 सवालों की सीमा होना मुझे बहुत परेशान करता है।

wedding 2023-07-21

आज, custom instructions फ़ीचर जोड़ते हुए इसकी सीमा भी बढ़ाकर 50 कर दी गई है।

https://openai.com/blog/custom-instructions-for-chatgpt

xguru 2023-07-20

क्या हाल के समय में सिर्फ मुझे ही ऐसा लग रहा है, या GPT-4 की गुणवत्ता वाकई काफी गिर गई है?

xguru 2023-07-20

वह पेपर: How Is ChatGPT’s Behavior Changing over Time?
Google Colab: LLM Drifts: How Is ChatGPT’s Behavior Changing over Time?

GPT-4 समय के साथ बदतर होता जा रहा है

संबंधित पढ़ाई

6 टिप्पणियां