क्या हाल में GPT-4 की गुणवत्ता काफ़ी गिर गई है, या ऐसा सिर्फ़ मुझे लग रहा है?
(news.ycombinator.com)HN पर आए इस सवाल पर कई तरह के जवाब आए, उन्हें यहाँ संक्षेप में साझा कर रहा हूँ
- पहले की तुलना में यह तेज़ तो हो गया है, लेकिन नतीजों की गुणवत्ता काफ़ी गिर गई है, इसलिए यह लगभग GPT-3.5++ जैसा लगता है। यह ज़्यादा bugs वाला code बनाता है, और जवाबों की गहराई भी कम लगती है
- ऐसा लगता है जैसे कुछ खास coding tasks को classify करने के लिए कोई layer जोड़ दी गई हो, और उसी वजह से यह बेकार जवाब देने लगा हो। इसलिए premium membership रद्द करके DIY models की तरफ़ देखने का सोच रहा हूँ
- update से पहले यह बहुत जटिल coding problems भी हल कर देता था, और non-programming सवालों पर भी बहुत विचारपूर्ण जवाब देता था, लेकिन अब ऐसा नहीं है। original GPT-4 जादू जैसा था, लेकिन अब यह एक मूर्ख probabilistic parrot जैसा लगता है
- ऐसा महसूस होता है कि यह सिर्फ़ सतही जवाब देता है और follow-up के लिए कहीं और जाने की सलाह देता है
- coding के मामले में यह लगातार खराब हो रहा है, यह तो तय है। हर बार जब नया version आता है, मैं इसे वही चीज़ें करके देखता हूँ, और यह हर बार ज़्यादा अजीब हो जाता है
- मेरे लिए तो अभी भी ठीक है, लेकिन मैं इस बात से थक गया हूँ कि हर जवाब में दुनिया कितनी जटिल है, इस पर कोई न कोई पंक्ति ज़रूर होती है। हाँ, मुझे भी पता है, मुझे बच्चे की तरह treat मत करो
- यही वजह है कि open source models अहम हैं। और यही वजह है कि regulation और lobbying होती है। सोचिए, आम लोगों को neutered AI मिले, जबकि ऊपर वाले लोगों के पास raw GPT-4 हो
- "Sparks of AGI" पेपर लिखने वाले शोधकर्ताओं ने भी कहा था कि OpenAI ने GPT-4 को जितना ज़्यादा align किया, उसकी क्षमता उतनी घटी। लगता है वही trend जारी है
10 टिप्पणियां
मुझे लगता है कि एक बार परफॉर्मेंस नीचे गई थी, फिर दोबारा बेहतर हुई है।
ऐसा भी लगता है कि इस्तेमाल किए जा रहे prompt में सुधार का भी इसमें एक हिस्सा है।
हाल ही में मैंने कोडिंग से जुड़े सवाल-जवाब किए, और गलतियाँ ठीक करके बताने पर भी यह बार-बार उसी चक्र में घूमता रहा। तब मुझे लगा कि यह ऐसा क्यों कर रहा है, लेकिन अब पता चला कि ऐसा सिर्फ मेरे साथ नहीं था।
लगता है जनरेटिव AI सच में बहुत बड़ा हॉट टॉपिक है। इस पर फॉलो-अप पोस्ट भी आ रही हैं...
https://news.ycombinator.com/item?id=36155267
मैंने भी यही महसूस किया...
जवाब देने की गति भी धीमी हो गई थी, और यह और भी बेवकूफ हो गया है।
हाल में मैंने लगभग 200 लाइनों का कोड दिया, तो GPT4 अधिकतम इनपुट सीमा में अटक गया,
लेकिन GPT3 ने उसे प्रोसेस कर दिया?..
लगता है या तो alignment में कुछ गड़बड़ हो गई है और यह अस्थायी रूप से खराब हुआ है... या जानबूझकर nerf किया गया है, समझ नहीं आ रहा..
हाँ, मुझे भी ऐसा लगा। तो यह सिर्फ़ मुझे ही नहीं लगा था.. जो लोग हर दिन GPT इस्तेमाल करते हैं, वे शायद इस हल्के-से फ़र्क़ को अपनी अनुभूति से महसूस कर रहे हैं।
मुझे यह बात खासकर JD लिखते समय बहुत महसूस हुई; वही prompt इस्तेमाल करके डेढ़ महीने पहले जो लिखा था और हाल में जो लिखा, उनमें गुणवत्ता का हल्का-सा फर्क था। क्या कहूँ, जैसे उसमें ईमानदार मेहनत की कमी हो?
शुरुआत में दिखाई गई GPT-4 की पागलपन भरी परफॉर्मेंस अब शायद नहीं रही...
शुरुआत में gpt4 ऐसा लगता था मानो पीछे से कोई इंसान जवाब दे रहा हो (SimSimi??) ...
नैतिकता सच में इतनी डरावनी होती है।
मुझे GPT से नैतिक जवाब सुनने नहीं हैं, लेकिन लगता है जैसे मशीन बेवजह तरह-तरह की बातें ज़्यादा सोचने लगी है। शायद यह इतनी फ़िल्टरिंग से गुजरती है कि "अगर मैं ऐसे जवाब दूँ तो यह अनैतिक होगा?" और इसी वजह से जवाब उल्टे अजीब हो जाते हैं।
600 से ज़्यादा कमेंट आ चुके हैं.
मेरे लिए सबसे ज़्यादा परेशान करने वाली बात यह है कि एक ही चीज़ कहने पर भी बहुत अलग-अलग नतीजे आते हैं, जिससे थोड़ी झुंझलाहट होती है.. जबकि मैं temperature भी कम रखता हूँ.