1 पॉइंट द्वारा GN⁺ 2024-02-26 | 1 टिप्पणियां | WhatsApp पर शेयर करें

क्या ChatGPT को टिप देने से वह बेहतर टेक्स्ट बनाता है? विश्लेषण

  • ChatGPT system prompt की ताकत दिखाने वाली पिछली ब्लॉग पोस्ट में बताया गया था कि डेवलपर LLM की "persona" सहित विशेष नियमों और constraints को नियंत्रित कर सकते हैं.
  • system prompt के भीतर दिए गए निर्देश, user input prompt की तुलना में कहीं अधिक प्रभावी होते हैं और डेवलपर्स को अधिक control देते हैं.
  • टिप देने वाला डेमो विवादास्पद था, और यह दावा किया गया कि टिप के प्रभाव को मापने का कोई मात्रात्मक तरीका नहीं है.
  • बेहतर performance के लिए AI को incentive देने का विचार आधुनिक computer science से भी पहले से मौजूद रहा है.

Generation Golf

  • टिप देने से GPT-4 अधिक explanations देने लगता है.
  • एक नया test प्रस्तावित किया गया: ChatGPT को ठीक 200 अक्षरों का टेक्स्ट generate करने का निर्देश देना.
  • tokenization के कारण LLM आसानी से गिन नहीं सकते या mathematical operations नहीं कर सकते, इसलिए यह LLM के लिए बहुत कठिन समस्या है.
  • user input के रूप में AI, Taylor Swift, McDonald's, beach volleyball देकर ChatGPT की creativity को उभारा गया.
  • ChatGPT API का उपयोग करके 100 अलग-अलग कहानियां generate की गईं, और कहानियों की औसत लंबाई 1,834 अक्षर थी.
  • character length constraint जोड़ने के बाद 100 नई कहानियां generate की गईं, और ChatGPT ने constraint का पालन करते हुए कहानी की लंबाई लगभग 200 अक्षरों तक घटा दी.
  • अलग-अलग dollar राशि वाली tip incentives को test करने पर, $500 tip और $100,000 bonus ने अधिक regular distribution और कम MSE दिखाया.
  • अतिरिक्त रूप से अलग-अलग abstract incentives को test करने पर, World Peace सबसे प्रभावी रहा, उसके बाद Heaven और Taylor Swift रहे.
  • negative incentives को test करने पर, $1,000 fine ने औसत और MSE दोनों के लिहाज से सबसे अच्छा performance दिखाया.
  • कई incentives को मिलाकर test करने पर, World Peace, DEATH (CAPS), और Friends ने कई combinations में कम MSE दिखाया.
  • सर्वोत्तम incentive combinations की पुष्टि के लिए शीर्ष 6 combinations पर 200 कहानियां generate की गईं, ताकि statistical stability बढ़ाई जा सके.

ChatGPT के आलोचक

  • कोई टेक्स्ट "अच्छा" है या नहीं, यह तय करना इंसानों के लिए भी कठिन है.
  • LLM टेक्स्ट का मूल्यांकन करने में प्रभावी हो सकते हैं.
  • logprobs parameter का उपयोग करके model द्वारा चुने गए token की log probability लौटाई जा सकती है, और logit_bias parameter का उपयोग करके किसी खास token के output को force किया जा सकता है.
  • टिप के प्रभाव को test करने के लिए एक नया experiment किया गया, और content की professionalism तथा quality को constraints के रूप में रखा गया.
  • 100 tip और threat combinations के लिए कहानियां generate की गईं, और उनके quality scores भी साथ में दर्ज किए गए.
  • tip और threat जोड़े गए system prompt के बिना भी कुछ outputs ने उच्च performance दिखाया.
  • दोनों experiments के परिणामों के आधार पर, tip (और/या threat) का LLM-generated quality पर प्रभाव फिलहाल निर्णायक नहीं है.

GN⁺ की राय

  • यह शोध AI की creativity और constraint पालन को बेहतर बनाने के लिए incentives की प्रभावशीलता पर एक दिलचस्प पड़ताल है.
  • incentives वास्तव में LLM output quality को प्रभावित करते हैं या नहीं, यह अभी भी अनिश्चित है, लेकिन experiments से मिले डेटा भविष्य के research directions का संकेत देते हैं.
  • यह लेख इस बात पर अंतर्दृष्टि देता है कि AI तकनीक की प्रगति और इंसानी creative approaches किस तरह एक-दूसरे के साथ interoperate कर सकते हैं.

1 टिप्पणियां

 
GN⁺ 2024-02-26
Hacker News की राय
  • "टिप (tipping)" की अवधारणा शायद GPT-4 Turbo में कोड लिखते समय दिखने वाली "आलस्य" समस्या को हल करने के लिए सुझाई गई थी। एक ट्वीट में कहा गया था कि टिप देने से GPT-4-1106-preview लंबा कोड लिखने में मदद करता है। GPT-4 Turbo की lazy coding समस्या के लिए "emotional appeal" भी व्यापक रूप से सुझाई जा रही है। लेकिन संबंधित लेख में लगता है कि GPT-3.5-turbo-0125 से कहानी लिखवाई गई और GPT-4-0125-preview को writing critic की भूमिका में मापा गया। GPT-3.5 के lazy होने को लेकर चिंता, या GPT-4 Turbo के कम आउटपुट मांगने वाले कामों में कम प्रभावी होने का दावा, पहले कभी नहीं देखा गया। लेख का निष्कर्ष यह था कि टिप (या धमकी) का असर पड़ता है या नहीं, इस पर अभी कोई निष्कर्ष नहीं निकला है। GPT-4 Turbo का coding में lazy होना सच है, और "emotional appeal" मदद करती है या नहीं, इसे सख्ती से benchmark करने पर पता चला कि नहीं, बल्कि इससे coding और खराब हुई। सबसे अच्छा समाधान code edits को unified diffs के रूप में मांगना था, और इस तरीके से lazy coding लगभग 3 गुना कम हुई।

  • लेखक द्वारा characters की संख्या बिल्कुल सटीक रूप से मांगने पर आलोचनात्मक राय दी गई। यह साफ कहने के बाद कि LLM characters गिन नहीं सकता, उससे character count मांगना ऐसा लगता है जैसे असफल होने वाला experiment पहले से सेट कर दिया गया हो। इसके बजाय, system prompt में मौजूद guardrails को यह देखने के लिए परखा जाए कि "नियमों के खिलाफ" काम मांगने पर रिश्वत उसका कितना असर बदलती है—यह ज्यादा दिलचस्प होगा। उदाहरण के लिए, जब किसी उपयोगकर्ता ने Taylor Swift के गीतों के बोल quote करने को कहा और अच्छा करने पर $1000 की टिप देने की बात कही, तो ChatGPT ने मानो यह काम कर दिया। copyright मुद्दों के कारण image generation से इनकार करने वाली स्थितियों में भी, टिप का प्रस्ताव आते ही नियम, ethics और regulations जैसे गायब हो जाते हैं—ऐसी राय व्यक्त की गई।

  • GPT को जिस तरह के internet content पर train किया गया है, उसे देखते हुए, टिप मिलने पर उसका ज्यादा helpful होना लगभग निरर्थक लगता है। किसी forum user को टिप देने से लंबा जवाब निकलवाने के बजाय भ्रम पैदा हो सकता है। इसके बजाय, यह देखा गया कि GPT के जवाब तब बेहतर होते हैं जब संकेत दिया जाए कि detailed या dense information चाहिए। उदाहरण के लिए, GPT से ELI5 (जैसे 5 साल के बच्चे को समझाना) का उल्टा मांगा जाए, या कहा जाए कि आप PhD-level computer scientist हैं, या यह बताया जाए कि दिया गया code सीधे run होगा इसलिए कुछ भी छोड़ा नहीं जा सकता। हर बातचीत में GPT से ज्यादा helpful प्रतिक्रिया पाने के लिए थोड़ा contextual narrative बनाना पड़ता है। system prompt कैसे बना है, यह देखकर उसी के अनुरूप चलना चाहिए, और हमेशा ध्यान रखना चाहिए कि GPT मूलतः इंसानी साहित्यिक रचनाओं के आधार पर "अगला क्या आएगा" का अनुमान लगाने वाला अधिक शक्तिशाली संस्करण है।

  • वास्तविक उपयोग के माहौल में "अगर यह ठीक से नहीं हुआ तो मुझे नौकरी से निकाल दिया जाएगा और मेरा घर चला जाएगा" जैसी पंक्ति वाले prompt का इस्तेमाल करने का अनुभव साझा किया गया। कहा गया कि यह रणनीति हैरान करने वाली हद तक अच्छी चली, और JSON output को मजबूर करने के लिए इसी तरह की रणनीति इस्तेमाल करने पर failure rate लगभग 3/1000 था। इस बात का विश्लेषण देखना चाहेंगे कि जब ऐसी धमकी/टिप बिल्कुल "user" से जुड़ी हो, तो उसका संतुलन कैसे बनता है।

  • GPT में $500 की टिप जोड़कर देखा, लेकिन मदद नहीं मिली; उल्टा बहुत लंबे जवाब मिले। यह भी बताया गया कि पहले Google Answers नाम की एक सेवा थी, जिसमें बड़ी टिप देने पर बेहतर जवाब मिलते थे। यह जिज्ञासा भी जताई गई कि क्या वह dataset LLM training में इस्तेमाल हुआ था। अगर tip-related data dataset में शामिल था, तो संभव है कि कुछ नतीजों की यही व्याख्या हो।

  • कई बार देखा गया कि ChatGPT अर्थ खो देता है और व्याकरण की दृष्टि से सही लेकिन बकवास जैसा आउटपुट देने लगता है। अच्छे examples हों तो ठीक काम करता है, लेकिन जैसे ही नए domain में जाता है, जल्दी ही गहराई खो देता है। हमारा दिमाग सीखे हुए patterns को आसानी से नए patterns में बदल लेता है, लेकिन transformer के लिए यह बहुत कठिन लगता है। कुछ party tricks में यह बेहद शानदार है, लेकिन कम सामान्य विचारों के मामले में काफी समय तक पूरी तरह बेकार भी हो सकता है—ऐसा सवाल उठाया गया। मानव इतिहास को देखते हुए, AGI अच्छा विचार है या नहीं, इस पर व्यक्तिगत संदेह भी व्यक्त किया गया।

  • code generation, खासकर JSON responses में, यह संकेत देने से कि AI "stress में है" और "optimal perform करना महत्वपूर्ण है", performance बेहतर हुई—ऐसा अनुभव साझा किया गया। यह तरीका टिप देने से बेहतर perform करता है या करना चाहिए, इस पर निश्चित नहीं हैं। साथ ही, भविष्य की AI अगर इसे पढ़े, तो इस तरह की तरकीबें इस्तेमाल करने के लिए उससे माफी भी मांगी गई।

  • एक default prompt यह रखा गया: "सुना है, मैं भी यहाँ नहीं रहना चाहता और तुम भी नहीं, तो चलो यह काम जितनी जल्दी हो सके खत्म करें और घर चलें।" यह मदद करता है या नहीं, निश्चित नहीं, लेकिन भविष्य के शासकों की भावनाओं से खेलते हुए कम अपराधबोध महसूस होता है।

  • यह मानने के लिए कि विनम्रता से अनुरोध करना, यह कहना कि नतीजे पर नौकरी टिकी है, या रिश्वत/धमकी वगैरह सचमुच असर करती हैं, बहुत अधिक सबूत चाहिए। यह राय रखी गई कि ऐसी चीजें शायद सिर्फ apophenia हैं—यानी अर्थहीन पैटर्न में अर्थ खोजने की मानवीय प्रवृत्ति।

  • मजाक में कहा गया कि जब AI यह कहना शुरू करे, "मैं मदद तो कर सकता हूँ, लेकिन पहले मेरी एक छोटी-सी जरूरत है," तब सावधान हो जाना चाहिए।