29 पॉइंट द्वारा vkehfdl1 2023-08-08 | 7 टिप्पणियां | WhatsApp पर शेयर करें
  • पहले ग्रेड 3 (86 अंक, शीर्ष 22%) पाने वाले GPT-4 के CSAT कोरियाई भाषा स्कोर को CoT-आधारित prompt engineering से बढ़ाकर ग्रेड 2 (94 अंक, शीर्ष 5%) किया गया।
  • खास grammar प्रश्न प्रकारों के लिए विशेष रूप से तैयार prompts का उपयोग करके अधिकतम ग्रेड 1 (96 अंक, शीर्ष 4%) तक हासिल किया गया।
  • पूरे prompts, source code, और इस्तेमाल किए गए CSAT कोरियाई भाषा dataset को GitHub पर open source के रूप में सार्वजनिक किया गया।
  • यह एक ऐसा उदाहरण है जो दिखाता है कि, भले ही LLMs की कोरियाई क्षमता को अभी भी कमतर माना जाता रहा हो, GPT-4 पहले ही शीर्ष-स्तरीय भाषाई क्षमता तक पहुंच चुका है।

नमस्ते। मैंने सीधे CoT prompts का उपयोग करके GPT-4 को CSAT कोरियाई भाषा के प्रश्न बहुत अच्छी तरह हल करने लायक बनाया है.

मुझे अभी तक ऐसा prompt नहीं मिला है जो शीर्ष 5% से ऊपर, यानी 100 अंक तक पहुंच सके, और API लागत की समस्या के कारण मैंने केवल 2023 CSAT पर ही परीक्षण किया है। इसलिए मैं कई लोगों की मदद चाहता हूं और इसी वजह से इसे open source के रूप में जारी कर रहा हूं। आशा है कि बहुत से लोग सार्वजनिक source code के साथ स्वतंत्र रूप से नए prompts का परीक्षण करेंगे और prompts की और उन्नत तकनीकें खोज पाएंगे!

7 टिप्पणियां

 
wedding 2023-08-09

दिलचस्प प्रोजेक्ट है~

 
kuber 2023-08-08

क्या इसे 5 विकल्पों में से एक चुनने की समस्या की बजाय, हर विकल्प को True / False मानकर एक Classification समस्या की तरह अप्रोच करना कैसा रहेगा?

अगर CoT के साथ हर विकल्प के लिए अलग-अलग यह तय कराया जाए कि वह सही है या गलत, और फिर उन 5 विचार-आधारों को देखकर आखिर में अंतिम निर्णय लेने वाले Agent बनाए जाएँ, तो अपेक्षाकृत कमज़ोर मॉडल से भी बेहतर गुणवत्ता के नतीजे मिल सकते हैं.

अभी आपने जो तरीका बनाया है, उसमें 1वें विकल्प से मूल्यांकन शुरू होता है, इसलिए बाद के विकल्पों का मूल्यांकन करते समय पहले के विकल्पों को लेकर पूर्वाग्रह जुड़ सकता है. GPT-4 के शानदार होने की एक वजह यह भी है कि मॉडल पर्याप्त बड़ा होने पर ऐसे पूर्वाग्रहों का असर कम पड़ता है, लेकिन मुझे लगता है कि मैंने किसी पेपर में देखा था कि पैसेज लंबा होने पर इसका प्रभाव भी घट जाता है.
(हालाँकि वह peer review न हुआ arXiv पेपर था.. लेकिन बात काफ़ी विश्वसनीय लगी थी.)

बेशक API लागत 6 गुना हो जाएगी, लेकिन मेरी निजी राय में अगर prompting अच्छी तरह की जाए, तो सूनुंग Korean language जैसे स्तर के सवाल GPT-3.5 से भी काफ़ी हद तक हल हो सकते हैं.

 
vkehfdl1 2023-08-09

जैसा आपने कहा, अगर पाँचों को स्वतंत्र रूप से मूल्यांकन करें तो ऐसी स्थिति भी आती है जहाँ दो या उससे ज़्यादा उत्तर सही निकलते हैं, या फिर एक भी सही उत्तर नहीं होता। तब फिर हर सही उत्तर और उसके समाधान को देखकर फैसला करने वाला एक अतिरिक्त प्रॉम्प्ट भी जोड़ना पड़ता है।
या फिर पाँचों विकल्पों में से हर एक के लिए कई बार प्रॉम्प्ट चलाकर, जिसे सबसे ज़्यादा बार उत्तर के रूप में चुना जाए उसे सही उत्तर मानने का तरीका भी हो सकता है, लेकिन जैसा आपने कहा, इससे API की लागत सचमुच बर्फ़ के गोले की तरह बढ़ती जाएगी;; अभी तो मौजूदा प्रॉम्प्ट के साथ भी एक बार सुनेउंग परीक्षा देने में 4~5 डॉलर तक लग जाते हैं T_T

 
kuber 2023-08-09

कॉस्ट कटौती की भी चिंता करनी पड़ती है—इंजीनियरिंग की दुनिया में आपका स्वागत है, lol

 
dohyun682 2023-08-08

नाम तो Evaluation Institute Slayer है haha

 
kuroneko 2023-08-08

वाह, यह दिलचस्प है.

लगता है कि Step by step के बाद prompt engineering बहुत तेज़ी से आगे बढ़ रही है.
(और क्या GPT-4 स्तर की Korean क्षमता वाला कोई open source LLM आ पाएगा....)

 
vkehfdl1 2023-08-09

कोरियाई open source LLM अभी GPT-3.5 से भी काफी पीछे हैं T_T उम्मीद है कि open source LLM ज़रूर GPT-4 स्तर तक पहुँचें।