Prompt engineering के साथ CSAT कोरियाई भाषा में ग्रेड 1 हासिल करने की कोशिश करने वाला open source प्रोजेक्ट
(github.com/NomaDamas)- पहले ग्रेड 3 (86 अंक, शीर्ष 22%) पाने वाले GPT-4 के CSAT कोरियाई भाषा स्कोर को CoT-आधारित prompt engineering से बढ़ाकर ग्रेड 2 (94 अंक, शीर्ष 5%) किया गया।
- खास grammar प्रश्न प्रकारों के लिए विशेष रूप से तैयार prompts का उपयोग करके अधिकतम ग्रेड 1 (96 अंक, शीर्ष 4%) तक हासिल किया गया।
- पूरे prompts, source code, और इस्तेमाल किए गए CSAT कोरियाई भाषा dataset को GitHub पर open source के रूप में सार्वजनिक किया गया।
- यह एक ऐसा उदाहरण है जो दिखाता है कि, भले ही LLMs की कोरियाई क्षमता को अभी भी कमतर माना जाता रहा हो, GPT-4 पहले ही शीर्ष-स्तरीय भाषाई क्षमता तक पहुंच चुका है।
नमस्ते। मैंने सीधे CoT prompts का उपयोग करके GPT-4 को CSAT कोरियाई भाषा के प्रश्न बहुत अच्छी तरह हल करने लायक बनाया है.
मुझे अभी तक ऐसा prompt नहीं मिला है जो शीर्ष 5% से ऊपर, यानी 100 अंक तक पहुंच सके, और API लागत की समस्या के कारण मैंने केवल 2023 CSAT पर ही परीक्षण किया है। इसलिए मैं कई लोगों की मदद चाहता हूं और इसी वजह से इसे open source के रूप में जारी कर रहा हूं। आशा है कि बहुत से लोग सार्वजनिक source code के साथ स्वतंत्र रूप से नए prompts का परीक्षण करेंगे और prompts की और उन्नत तकनीकें खोज पाएंगे!
7 टिप्पणियां
दिलचस्प प्रोजेक्ट है~
क्या इसे 5 विकल्पों में से एक चुनने की समस्या की बजाय, हर विकल्प को True / False मानकर एक Classification समस्या की तरह अप्रोच करना कैसा रहेगा?
अगर CoT के साथ हर विकल्प के लिए अलग-अलग यह तय कराया जाए कि वह सही है या गलत, और फिर उन 5 विचार-आधारों को देखकर आखिर में अंतिम निर्णय लेने वाले Agent बनाए जाएँ, तो अपेक्षाकृत कमज़ोर मॉडल से भी बेहतर गुणवत्ता के नतीजे मिल सकते हैं.
अभी आपने जो तरीका बनाया है, उसमें 1वें विकल्प से मूल्यांकन शुरू होता है, इसलिए बाद के विकल्पों का मूल्यांकन करते समय पहले के विकल्पों को लेकर पूर्वाग्रह जुड़ सकता है. GPT-4 के शानदार होने की एक वजह यह भी है कि मॉडल पर्याप्त बड़ा होने पर ऐसे पूर्वाग्रहों का असर कम पड़ता है, लेकिन मुझे लगता है कि मैंने किसी पेपर में देखा था कि पैसेज लंबा होने पर इसका प्रभाव भी घट जाता है.
(हालाँकि वह peer review न हुआ arXiv पेपर था.. लेकिन बात काफ़ी विश्वसनीय लगी थी.)
बेशक API लागत 6 गुना हो जाएगी, लेकिन मेरी निजी राय में अगर prompting अच्छी तरह की जाए, तो सूनुंग Korean language जैसे स्तर के सवाल GPT-3.5 से भी काफ़ी हद तक हल हो सकते हैं.
जैसा आपने कहा, अगर पाँचों को स्वतंत्र रूप से मूल्यांकन करें तो ऐसी स्थिति भी आती है जहाँ दो या उससे ज़्यादा उत्तर सही निकलते हैं, या फिर एक भी सही उत्तर नहीं होता। तब फिर हर सही उत्तर और उसके समाधान को देखकर फैसला करने वाला एक अतिरिक्त प्रॉम्प्ट भी जोड़ना पड़ता है।
या फिर पाँचों विकल्पों में से हर एक के लिए कई बार प्रॉम्प्ट चलाकर, जिसे सबसे ज़्यादा बार उत्तर के रूप में चुना जाए उसे सही उत्तर मानने का तरीका भी हो सकता है, लेकिन जैसा आपने कहा, इससे API की लागत सचमुच बर्फ़ के गोले की तरह बढ़ती जाएगी;; अभी तो मौजूदा प्रॉम्प्ट के साथ भी एक बार सुनेउंग परीक्षा देने में 4~5 डॉलर तक लग जाते हैं T_T
कॉस्ट कटौती की भी चिंता करनी पड़ती है—इंजीनियरिंग की दुनिया में आपका स्वागत है, lol
नाम तो Evaluation Institute Slayer है haha
वाह, यह दिलचस्प है.
लगता है कि
Step by stepके बाद prompt engineering बहुत तेज़ी से आगे बढ़ रही है.(और क्या GPT-4 स्तर की Korean क्षमता वाला कोई open source LLM आ पाएगा....)
कोरियाई open source LLM अभी GPT-3.5 से भी काफी पीछे हैं T_T उम्मीद है कि open source LLM ज़रूर GPT-4 स्तर तक पहुँचें।