ARC-AGI में GPT-4 के साथ 50% सटीकता हासिल करना
ARC-AGI क्या है?
- ARC-AGI, AI की सामान्य reasoning क्षमता का मूल्यांकन करने के लिए बनाया गया एक dataset है।
- यह ऐसे सवालों से बना है जिनमें रंगीन cells से बने grid रूप के input-output examples को देखकर transformation rule का अनुमान लगाना होता है।
- training set में मनुष्यों की औसत सटीकता 85% है, लेकिन test set इससे कहीं अधिक कठिन है।
मेरी विधि
- GPT-4 का उपयोग करके प्रत्येक समस्या के लिए लगभग 8,000 Python programs जनरेट किए गए, और सही output देने वाले program को चुना गया।
- कुछ अतिरिक्त approaches और adjustments के जरिए प्रदर्शन में बड़ा सुधार किया गया:
- Few-shot prompts: step-by-step reasoning करने वाले prompts का उपयोग।
- कोड संशोधन: example output results को देखकर GPT-4 से implementation के कुछ हिस्सों को संशोधित कराया गया।
- feature engineering: model को बेहतर grid representation उपलब्ध कराया गया।
- विशेषीकृत prompts: grid size बदलने और न बदलने वाले मामलों के लिए अलग prompts का उपयोग।
अधिक sampling का प्रभाव
- samples की संख्या बढ़ने पर प्रदर्शन बेहतर हुआ।
- उदाहरण के लिए, 1024 samples पर 25% सटीकता मिली, जबकि 2048 samples पर 34% सटीकता हासिल हुई।
बेहतर prompts और कोड संशोधन का प्रभाव
- prompt सुधार और code-fixing चरण, सटीकता बढ़ाने में महत्वपूर्ण रहे।
- अंतिम संस्करण में 50% सटीकता हासिल हुई।
सीमाएँ और अनुमान
- GPT-4 की visual recognition क्षमता और coding क्षमता सीमित है।
- अधिक sampling और बेहतर prompts की आवश्यकता है।
- अगली पीढ़ी के LLM, ARC-AGI प्रदर्शन को काफी बेहतर बना सकते हैं।
GN⁺ की राय
- visual recognition क्षमता: GPT-4 की visual recognition क्षमता सीमित है, इसलिए बेहतर visual recognition models की आवश्यकता है।
- coding क्षमता: GPT-4 coding में अक्सर साधारण गलतियाँ करता है। इसे सुधारने के लिए बेहतर debugging tools की ज़रूरत है।
- sampling लागत: बहुत अधिक sampling की आवश्यकता होने से लागत काफी बढ़ सकती है। अधिक कुशल sampling methods की ज़रूरत है।
- भविष्य की संभावना: अगली पीढ़ी के LLM, ARC-AGI प्रदर्शन को काफी बेहतर बना सकते हैं। इससे AI की सामान्य reasoning क्षमता का मूल्यांकन करने के लिए यह एक महत्वपूर्ण benchmark बन सकता है।
- व्यावहारिक उपयोग: ARC-AGI जैसी problem-solving क्षमता को वास्तविक application क्षेत्रों में कैसे उपयोग किया जा सकता है, इस पर और शोध की आवश्यकता है।
1 टिप्पणियां
Hacker News राय
ARC Prize के सह-संस्थापक: Ryan का शोध दिलचस्प और नया "LLM reasoning" शोध है, जिसमें GPT-4o का उपयोग करके 8,000 Python प्रोग्राम बनाए जाते हैं, सही प्रोग्राम चुना जाता है, और उसे अतिरिक्त टेस्ट इनपुट पर लागू किया जाता है। यह सार्वजनिक evaluation set पर प्राप्त परिणाम है, और अभी सत्यापित परिणाम नहीं है, लेकिन आशाजनक है। Ryan की मेहनत के लिए बधाई और धन्यवाद।
लेख की आलोचना: लेख कई manual tricks का उपयोग करके परिणाम पाने के बावजूद इस निष्कर्ष पर पहुंच जाता है कि "मौजूदा LLM अब ARC-AGI पर काफी अच्छा प्रदर्शन कर सकते हैं"। Francois Chollet पर हमला समुदाय के लिए हानिकारक है।
GPT-4 पर राय: GPT-4 एक खराब AGI है, और GPT-1 भी AGI था। जैसे मानव बुद्धि भी क्रमिक रूप से विकसित होती है, वैसे ही GPT-4 को text reasoning में विशेषीकृत एक छोटे दिमाग की तरह देखा जा सकता है। यह दावा करना कि ARC सामान्य बुद्धिमत्ता का परम मानक है, बुद्धिमत्ता की बड़ी तस्वीर को मिस करना है।
GPT-4 के शुरुआती प्रयास: GPT-4 ने puzzle में "ठीक-ठाक" प्रदर्शन किया, लेकिन कुछ मामलों में logical हिस्से में विफल रहा। visual-spatial तत्व महत्वपूर्ण हैं, और संभव है कि multimodal model की जरूरत हो। Python solutions को random तरीके से बनाना एक "अमानवीय" तरीका है।
LLM manipulation का मतलब: बहुत से लोग मानते हैं कि LLM को manipulate करके AGI test पास करवाना AGI test के उद्देश्य को कमजोर कर देता है। लेकिन कौन-सी manipulation प्रभावी है, यह पता लगाना उपयोगी है। अधिकांश समस्याएं आखिरकार pattern matching पर आकर टिकती हैं।
मुख्य बिंदु:
ARC-AGI की खामी: ARC-AGI में खामियां दिखाई देती हैं। जिसे AGI से समझाया जा सकता है, उसे training set में शामिल चीज़ों से भी समझाया जा सकता है।
System 2 और AGI: बहुत सारे प्रोग्राम बनाना और उनका evaluation करना AGI के System 2 की भूमिका निभा सकता है। यह उस तरीके जैसा है जिससे इंसान बुद्धिमानी से सोचते हैं।
भौतिक समझ का महत्व: यह चुनौती physical understanding, spatial awareness, और object boundaries पर निर्भर करती है। objects की पहचान करना और transformations या relationships को map करना महत्वपूर्ण है। इसे program search और LLM को मिलाकर हल किया जा सकता है।
GPT-4 की planning क्षमता: GPT-4 लेख में बताए गए तरीके जैसी planning बना सकता है। इसमें feature extraction, program synthesis, और iterative improvement शामिल हैं। coding और visual input में इसकी कमजोरियां हैं।