OpenAI O3 ने ARC-AGI-PUB में ऐतिहासिक रूप से उच्च स्कोर हासिल किया

(arcprize.org)

3 पॉइंट द्वारा GN⁺ 2024-12-21 | 1 टिप्पणियां | WhatsApp पर शेयर करें

OpenAI के o3 सिस्टम ने ARC-AGI-1 सार्वजनिक डेटासेट पर नया रिकॉर्ड बनाया
- Semi-Private Evaluation: high-efficiency mode में 75.7% हासिल
- high-cost mode (172 गुना अधिक compute): 87.5% दर्ज
GPT श्रृंखला के मॉडलों की सीमाओं से आगे बढ़ते हुए, इसने नए और adaptive task handling की महत्वपूर्ण प्रगति दिखाई
GPT-3 (2020) 0% → GPT-4o (2024) 5% → o3 के साथ 75.7% तक प्रगति
ARC-AGI-1 के परिणाम AI क्षमताओं में सुधार को लेकर नई समझ पेश करते हैं

ARC Prize और AGI शोध का भविष्य

ARC Prize का लक्ष्य AGI शोध के लिए एक दिशा-सूचक बनना है
2025 में ARC-AGI-2 रिलीज़ होने की योजना:
- ऐसे प्रश्नों से बना होगा जो इंसानों के लिए आसान लेकिन AI के लिए कठिन हों
- नए high-efficiency, open source solutions के विकास का लक्ष्य
o3 की उपलब्धि नए AGI benchmark design की ज़रूरत को रेखांकित करती है

OpenAI o3 के ARC-AGI test परिणाम

test dataset और method

Semi-Private Eval: overfitting रोकने के लिए इस्तेमाल किए गए 100 private tasks
Public Eval: 400 public tasks
high-efficiency (6 samples) और low-efficiency (1024 samples) दो compute settings में test किया गया

प्रमुख उपलब्धियाँ (high-efficiency vs low-efficiency)

Semi-Private Eval:
- high-efficiency: 75.7% / $20 लागत / प्रति task 1.3 मिनट
- low-efficiency: 87.5% / प्रति task 13.8 मिनट
Public Eval:
- high-efficiency: 82.8% / $17 लागत
- low-efficiency: 91.5%

efficiency और performance का संबंध

high-efficiency score, ARC-AGI-Pub मानदंड ($10,000 से कम) के भीतर प्रथम स्थान पर रहा
low-efficiency score दिखाता है कि compute बढ़ने से performance बेहतर होती है, लेकिन लागत अधिक है
o3 की उपलब्धि सिर्फ compute बढ़ाने से नहीं आई। यह AI की मूलभूत adaptive क्षमता में सुधार को दिखाती है

AGI पर चर्चा

ARC-AGI और AGI में अंतर

ARC-AGI, AI generalization क्षमता को मापने का एक research tool है
o3 ने ARC-AGI में शानदार प्रदर्शन किया, लेकिन इसे AGI कहना अभी जल्दबाज़ी होगी
- कुछ आसान tasks में विफलता के मामले मौजूद हैं
- भविष्य के ARC-AGI-2 में score 30% से नीचे गिरने की संभावना है

o3 की मुख्य विशेषताएँ

मौजूदा GPT मॉडलों की तुलना में नए tasks को संभालने और adapt करने की क्षमता में सुधार
natural language program search और execution approach की शुरुआत:
- test के दौरान task हल करने के लिए "Chain of Thought" की खोज
- Monte-Carlo tree search जैसी पद्धति से मिलता-जुलता approach
- natural language instructions बनाकर और चलाकर program की तरह इस्तेमाल

मौजूदा GPT मॉडलों से तुलना

पारंपरिक GPT मॉडल "store → retrieve → apply" तरीके से काम करते हैं
नए tasks के प्रति adaptability की कमी उनकी सीमा रही है
o3 में मौजूदा क्षमताओं को फिर से संयोजित करके नए tasks के अनुसार ढलने की क्षमता है

आगे के शोध की दिशा

o3 का open source analysis

ARC Prize का लक्ष्य high-efficiency, open source solutions विकसित करना है
o3 test data और unsolved tasks सार्वजनिक किए जाएंगे:
- community को unresolved tasks की विशेषताओं का विश्लेषण करने के लिए आमंत्रित किया गया है
- Discord channel और GitHub पर चर्चा की जा सकती है

अगली पीढ़ी का benchmark

ARC-AGI-2 का विकास जारी है:
- 2025 की पहली तिमाही के अंत तक रिलीज़ की योजना
- मौजूदा ARC-AGI format से अलग एक पूरी तरह नया design
ARC Prize foundation AGI शोध के लिए नए benchmarks विकसित करना जारी रखेगा

निष्कर्ष

OpenAI o3, GPT श्रृंखला की सीमाओं से आगे बढ़ी AI adaptive क्षमता का एक ऐतिहासिक प्रमाण है
LLM-आधारित natural language program search की शुरुआत ने एक नए क्षेत्र का मार्ग खोला है
आगे efficiency और performance के बीच संतुलन पर शोध और open source collaboration की ज़रूरत होगी

1 टिप्पणियां

GN⁺ 2024-12-21

Hacker News राय

दक्षता अब ज़्यादा महत्वपूर्ण हो गई है। ARC-AGI-TUNED जैसे शब्द का इस्तेमाल यह संकेत देता है कि बहुत अधिक computing resources इस्तेमाल हुए। इंसानों द्वारा ARC-AGI पहेलियाँ हल करने की लागत से तुलना करें तो, मौजूदा computing के साथ मानव-स्तरीय reasoning की लागत काफ़ी ऊँची है.
प्राकृतिक भाषा के पैटर्न को समझना पहेलियों से अधिक जटिल है। अगर AI को पहेलियाँ हल करने के लिए train किया जाता है, तो बाहरी माध्यमों के लिए training data बनाना मुश्किल होता है। block patterns के उत्तर को बहुत कम अतिरिक्त training के साथ infer करना प्रभावशाली है.
o3-mini का programming task इतना कठिन नहीं था। Claude 3.5 Sonnet को वही task दिया गया और उसने पहली कोशिश में ही इसे सफलतापूर्वक हल कर लिया.
Francois Chollet का ARC एक बहुत दिलचस्प और चुनौतीपूर्ण LLM benchmark है। कई लोगों ने ARC की आलोचना की कि यह वास्तविक reasoning को नहीं दिखाता, लेकिन इससे यह साबित होता है कि ARC जो मापता है वह reasoning के लिए महत्वपूर्ण है.
इंसानों का प्रदर्शन 85% है और o3 high का 87.5%। इसका मतलब है कि मानव-स्तरीय प्रदर्शन हासिल करने वाला algorithm मौजूद है। यह समझाता है कि क्यों लोगों को लगता है कि AGI क़रीब आ गया है.
o3 में AGI के कुछ मूलभूत पहलू शामिल हैं। ARC समस्याएँ हल करने के लिए कई मुख्य प्रकार के ज्ञान का उपयोग और सही abstraction level चुनना ज़रूरी होता है.
o3 मॉडल को चलाने की लागत बहुत अधिक है। लेकिन राष्ट्रीय स्तर पर, भले ही यह आर्थिक रूप से व्यावहारिक न हो, फिर भी यह एक महत्वपूर्ण प्रगति हो सकती है। अगर मानव-जैसी बुद्धिमत्ता वाला AI मांग के अनुसार उपलब्ध कराया जा सके, तो उसका प्रभाव उम्मीद से पहले दिख सकता है.
ARC-AGI हासिल कर लेना, AGI हासिल कर लेना नहीं है। o3 अब भी आसान tasks में विफल होता है। ARC-AGI-2 benchmark अभी भी o3 के लिए चुनौती बना रहेगा.
ARC या कोई भी benchmark वास्तविक general intelligence के साथ भ्रमित नहीं किया जाना चाहिए। general intelligence की पहचान शायद केवल काफ़ी लंबे retrospective लाभ के बाद ही की जा सकेगी.

OpenAI O3 ने ARC-AGI-PUB में ऐतिहासिक रूप से उच्च स्कोर हासिल किया

ARC Prize और AGI शोध का भविष्य

OpenAI o3 के ARC-AGI test परिणाम

test dataset और method

प्रमुख उपलब्धियाँ (high-efficiency vs low-efficiency)

efficiency और performance का संबंध

AGI पर चर्चा

ARC-AGI और AGI में अंतर

o3 की मुख्य विशेषताएँ

मौजूदा GPT मॉडलों से तुलना

आगे के शोध की दिशा

o3 का open source analysis

अगली पीढ़ी का benchmark

निष्कर्ष

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय