3 पॉइंट द्वारा GN⁺ 2024-12-21 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • OpenAI के o3 सिस्टम ने ARC-AGI-1 सार्वजनिक डेटासेट पर नया रिकॉर्ड बनाया
    • Semi-Private Evaluation: high-efficiency mode में 75.7% हासिल
    • high-cost mode (172 गुना अधिक compute): 87.5% दर्ज
  • GPT श्रृंखला के मॉडलों की सीमाओं से आगे बढ़ते हुए, इसने नए और adaptive task handling की महत्वपूर्ण प्रगति दिखाई
  • GPT-3 (2020) 0% → GPT-4o (2024) 5% → o3 के साथ 75.7% तक प्रगति
  • ARC-AGI-1 के परिणाम AI क्षमताओं में सुधार को लेकर नई समझ पेश करते हैं

ARC Prize और AGI शोध का भविष्य

  • ARC Prize का लक्ष्य AGI शोध के लिए एक दिशा-सूचक बनना है
  • 2025 में ARC-AGI-2 रिलीज़ होने की योजना:
    • ऐसे प्रश्नों से बना होगा जो इंसानों के लिए आसान लेकिन AI के लिए कठिन हों
    • नए high-efficiency, open source solutions के विकास का लक्ष्य
  • o3 की उपलब्धि नए AGI benchmark design की ज़रूरत को रेखांकित करती है

OpenAI o3 के ARC-AGI test परिणाम

test dataset और method

  • Semi-Private Eval: overfitting रोकने के लिए इस्तेमाल किए गए 100 private tasks
  • Public Eval: 400 public tasks
  • high-efficiency (6 samples) और low-efficiency (1024 samples) दो compute settings में test किया गया

प्रमुख उपलब्धियाँ (high-efficiency vs low-efficiency)

  • Semi-Private Eval:
    • high-efficiency: 75.7% / $20 लागत / प्रति task 1.3 मिनट
    • low-efficiency: 87.5% / प्रति task 13.8 मिनट
  • Public Eval:
    • high-efficiency: 82.8% / $17 लागत
    • low-efficiency: 91.5%

efficiency और performance का संबंध

  • high-efficiency score, ARC-AGI-Pub मानदंड ($10,000 से कम) के भीतर प्रथम स्थान पर रहा
  • low-efficiency score दिखाता है कि compute बढ़ने से performance बेहतर होती है, लेकिन लागत अधिक है
  • o3 की उपलब्धि सिर्फ compute बढ़ाने से नहीं आई। यह AI की मूलभूत adaptive क्षमता में सुधार को दिखाती है

AGI पर चर्चा

ARC-AGI और AGI में अंतर

  • ARC-AGI, AI generalization क्षमता को मापने का एक research tool है
  • o3 ने ARC-AGI में शानदार प्रदर्शन किया, लेकिन इसे AGI कहना अभी जल्दबाज़ी होगी
    • कुछ आसान tasks में विफलता के मामले मौजूद हैं
    • भविष्य के ARC-AGI-2 में score 30% से नीचे गिरने की संभावना है

o3 की मुख्य विशेषताएँ

  • मौजूदा GPT मॉडलों की तुलना में नए tasks को संभालने और adapt करने की क्षमता में सुधार
  • natural language program search और execution approach की शुरुआत:
    • test के दौरान task हल करने के लिए "Chain of Thought" की खोज
    • Monte-Carlo tree search जैसी पद्धति से मिलता-जुलता approach
    • natural language instructions बनाकर और चलाकर program की तरह इस्तेमाल

मौजूदा GPT मॉडलों से तुलना

  • पारंपरिक GPT मॉडल "store → retrieve → apply" तरीके से काम करते हैं
  • नए tasks के प्रति adaptability की कमी उनकी सीमा रही है
  • o3 में मौजूदा क्षमताओं को फिर से संयोजित करके नए tasks के अनुसार ढलने की क्षमता है

आगे के शोध की दिशा

o3 का open source analysis

  • ARC Prize का लक्ष्य high-efficiency, open source solutions विकसित करना है
  • o3 test data और unsolved tasks सार्वजनिक किए जाएंगे:
    • community को unresolved tasks की विशेषताओं का विश्लेषण करने के लिए आमंत्रित किया गया है
    • Discord channel और GitHub पर चर्चा की जा सकती है

अगली पीढ़ी का benchmark

  • ARC-AGI-2 का विकास जारी है:
    • 2025 की पहली तिमाही के अंत तक रिलीज़ की योजना
    • मौजूदा ARC-AGI format से अलग एक पूरी तरह नया design
  • ARC Prize foundation AGI शोध के लिए नए benchmarks विकसित करना जारी रखेगा

निष्कर्ष

  • OpenAI o3, GPT श्रृंखला की सीमाओं से आगे बढ़ी AI adaptive क्षमता का एक ऐतिहासिक प्रमाण है
  • LLM-आधारित natural language program search की शुरुआत ने एक नए क्षेत्र का मार्ग खोला है
  • आगे efficiency और performance के बीच संतुलन पर शोध और open source collaboration की ज़रूरत होगी

1 टिप्पणियां

 
GN⁺ 2024-12-21
Hacker News राय
  • दक्षता अब ज़्यादा महत्वपूर्ण हो गई है। ARC-AGI-TUNED जैसे शब्द का इस्तेमाल यह संकेत देता है कि बहुत अधिक computing resources इस्तेमाल हुए। इंसानों द्वारा ARC-AGI पहेलियाँ हल करने की लागत से तुलना करें तो, मौजूदा computing के साथ मानव-स्तरीय reasoning की लागत काफ़ी ऊँची है.

  • प्राकृतिक भाषा के पैटर्न को समझना पहेलियों से अधिक जटिल है। अगर AI को पहेलियाँ हल करने के लिए train किया जाता है, तो बाहरी माध्यमों के लिए training data बनाना मुश्किल होता है। block patterns के उत्तर को बहुत कम अतिरिक्त training के साथ infer करना प्रभावशाली है.

  • o3-mini का programming task इतना कठिन नहीं था। Claude 3.5 Sonnet को वही task दिया गया और उसने पहली कोशिश में ही इसे सफलतापूर्वक हल कर लिया.

  • Francois Chollet का ARC एक बहुत दिलचस्प और चुनौतीपूर्ण LLM benchmark है। कई लोगों ने ARC की आलोचना की कि यह वास्तविक reasoning को नहीं दिखाता, लेकिन इससे यह साबित होता है कि ARC जो मापता है वह reasoning के लिए महत्वपूर्ण है.

  • इंसानों का प्रदर्शन 85% है और o3 high का 87.5%। इसका मतलब है कि मानव-स्तरीय प्रदर्शन हासिल करने वाला algorithm मौजूद है। यह समझाता है कि क्यों लोगों को लगता है कि AGI क़रीब आ गया है.

  • o3 में AGI के कुछ मूलभूत पहलू शामिल हैं। ARC समस्याएँ हल करने के लिए कई मुख्य प्रकार के ज्ञान का उपयोग और सही abstraction level चुनना ज़रूरी होता है.

  • o3 मॉडल को चलाने की लागत बहुत अधिक है। लेकिन राष्ट्रीय स्तर पर, भले ही यह आर्थिक रूप से व्यावहारिक न हो, फिर भी यह एक महत्वपूर्ण प्रगति हो सकती है। अगर मानव-जैसी बुद्धिमत्ता वाला AI मांग के अनुसार उपलब्ध कराया जा सके, तो उसका प्रभाव उम्मीद से पहले दिख सकता है.

  • ARC-AGI हासिल कर लेना, AGI हासिल कर लेना नहीं है। o3 अब भी आसान tasks में विफल होता है। ARC-AGI-2 benchmark अभी भी o3 के लिए चुनौती बना रहेगा.

  • ARC या कोई भी benchmark वास्तविक general intelligence के साथ भ्रमित नहीं किया जाना चाहिए। general intelligence की पहचान शायद केवल काफ़ी लंबे retrospective लाभ के बाद ही की जा सकेगी.