ARC-AGI-3 - पहला इंटरैक्टिव रीजनिंग बेंचमार्क

(arcprize.org)

1 पॉइंट द्वारा GN⁺ 2026-03-27 | 1 टिप्पणियां | WhatsApp पर शेयर करें

ARC-AGI-3 AI एजेंटों की मानव-स्तरीय बुद्धिमत्ता मापने के लिए पहला इंटरैक्टिव रीजनिंग बेंचमार्क है, जो पर्यावरण की खोज और adaptive learning क्षमता का मूल्यांकन करता है
सभी कार्य ऐसे वातावरणों से बने हैं जिन्हें मनुष्य हल कर सकते हैं, और समय के साथ skill acquisition efficiency तथा long-term planning क्षमता को मापते हैं
यह पूर्व ज्ञान के बिना स्पष्ट लक्ष्य और feedback देता है, और रटने वाले दृष्टिकोण को रोकने वाली नई task structure बनाए रखता है
Replay visualization, developer toolkit, evaluation UI के जरिए एजेंट के व्यवहार और रीजनिंग प्रक्रिया को पारदर्शी रूप से सत्यापित किया जा सकता है
सार्वजनिक game set, docs, SDK और community channels के माध्यम से ARC Prize 2026 प्रतियोगिता में भागीदारी और agent testing का समर्थन करता है

ARC-AGI-3 अवलोकन

ARC-AGI-3 को AI एजेंटों की मानव-स्तरीय बुद्धिमत्ता मापने के लिए एक इंटरैक्टिव रीजनिंग बेंचमार्क के रूप में डिज़ाइन किया गया है
- यह मूल्यांकन करता है कि एजेंट नए वातावरणों की खोज कर सके, लक्ष्य समझ सके, अनुकूलनशील world model बना सके, और लगातार सीख सके
- 100% स्कोर का अर्थ है कि AI सभी गेम्स को मनुष्यों जितनी दक्षता से हल करता है
- यह स्थिर puzzle solving नहीं है; एजेंट को वातावरण के भीतर अनुभव के माध्यम से सीखना और रणनीति समायोजित करना होता है
- natural language निर्देशों के बिना perception, action selection, strategy adaptation करना होता है

मुख्य विशेषताएँ

Reproducible runs, agent integration के लिए developer toolkit, और पारदर्शी evaluation UI शामिल हैं
Replay और evaluation
- एजेंट के व्यवहार को replay के रूप में visualize किया जा सकता है, जिससे निर्णय-प्रक्रिया, actions और reasoning को समयक्रम में ट्रैक किया जा सके
- सैंपल replay उपलब्ध है
Tools और UI
- ARC-AGI-3 toolkit के माध्यम से agent को integrate किया जा सकता है, और interactive UI से test तथा iteration किए जा सकते हैं
- Play and test लिंक के माध्यम से सीधे चलाया जा सकता है
Documentation
- environment setup, API usage, integration guide सहित agent निर्माण के लिए आवश्यक दस्तावेज उपलब्ध हैं
- Documentation page पर पहुँचा जा सकता है

1 टिप्पणियां

GN⁺ 2026-03-27

Hacker News की राय

scaling01 के ट्वीट को देखें तो ARC-AGI-3 की कई evaluation method की समस्याएँ बताई गई हैं
human baseline को ‘दूसरा सबसे तेज़ इंसान’ के रूप में परिभाषित किया गया है, और स्कोर साधारण success rate नहीं बल्कि efficiency के squared value से निकाला जाता है
यानी, अगर इंसान किसी समस्या को 10 steps में हल करे और model उसे 100 steps में हल करे, तो उसे केवल 1% स्कोर मिलता है
साथ ही 100% का मतलब सिर्फ़ यह है कि सभी levels हल हो गए, इसका मतलब human level नहीं है
ऐसी design में model human level पर होने पर भी 100% नहीं पा सकता
prompt सरल है, और model इंसान से 5 गुना से ज़्यादा steps इस्तेमाल नहीं कर सकता
बाद के levels को ज़्यादा weight देना भी continual learning को detect करने के इरादे से बताया गया है
- ये बातें समस्या कम और बल्कि सही approach ज़्यादा लगती हैं। ARC-AGI के बारे में मेरी धारणा उल्टा और बेहतर हुई है
- prompt का सरल होना Kaggle competition में सुलझाने वाली बात है। अगर latest LLM जोड़ दिया जाए तो GPU limits वाले participants से यह कहीं बेहतर करेगा
- human baseline की परिभाषा वैसे भी मूलतः मनमानी ही होगी। आखिर ‘औसत इंसान’ या तो निरक्षर होगा या पहले ही मर चुका होगा
- वास्तव में ऐसी design तर्कसंगत है। ज़्यादातर लोगों से top 80% में आना आसान है, और 95% से ऊपर भी motivation हो तो संभव है
- उल्टा यह तरीका LLM के लिए कहीं ज़्यादा कठिन test बनाता है, इसलिए मौजूदा स्कोर और प्रभावशाली लगते हैं
“जब तक AI और मानव learning के बीच gap है, तब तक वह AGI नहीं है” इस बात पर 90s के Deep Blue दौर की एक उपमा याद आती है
जैसे “विमान पक्षियों की तरह पंख नहीं फड़फड़ाता, फिर भी वह उड़ता है”, उसी तरह इंसानों से अलग ढंग से सीखने का मतलब यह नहीं कि intelligence को नकार दिया जाए
- यह gap सिर्फ़ दार्शनिक मुद्दा नहीं बल्कि आर्थिक प्रभाव का मामला है। gap 0 हो जाए तो मानव knowledge work पूरी तरह replace हो जाएगा। यहाँ तक कि पूर्ण AGI के बिना भी अर्थव्यवस्था ढह सकती है
- Dijkstra की लिखाई(EWD867) याद आती है। “क्या कंप्यूटर सोच सकते हैं?” उतना ही निरर्थक है जितना “क्या पनडुब्बियाँ तैर सकती हैं?”
- AGI का ‘G’ General को दर्शाता है, लेकिन इंसान भी general नहीं हैं। विमान पक्षियों से ज़्यादा बहु-उपयोगी नहीं, फिर भी mobility को बढ़ाते हैं
- मेरी नज़र में AGI पर बहस अब ख़त्म हो चुकी है। आज के tools ही काफ़ी उपयोगी हैं, और ASI (self-improving intelligence) के संकेत भी दिख रहे हैं। ARC-AGI competition बस वर्तमान स्थिति को मापने का एक दिलचस्प प्रयोग है
- intelligence सिर्फ़ मानव-जैसी नहीं होती। अहम बात output की उपयोगिता है। हाँ, consciousness का सवाल नैतिक है, और क्योंकि इसे सिद्ध नहीं किया जा सकता, इसलिए फ़िलहाल यह मान लेना चाहिए कि उसमें चेतना है
मुझे लगता है ARC का approach बहुत शानदार AGI evaluation method है
इसमें इंसान और AI को एक ही input दिया जाता है और नतीजों की तुलना की जाती है
‘General’ शब्द ही इसकी कुंजी है, और ARC उसी generality को मापने की कोशिश है
AI उपयोगी है या नहीं, यह द्वितीयक बात है। यह test अब तक के सबसे विश्वसनीय प्रयासों में से है
साथ ही, अगर आप अपने विशेषज्ञता वाले क्षेत्र के सवाल AI से पूछें, तो वह कई बार ग़लत जवाब देता है। हम अक्सर knowledge और intelligence को गड़बड़ा देते हैं
- मुझे लगता है ‘General’ शब्द ही ग़लत है। इंसान भी general नहीं हैं और उनकी क्षमताएँ असमान होती हैं। language में LLM पहले ही इंसानों से आगे निकल चुके हैं
- यह test एक ऐसा game है जिसमें visual recognition चाहिए, इसलिए यह अंधे व्यक्ति से driving test दिलाने जैसा है। अगर game को text में बदल दिया जाए तो LLM इंसानों से बेहतर कर सकते हैं
- पिछला ARC-AGI IQ test जैसा लगता था, लेकिन यह version बहुत आसान है। LLM इसका हल नहीं कर पा रहे, इसकी वजह input format mismatch हो सकती है। सिर्फ़ text-based game learning से भी यह जल्द हल हो सकता है
ऐसे benchmark को देखकर एक सवाल आता है कि OpenAI लोगों को hire करके dataset बनवाए, इसे रोकने का कोई तरीका है या नहीं
- असली सवाल वह नहीं, बल्कि यह है कि “क्या model generalize कर सकता है?” ARC-AGI शायद visual long-context problem solving और agency को evaluate करने के लिए design किया गया है
कई levels ख़ुद करके मुझे पक्का समझ आ गया कि मैं AGI नहीं हूँ
- इसे NGI, यानी Natural General Intelligence कहना चाहिए
- लेकिन AI पूरे internet तक पहुँच सकता है, उसके पास time limit नहीं होती, और वह ढेरों ग़लत जवाब submit करके भी शर्मिंदा नहीं होता। ये शर्तें इंसानी test से बिल्कुल अलग हैं
- “AGI का मानक कम करने के लिए धन्यवाद” वाला मज़ाक भी सुना
मैं थोड़ा skeptical हूँ
games के आदी लोग 100% पास कर लेंगे, लेकिन पहली बार कंप्यूटर इस्तेमाल करने वाली दादी पूरी तरह fail हो जाएँगी। LLM के साथ भी यही बात है
आख़िरकार ऐसे game data पर train हुए model आसानी से adapt कर लेंगे, और वह AGI नहीं होगा
- लेकिन इंसान भी learning के ज़रिए games में अच्छे होते हैं, इसलिए जब तक online learning की अनुमति नहीं होगी, यह test मानव-जैसी learning को reflect नहीं करेगा
- मैं भी 40 साल का gamer हूँ, और मेरे लिए ऐसे puzzles बहुत आसान थे। rules समझते ही हल हो गए। इस तरह की समस्याएँ मेरी विशेषज्ञता का क्षेत्र हैं
YC launch event में मैंने इस project को सीधे देखा, और बहुत समय बाद प्रेरणा महसूस हुई
यह भी सुना कि ARC2 पर प्रयोग कर रहे किसी व्यक्ति ने robot arm को और efficiently चलाने का तरीका खोज लिया
सिर्फ़ score बढ़ाने की प्रक्रिया वास्तविक robotics innovation तक पहुँच गई
ARC-4, 5, 6 भी आने वाले हैं, और आगे zero context में समस्याएँ हल करने वाले models की उम्मीद की जा रही है
- लेकिन इस तरह का विस्तार आख़िरकार goalpost moving जैसा भी लग सकता है
मुझे नहीं पता ARC-AGI का AGI से सीधा संबंध है या नहीं
आख़िर यह बस एक खास तरह के game में LLM की performance मापता है
इंसान उस game में अच्छे हों या बुरे, ऐसे कई games पहले से हैं जिनमें कंप्यूटर इंसानों को काफ़ी पीछे छोड़ चुके हैं
इसलिए अहम सवाल यह है कि क्या ये games intelligence के प्रतिनिधि हैं
- ARC-AGI के निर्माता Chollet intelligence को इस रूप में परिभाषित करते हैं कि “पहली बार देखी गई स्थिति में कोई कितना अच्छा काम करता है।” ARC-AGI उसी क्षमता को मापता है
- लेकिन ‘AGI’ ज़्यादा marketing term जैसा है, और ऐसे benchmark असली कामकाजी दक्षता से ज़्यादा प्रचार के लिए लगते हैं
मैं इस game का human tester था
मैंने 90 मिनट में 25 games हल किए, और instructions में actions की संख्या कम रखने को कहा गया था, लेकिन वास्तव में speed reward ($5/game) की वजह से मैंने जल्दी हल करने पर ध्यान दिया
इसलिए human baseline data में वास्तविकता से ज़्यादा actions दर्ज हुए होने की काफ़ी संभावना है
ARC-AGI leaderboard में मुझे सबसे पसंद आने वाली चीज़ cost-performance graph है
हाल की AI performance improvements ज़्यादातर बिजली की खपत बढ़ने के साथ आई हैं। आख़िरकार ज़्यादा बिजली खर्च करें तो बेहतर नतीजे मिलते हैं

ARC-AGI-3 - पहला इंटरैक्टिव रीजनिंग बेंचमार्क

ARC-AGI-3 अवलोकन

मुख्य विशेषताएँ

Replay और evaluation

Tools और UI

Documentation

संबंधित सामग्री और community

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय