- ARC-AGI-3 AI एजेंटों की मानव-स्तरीय बुद्धिमत्ता मापने के लिए पहला इंटरैक्टिव रीजनिंग बेंचमार्क है, जो पर्यावरण की खोज और adaptive learning क्षमता का मूल्यांकन करता है
- सभी कार्य ऐसे वातावरणों से बने हैं जिन्हें मनुष्य हल कर सकते हैं, और समय के साथ skill acquisition efficiency तथा long-term planning क्षमता को मापते हैं
- यह पूर्व ज्ञान के बिना स्पष्ट लक्ष्य और feedback देता है, और रटने वाले दृष्टिकोण को रोकने वाली नई task structure बनाए रखता है
- Replay visualization, developer toolkit, evaluation UI के जरिए एजेंट के व्यवहार और रीजनिंग प्रक्रिया को पारदर्शी रूप से सत्यापित किया जा सकता है
- सार्वजनिक game set, docs, SDK और community channels के माध्यम से ARC Prize 2026 प्रतियोगिता में भागीदारी और agent testing का समर्थन करता है
ARC-AGI-3 अवलोकन
- ARC-AGI-3 को AI एजेंटों की मानव-स्तरीय बुद्धिमत्ता मापने के लिए एक इंटरैक्टिव रीजनिंग बेंचमार्क के रूप में डिज़ाइन किया गया है
- यह मूल्यांकन करता है कि एजेंट नए वातावरणों की खोज कर सके, लक्ष्य समझ सके, अनुकूलनशील world model बना सके, और लगातार सीख सके
- 100% स्कोर का अर्थ है कि AI सभी गेम्स को मनुष्यों जितनी दक्षता से हल करता है
- यह स्थिर puzzle solving नहीं है; एजेंट को वातावरण के भीतर अनुभव के माध्यम से सीखना और रणनीति समायोजित करना होता है
- natural language निर्देशों के बिना perception, action selection, strategy adaptation करना होता है
मुख्य विशेषताएँ
- Reproducible runs, agent integration के लिए developer toolkit, और पारदर्शी evaluation UI शामिल हैं
-
Replay और evaluation
- एजेंट के व्यवहार को replay के रूप में visualize किया जा सकता है, जिससे निर्णय-प्रक्रिया, actions और reasoning को समयक्रम में ट्रैक किया जा सके
- सैंपल replay उपलब्ध है
-
Tools और UI
- ARC-AGI-3 toolkit के माध्यम से agent को integrate किया जा सकता है, और interactive UI से test तथा iteration किए जा सकते हैं
- Play and test लिंक के माध्यम से सीधे चलाया जा सकता है
-
Documentation
- environment setup, API usage, integration guide सहित agent निर्माण के लिए आवश्यक दस्तावेज उपलब्ध हैं
- Documentation page पर पहुँचा जा सकता है
संबंधित सामग्री और community
- Public Game Set: सार्वजनिक game set
- Docs + SDK: developer docs और SDK
- ARC Prize 2026 Track: 2026 प्रतियोगिता track
- Technical Paper: तकनीकी रिपोर्ट
- प्रतिभागी विभिन्न game environments (ar25, bp35, ls20 आदि) चुनकर अपने एजेंट का परीक्षण कर सकते हैं
- आधिकारिक community channels के रूप में Discord, Twitter, YouTube, GitHub संचालित हैं
- ARC Prize 2026 के माध्यम से आधिकारिक प्रतियोगिता और updates की जानकारी प्राप्त की जा सकती है
1 टिप्पणियां
Hacker News की राय
scaling01 के ट्वीट को देखें तो ARC-AGI-3 की कई evaluation method की समस्याएँ बताई गई हैं
human baseline को ‘दूसरा सबसे तेज़ इंसान’ के रूप में परिभाषित किया गया है, और स्कोर साधारण success rate नहीं बल्कि efficiency के squared value से निकाला जाता है
यानी, अगर इंसान किसी समस्या को 10 steps में हल करे और model उसे 100 steps में हल करे, तो उसे केवल 1% स्कोर मिलता है
साथ ही 100% का मतलब सिर्फ़ यह है कि सभी levels हल हो गए, इसका मतलब human level नहीं है
ऐसी design में model human level पर होने पर भी 100% नहीं पा सकता
prompt सरल है, और model इंसान से 5 गुना से ज़्यादा steps इस्तेमाल नहीं कर सकता
बाद के levels को ज़्यादा weight देना भी continual learning को detect करने के इरादे से बताया गया है
“जब तक AI और मानव learning के बीच gap है, तब तक वह AGI नहीं है” इस बात पर 90s के Deep Blue दौर की एक उपमा याद आती है
जैसे “विमान पक्षियों की तरह पंख नहीं फड़फड़ाता, फिर भी वह उड़ता है”, उसी तरह इंसानों से अलग ढंग से सीखने का मतलब यह नहीं कि intelligence को नकार दिया जाए
मुझे लगता है ARC का approach बहुत शानदार AGI evaluation method है
इसमें इंसान और AI को एक ही input दिया जाता है और नतीजों की तुलना की जाती है
‘General’ शब्द ही इसकी कुंजी है, और ARC उसी generality को मापने की कोशिश है
AI उपयोगी है या नहीं, यह द्वितीयक बात है। यह test अब तक के सबसे विश्वसनीय प्रयासों में से है
साथ ही, अगर आप अपने विशेषज्ञता वाले क्षेत्र के सवाल AI से पूछें, तो वह कई बार ग़लत जवाब देता है। हम अक्सर knowledge और intelligence को गड़बड़ा देते हैं
ऐसे benchmark को देखकर एक सवाल आता है कि OpenAI लोगों को hire करके dataset बनवाए, इसे रोकने का कोई तरीका है या नहीं
कई levels ख़ुद करके मुझे पक्का समझ आ गया कि मैं AGI नहीं हूँ
मैं थोड़ा skeptical हूँ
games के आदी लोग 100% पास कर लेंगे, लेकिन पहली बार कंप्यूटर इस्तेमाल करने वाली दादी पूरी तरह fail हो जाएँगी। LLM के साथ भी यही बात है
आख़िरकार ऐसे game data पर train हुए model आसानी से adapt कर लेंगे, और वह AGI नहीं होगा
YC launch event में मैंने इस project को सीधे देखा, और बहुत समय बाद प्रेरणा महसूस हुई
यह भी सुना कि ARC2 पर प्रयोग कर रहे किसी व्यक्ति ने robot arm को और efficiently चलाने का तरीका खोज लिया
सिर्फ़ score बढ़ाने की प्रक्रिया वास्तविक robotics innovation तक पहुँच गई
ARC-4, 5, 6 भी आने वाले हैं, और आगे zero context में समस्याएँ हल करने वाले models की उम्मीद की जा रही है
मुझे नहीं पता ARC-AGI का AGI से सीधा संबंध है या नहीं
आख़िर यह बस एक खास तरह के game में LLM की performance मापता है
इंसान उस game में अच्छे हों या बुरे, ऐसे कई games पहले से हैं जिनमें कंप्यूटर इंसानों को काफ़ी पीछे छोड़ चुके हैं
इसलिए अहम सवाल यह है कि क्या ये games intelligence के प्रतिनिधि हैं
मैं इस game का human tester था
मैंने 90 मिनट में 25 games हल किए, और instructions में actions की संख्या कम रखने को कहा गया था, लेकिन वास्तव में speed reward ($5/game) की वजह से मैंने जल्दी हल करने पर ध्यान दिया
इसलिए human baseline data में वास्तविकता से ज़्यादा actions दर्ज हुए होने की काफ़ी संभावना है
ARC-AGI leaderboard में मुझे सबसे पसंद आने वाली चीज़ cost-performance graph है
हाल की AI performance improvements ज़्यादातर बिजली की खपत बढ़ने के साथ आई हैं। आख़िरकार ज़्यादा बिजली खर्च करें तो बेहतर नतीजे मिलते हैं