Opus 4.6: इंसानी मानक पर 14.5 घंटे की समस्या हल करने का मतलब क्या है (METR Time Horizon)

(metr.org)

5 पॉइंट द्वारा princox 2026-02-21 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

अमेरिका में METR नाम का एक non-profit research institute है.
यह अमेरिका के California राज्य के Berkeley में स्थित एक non-profit research institute है, जो frontier AI models की दीर्घकालिक और autonomous tasks करने की क्षमता का मूल्यांकन करता है.

कुछ शोधकर्ता चेतावनी देते हैं कि ऐसी क्षमताएँ समाज के लिए गंभीर जोखिम पैदा कर सकती हैं, और METR ठीक उसी जोखिम को मापने का काम करता है.

METR का शोध मोटे तौर पर तीन मुख्य हिस्सों में बँटा है.

पहला, AI agents की कई घंटों तक चलने वाले विविध कार्यों को autonomously पूरा करने की क्षमता का व्यापक autonomous capability evaluation.

दूसरा, AI की AI R&D खुद तेज़ करने की क्षमता का मूल्यांकन.

तीसरा, evaluation की integrity को खतरे में डालने वाले AI behaviors (जैसे sandbagging, reward hacking) और उनके countermeasures पर शोध.

खास तौर पर METR द्वारा प्रकाशित Time Horizon research ने दिखाया है कि AI agents द्वारा पूरे किए जा सकने वाले कार्यों की लंबाई पिछले 6 वर्षों में लगभग हर 7 महीने में दोगुनी होती रही है, और यह शोध इस बात का अनुमान लगाने के लिए एक प्रमुख आधार के रूप में उपयोग हो रहा है कि AI कब transformative impact डाल सकता है.

नीचे URL में जाने पर दिखने वाले पेज का machine-translated version है.

अवलोकन

कार्य-पूर्णता समय-सीमा (task-completion time horizon) का मतलब है वह task duration (मानव विशेषज्ञ के completion time के आधार पर) जिसके बारे में अनुमान लगाया जाता है कि AI agent उसे दिए गए reliability level पर सफलतापूर्वक पूरा करेगा. उदाहरण के लिए, 50%-time horizon वह task length है जिस पर अनुमान है कि agent के सफल होने की संभावना आधी है. नीचे का graph 100 से अधिक विभिन्न software tasks में performance के आधार पर frontier AI agents के 50%- और 80%-time horizons दिखाता है.

हम public frontier AI models के time horizon measurements को समय-समय पर update करते हैं. Capacity limits के कारण कुछ models को release के कुछ समय बाद मापा जा सकता है, या कुछ releases को पूरी तरह छोड़ा भी जा सकता है.

Methodology और results पर पूरी चर्चा के लिए paper और blog post देखें.

कार्यप्रणाली का विवरण

frontier AI agents के time horizon का अनुमान लगाने के लिए, हम पहले यह अनुमान लगाते हैं कि हर task को पूरा करने में मानव विशेषज्ञ को कितना समय लगेगा. हर agent के लिए logistic curve fit करके मानव task duration के function के रूप में task success probability का अनुमान लगाया जाता है. 50%-time horizon (या 80%-time horizon) निकालने के लिए, fitted curve जहाँ 50% (या 80%) success probability को काटती है, उस task duration को लिया जाता है.

कार्य वितरण: tasks में RE-Bench, HCAST, और छोटे software tasks शामिल हैं. इनमें मुख्य रूप से software engineering, machine learning, और cyber security tasks होते हैं, जो स्वतंत्र और स्पष्ट रूप से परिभाषित हैं तथा जिनके success criteria इतने स्पष्ट हैं कि उनका automatic evaluation किया जा सके.

मानव कार्य-समय का अनुमान: ज़्यादातर tasks के लिए, हम इंसानों को नियुक्त करके उनसे task करवाते हैं और successful completion times का geometric mean लेते हैं. इन इंसानों को AI agents जैसा ही instruction set और environment दिया जाता है, और उनसे कहा जाता है कि वे task को जितनी जल्दी हो सके पूरा करें. हमारे मानव task duration estimates वास्तविक experts की तुलना में overestimate हो सकते हैं, क्योंकि इन इंसानों (और AI agents) के पास task के बारे में वह contextual information बहुत कम होती है जो ऐसे equivalent tasks को रोज़मर्रा के काम में करने वाले experts के पास होती है.

अक्सर पूछे जाने वाले प्रश्न (FAQ)

Q. क्या "time horizon" का मतलब यह है कि मौजूदा AI agents उतने समय तक autonomously काम कर सकते हैं?

नहीं. 50%-time horizon का मतलब है उस task की लंबाई (मानव विशेषज्ञ मानक पर) जिसे AI agent 50% confidence के साथ पूरा कर सकता है. यह वह वास्तविक समय नहीं है जो AI task पूरा करने में लेता है, बल्कि task difficulty को मापने का एक metric है.

Q. AI agent को 2 घंटे वाले task को पूरा करने में वास्तव में कितना समय लगता है?

यह model, task, और agent settings पर निर्भर करता है, लेकिन AI agents आम तौर पर इंसानों से कई गुना तेज़ होते हैं. AI agents अक्सर बिना बार-बार दोहराव के code एक बार में लिख देते हैं, और उन्हें खोजबीन भी कम करनी पड़ती है. साथ ही, कई AI agents मानव software engineers की तुलना में कहीं अधिक तेज़ coding करते हैं.

Q. task duration estimate किन इंसानों को आधार बनाकर किया जाता है?

यह software engineering, machine learning, और cyber security क्षेत्रों के skilled professionals हैं, जिनमें से अधिकांश दुनिया की शीर्ष 100 universities से हैं. इनके पास औसतन लगभग 5 साल का संबंधित अनुभव है. हमारे 2 घंटे वाले task को "project से पहले से परिचित skilled expert" के बजाय, "बहुत कम prior context वाले नए employee या freelance contractor" द्वारा 2 घंटे में पूरा किए जा सकने वाले task के रूप में समझना ज़्यादा उचित है.

Q. अगर time horizon 2 घंटे है, तो क्या इसका मतलब AI वह सब intellectual work कर सकता है जो इंसान 2 घंटे में कर सकता है?

नहीं. हमारा task distribution मुख्य रूप से software engineering, machine learning, और cyber security tasks से बना है. Follow-up research में यह जाँचा गया कि अलग-अलग domains में AI systems का time horizon कैसे बदलता है, और अन्य domains में भी similar exponential trend मिला, लेकिन absolute time horizon values अलग हैं. AI capabilities इंसानों की तुलना में 'जैग्ड(jagged)' हैं, और आर्थिक रूप से मूल्यवान सभी tasks का time horizon कई orders of magnitude में फैला होने की संभावना है.

📊 ग्राफ की व्याख्या

मुख्य ग्राफ (छवि 1, 6)

GPT-2 (2019) से लेकर Claude Opus 4.6 (फरवरी 2026) तक की trajectory देखें तो पता चलता है कि AI का time horizon लगभग 0 मिनट से बढ़कर करीब 14 घंटे 30 मिनट हो गया है. खासकर 2024~2026 के हिस्से में curve बहुत तेज़ी से ऊपर मुड़ती दिखती है, यानी पिछले 1~2 वर्षों की capability improvement ने उससे पहले के कई वर्षों को पीछे छोड़ दिया है.

बहु-डोमेन ग्राफ (छवि 5)

METR-HRS (software), MATH, GPQA, Mock AIME, SWE-bench जैसे विभिन्न benchmarks में time horizon का exponential बढ़ना दिखता है. Domain के हिसाब से absolute values अलग हैं, लेकिन उपरि ट्रेंड खुद साझा है.

🔑 "14 घंटे 30 मिनट" की व्याख्या — मुख्य सवाल

"Fix complex bug in ML research codebase" में Claude Opus 4.6 ने 14.5 घंटे हासिल किए — इसका क्या मतलब है?

यही वह हिस्सा है जिसे सबसे आसानी से गलत समझा जा सकता है. इसे ठीक से समझें तो:

गलतफ़हमी	सही व्याख्या
"Claude Opus 4.6 ने 14.5 घंटे तक काम किया"	❌
"Claude Opus 4.6 14.5 घंटे की कठिनाई वाले task में 50% संभावना से सफल होता है"	✅

यानी 14 घंटे 30 मिनट वह समय नहीं है जो AI ने लिया, बल्कि उस task की मानव-मानक कठिनाई है.

इसे विस्तार से समझें तो:

METR ने "ML research codebase में complex bug fix करना" नाम का task चुना
कई skilled human experts को यह task दिया गया, और औसतन इसमें लगभग 14 घंटे 30 मिनट लगे
Claude Opus 4.6 से यही task बार-बार कराया गया, तो वह आधी संभावना (50%) से सफल हुआ
इसलिए "Claude Opus 4.6 का 50%-time horizon = 14 घंटे 30 मिनट"

वास्तव में Claude Opus 4.6 को यह task करने में लगने वाला समय इंसान की तुलना में बहुत कम होगा (FAQ के अनुसार AI आम तौर पर इंसानों से कई गुना तेज़ है).

💡 निहितार्थ का सार

METR का time horizon data वस्तुनिष्ठ रूप से दिखाता है कि AI agents की autonomous task execution capability exponential गति से बढ़ रही है, और यह तथ्य कि Claude Opus 4.6 skilled human expert मानक पर 14 घंटे से अधिक लगने वाले जटिल software·ML·cyber security tasks को 50% संभावना से सफलतापूर्वक पूरा कर सकता है, यह संकेत देता है कि AI साधारण सहायक tool से आगे बढ़कर विशेषज्ञ ज्ञान-आधारित श्रम के बड़े हिस्से को वास्तविक रूप से replace या automate कर सकने वाली threshold तक पहुँच रहा है. अगर यह trend जारी रहता है, तो software development, security, research जैसे high-skill knowledge industries में मानव श्रम की भूमिका और मूल्य की बुनियादी पुनर्परिभाषा लगभग अपरिहार्य होगी.

कहा जा रहा है कि फरवरी 2026 में update किए गए Opus 4.6 के पास मानव विशेषज्ञ के 14.5 घंटे वाले problem को
50% संभावना से सफलतापूर्वक हल करने की क्षमता है.

मुझे यह graph बेहद चौंकाने वाला लगा, और इस सोच के साथ इसे पोस्ट कर रहा हूँ कि भविष्य में धीरे-धीरे AI-आधारित automation के जरिए लगभग सभी काम आगे बढ़ेंगे.