- AI मॉडल पूरी तरह से पूरा कर सकने वाले कार्यों की ‘लंबाई’ के आधार पर प्रदर्शन मापने के लिए एक नया मेट्रिक प्रस्तावित किया गया है
- विश्लेषण के अनुसार, पिछले 6 वर्षों में AI द्वारा स्वायत्त रूप से पूरे किए जा सकने वाले कार्यों की लंबाई लगभग हर 7 महीने में दोगुनी हुई है
- जिन कार्यों को मानव विशेषज्ञ 4 मिनट के भीतर समाप्त कर देते हैं, उनमें सफलता दर लगभग 100% है, लेकिन 4 घंटे से अधिक समय लेने वाले कार्यों में सफलता दर 10% से कम है
- यदि यह रुझान जारी रहता है, तो अनुमान है कि कुछ ही वर्षों में AI कई हफ्तों की परियोजनाएँ स्वतंत्र रूप से पूरा कर सकेगा
- इस शोध के AI benchmark, भविष्य की क्षमताओं के पूर्वानुमान, और जोखिम प्रबंधन पर महत्वपूर्ण निहितार्थ हैं
शोध का अवलोकन
- METR ने AI कितनी लंबी अवधि के कार्य पूरे कर सकता है इसे मापने का एक नया तरीका प्रस्तुत किया
- मापन का आधार वह समय है जो मानव विशेषज्ञ को वही कार्य करने में लगता है
- मॉडल की सफलता की संभावना और मानव कार्य-समय के बीच संबंध को logistic curve के रूप में मॉडल किया गया
- यह दृष्टिकोण AI की वास्तविक उपयोगिता का आकलन करने के लिए एक उपयोगी मेट्रिक के रूप में प्रस्तुत किया गया
- यह मौजूदा benchmarks की उस सीमा को पूरा करता है जो एकल समस्या-समाधान क्षमता पर अधिक केंद्रित हैं
मुख्य परिणाम
- वर्तमान मॉडलों की प्रदर्शन सीमा
- जिन कार्यों को मनुष्य 4 मिनट के भीतर करते हैं, उनमें सफलता लगभग 100% है
- 4 घंटे से अधिक समय लेने वाले कार्यों में सफलता दर 10% से कम है
- उदाहरण: Claude 3.7 Sonnet लगभग 1 घंटे लंबे कार्यों में 50% सफलता दर दिखाता है
- प्रदर्शन सुधार की प्रवृत्ति
- पिछले 6 वर्षों में 50% विश्वसनीयता के साथ पूरे किए जा सकने वाले कार्यों की लंबाई लगभग हर 7 महीने में दोगुनी हुई है
- log scale विश्लेषण से निरंतर exponential growth की पुष्टि हुई
- यदि यह रुझान बना रहता है, तो 2~4 वर्षों में सप्ताह-स्तरीय कार्य संभव हो सकते हैं
कार्यप्रणाली और सत्यापन
- dataset-आधारित सत्यापन
- विभिन्न कार्य-समूहों (software, reasoning आदि) के लिए मानव द्वारा लगने वाला समय दर्ज किया गया
- SWE-Bench Verified dataset में भी इसी तरह की exponential वृद्धि की पुष्टि हुई
- उस डेटा में 3 महीनों से कम का doubling time देखा गया
- sensitivity analysis
- मॉडल, कार्य-चयन, noise आदि विभिन्न कारकों के प्रति robustness की जाँच की गई
- 1 महीने लंबे कार्यों को पूरा करने के समय का अनुमान लगाने वाले simulation में मापन त्रुटि बड़ी होने पर भी रुझान बना रहा
व्याख्या और सीमाएँ
- यह AI के benchmark प्रदर्शन और वास्तविक उपयोगिता के बीच के अंतर को समझाने में मदद करता है
- परीक्षा-प्रकार के प्रश्नों में AI मनुष्यों से बेहतर हो सकता है, लेकिन वास्तविक दीर्घकालिक परियोजनाओं के निष्पादन में अभी कमजोर है
- रुझान के extrapolation में अनिश्चितता को स्वीकार किया गया
- यदि केवल 2024~2025 के डेटा का उपयोग किया जाए, तो महीना-स्तरीय कार्य निष्पादन का समय लगभग 2.5 वर्ष पहले आ सकता है
- यह भी कहा गया कि पुराने डेटा की तुलना में हालिया रुझान भविष्य के प्रदर्शन का बेहतर पूर्वानुमान दे सकते हैं
निष्कर्ष और महत्व
- AI प्रदर्शन को ‘कार्य की लंबाई’ से मापने का दृष्टिकोण
- विभिन्न कठिनाई स्तरों और domains में प्रदर्शन सुधार को मात्रात्मक रूप से माप सकता है
- वास्तविक दुनिया के प्रभाव से सीधे जुड़े हुए पूर्ण प्रदर्शन-आधारित अर्थ प्रदान करता है
- यदि निरंतर exponential growth जारी रहती है, तो
- 10 वर्षों के भीतर स्वायत्त महीना-स्तरीय परियोजनाएँ संभव हो सकती हैं
- इसके साथ विशाल संभावित लाभ और जोखिम दोनों जुड़े होंगे
- शोध डेटा और analysis code GitHub पर सार्वजनिक हैं, जिससे आगे के शोध और replication experiments को प्रोत्साहन मिलता है
अभी कोई टिप्पणी नहीं है.