• AI मॉडल पूरी तरह से पूरा कर सकने वाले कार्यों की ‘लंबाई’ के आधार पर प्रदर्शन मापने के लिए एक नया मेट्रिक प्रस्तावित किया गया है
  • विश्लेषण के अनुसार, पिछले 6 वर्षों में AI द्वारा स्वायत्त रूप से पूरे किए जा सकने वाले कार्यों की लंबाई लगभग हर 7 महीने में दोगुनी हुई है
  • जिन कार्यों को मानव विशेषज्ञ 4 मिनट के भीतर समाप्त कर देते हैं, उनमें सफलता दर लगभग 100% है, लेकिन 4 घंटे से अधिक समय लेने वाले कार्यों में सफलता दर 10% से कम है
  • यदि यह रुझान जारी रहता है, तो अनुमान है कि कुछ ही वर्षों में AI कई हफ्तों की परियोजनाएँ स्वतंत्र रूप से पूरा कर सकेगा
  • इस शोध के AI benchmark, भविष्य की क्षमताओं के पूर्वानुमान, और जोखिम प्रबंधन पर महत्वपूर्ण निहितार्थ हैं

शोध का अवलोकन

  • METR ने AI कितनी लंबी अवधि के कार्य पूरे कर सकता है इसे मापने का एक नया तरीका प्रस्तुत किया
    • मापन का आधार वह समय है जो मानव विशेषज्ञ को वही कार्य करने में लगता है
    • मॉडल की सफलता की संभावना और मानव कार्य-समय के बीच संबंध को logistic curve के रूप में मॉडल किया गया
  • यह दृष्टिकोण AI की वास्तविक उपयोगिता का आकलन करने के लिए एक उपयोगी मेट्रिक के रूप में प्रस्तुत किया गया
    • यह मौजूदा benchmarks की उस सीमा को पूरा करता है जो एकल समस्या-समाधान क्षमता पर अधिक केंद्रित हैं

मुख्य परिणाम

  • वर्तमान मॉडलों की प्रदर्शन सीमा
    • जिन कार्यों को मनुष्य 4 मिनट के भीतर करते हैं, उनमें सफलता लगभग 100% है
    • 4 घंटे से अधिक समय लेने वाले कार्यों में सफलता दर 10% से कम है
    • उदाहरण: Claude 3.7 Sonnet लगभग 1 घंटे लंबे कार्यों में 50% सफलता दर दिखाता है
  • प्रदर्शन सुधार की प्रवृत्ति
    • पिछले 6 वर्षों में 50% विश्वसनीयता के साथ पूरे किए जा सकने वाले कार्यों की लंबाई लगभग हर 7 महीने में दोगुनी हुई है
    • log scale विश्लेषण से निरंतर exponential growth की पुष्टि हुई
    • यदि यह रुझान बना रहता है, तो 2~4 वर्षों में सप्ताह-स्तरीय कार्य संभव हो सकते हैं

कार्यप्रणाली और सत्यापन

  • dataset-आधारित सत्यापन
    • विभिन्न कार्य-समूहों (software, reasoning आदि) के लिए मानव द्वारा लगने वाला समय दर्ज किया गया
    • SWE-Bench Verified dataset में भी इसी तरह की exponential वृद्धि की पुष्टि हुई
    • उस डेटा में 3 महीनों से कम का doubling time देखा गया
  • sensitivity analysis
    • मॉडल, कार्य-चयन, noise आदि विभिन्न कारकों के प्रति robustness की जाँच की गई
    • 1 महीने लंबे कार्यों को पूरा करने के समय का अनुमान लगाने वाले simulation में मापन त्रुटि बड़ी होने पर भी रुझान बना रहा

व्याख्या और सीमाएँ

  • यह AI के benchmark प्रदर्शन और वास्तविक उपयोगिता के बीच के अंतर को समझाने में मदद करता है
    • परीक्षा-प्रकार के प्रश्नों में AI मनुष्यों से बेहतर हो सकता है, लेकिन वास्तविक दीर्घकालिक परियोजनाओं के निष्पादन में अभी कमजोर है
  • रुझान के extrapolation में अनिश्चितता को स्वीकार किया गया
    • यदि केवल 2024~2025 के डेटा का उपयोग किया जाए, तो महीना-स्तरीय कार्य निष्पादन का समय लगभग 2.5 वर्ष पहले आ सकता है
    • यह भी कहा गया कि पुराने डेटा की तुलना में हालिया रुझान भविष्य के प्रदर्शन का बेहतर पूर्वानुमान दे सकते हैं

निष्कर्ष और महत्व

  • AI प्रदर्शन को ‘कार्य की लंबाई’ से मापने का दृष्टिकोण
    • विभिन्न कठिनाई स्तरों और domains में प्रदर्शन सुधार को मात्रात्मक रूप से माप सकता है
    • वास्तविक दुनिया के प्रभाव से सीधे जुड़े हुए पूर्ण प्रदर्शन-आधारित अर्थ प्रदान करता है
  • यदि निरंतर exponential growth जारी रहती है, तो
    • 10 वर्षों के भीतर स्वायत्त महीना-स्तरीय परियोजनाएँ संभव हो सकती हैं
    • इसके साथ विशाल संभावित लाभ और जोखिम दोनों जुड़े होंगे
  • शोध डेटा और analysis code GitHub पर सार्वजनिक हैं, जिससे आगे के शोध और replication experiments को प्रोत्साहन मिलता है

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.