AI एजेंट स्किल्स, बेंचमार्क प्रदर्शन का आधा भी वास्तविक दुनिया में नहीं दिखता

(arxiv.org)

3 पॉइंट द्वारा davespark 2026-04-16 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

UC Santa Barbara, MIT CSAIL, MIT-IBM Watson AI Lab की शोध टीम का यह अध्ययन AI एजेंटों की स्किल उपयोग क्षमता का अधिक यथार्थवादी मूल्यांकन करता है。

शोधकर्ताओं ने ओपन सोर्स से 34,198 स्किल्स इकट्ठी कर उनका परीक्षण किया। इनमें workflow, API उपयोग विधियाँ, best practices जैसी structured knowledge शामिल थीं। मौजूदा benchmark (SKILLSBENCH) एजेंटों का मूल्यांकन ऐसी आदर्श स्थिति में करता था जहाँ उन्हें पहले से ही बिल्कुल उपयुक्त स्किल दे दी जाती थी, जिससे प्रदर्शन बढ़ा-चढ़ाकर दिखने की समस्या थी।

इसे सुधारने के लिए शोध टीम ने 6-स्तरीय यथार्थवादी scenario तैयार किए:

स्किल सीधे उपलब्ध कराना
एजेंट का स्वयं स्किल चुनना
असंबंधित स्किल्स को मिलाकर देना
बड़े स्किल पूल में search करना
ऐसा मामला जहाँ कोई customized स्किल मौजूद ही न हो

Claude Opus 4.6, Kimi K2.5, Qwen3.5-397B जैसे नवीनतम मॉडलों पर परीक्षण के नतीजे:

Claude Opus 4.6 के लिए
- स्किल सीधे देने पर: 55.4% pass rate
- वास्तविक परिस्थितियों में (बड़े पैमाने पर search + selection): 40.1%
- customized स्किल न होने पर: 38.4% (स्किल न उपयोग करने वाली baseline 35.4% से सिर्फ 3%p अधिक)
कमजोर मॉडल्स (Kimi, Qwen) के मामले में स्किल्स का उपयोग करने पर प्रदर्शन baseline से भी नीचे गिरने जैसा उल्टा असर देखा गया।

प्रदर्शन गिरने के मुख्य कारण

स्किल चयन में विफलता: customized स्किल मौजूद होने पर भी Claude केवल 49% मामलों में सही स्किल ला पाया
search accuracy की सीमा: top 5 में संबंधित स्किल retrieval rate (Recall@5) अधिकतम 65.5% ही रहा
adaptation क्षमता की कमी: मिलती-जुलती स्किल्स को परिस्थिति के अनुसार ठीक से लागू नहीं कर पाना

सुधार के प्रयास और परिणाम

यदि task-विशिष्ट तरीके से स्किल्स को refine या generate किया जाए, तो Claude का प्रदर्शन 40.1% → 48.2% तक बढ़ा, लेकिन इसके लिए शुरुआती search से मिली स्किल्स का कुछ हद तक प्रासंगिक होना जरूरी था।
Vercel के शोध की तरह केवल AGENTS.md जैसी markdown फ़ाइल को context में जोड़ने का तरीका अधिक स्थिर हो सकता है, ऐसी राय भी सामने आई।

निष्कर्ष और सुझाव

फिलहाल AI एजेंट स्किल्स सिर्फ benchmark में बढ़ा-चढ़ाकर अच्छा प्रदर्शन दिखाती हैं, जबकि वास्तविक उपयोग वातावरण में उनका प्रभाव बहुत सीमित है। खासकर कमजोर मॉडलों में स्किल्स उल्टा बाधा बन सकती हैं।

शोध टीम ने बेहतर search तकनीकों, प्रभावी offline स्किल refinement रणनीतियों, और मॉडल की क्षमता के अनुरूप स्किल ecosystem डिज़ाइन की आवश्यकता पर जोर दिया। शोधपत्र और code GitHub पर सार्वजनिक रूप से उपलब्ध हैं।

संबंधित संदर्भ: https://aisparkup.com/posts/11097

AI एजेंट स्किल्स, बेंचमार्क प्रदर्शन का आधा भी वास्तविक दुनिया में नहीं दिखता

प्रदर्शन गिरने के मुख्य कारण

सुधार के प्रयास और परिणाम

निष्कर्ष और सुझाव

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.