SkillsBench: विभिन्न कार्यों में एजेंट स्किल्स के प्रदर्शन का मूल्यांकन करने वाला बेंचमार्क

(arxiv.org)

3 पॉइंट द्वारा GN⁺ 2026-02-18 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

बड़े भाषा मॉडल (LLM) आधारित एजेंटों की स्किल्स(Agent Skills) की प्रभावशीलता का मात्रात्मक मूल्यांकन करने के लिए यह पहला बेंचमार्क है, जिसमें 11 डोमेन के 84 कार्य शामिल हैं
हर कार्य का मूल्यांकन तीन शर्तों में किया जाता है: स्किल्स के बिना, क्यूरेटेड स्किल्स के साथ, और स्वयं-जनित स्किल्स के साथ; कुल 7,308 execution trajectories एकत्र किए गए
क्यूरेटेड स्किल्स ने औसतन +16.2%p प्रदर्शन सुधार दिखाया, लेकिन डोमेन-वार अंतर बड़ा था और कुछ कार्यों (84 में से 16) में प्रदर्शन उल्टा गिर गया
स्वयं-जनित स्किल्स(Self-generated Skills) औसतन प्रभावी नहीं रहे, जिससे पता चलता है कि मॉडल स्वयं procedural knowledge को स्थिर रूप से उत्पन्न नहीं कर पाते
छोटे और फोकस्ड स्किल मॉड्यूल (2–3 घटक) व्यापक दस्तावेज़-आधारित स्किल्स की तुलना में अधिक प्रभावी रहे, और स्किल्स का उपयोग करने वाले छोटे मॉडल ने बिना स्किल्स वाले बड़े मॉडल जैसा प्रदर्शन हासिल किया

SKILLSBENCH अवलोकन

SKILLSBENCH, LLM एजेंटों में स्किल augmentation के प्रभाव का मूल्यांकन करने के लिए बनाया गया बेंचमार्क है, और यह Harbor framework पर आधारित है
- हर कार्य में container environment, deterministic validator, और reference answer (oracle) शामिल हैं
- स्किल्स लागू होने या न होने की स्थिति में एक ही कार्य को बार-बार चलाकर स्किल्स के शुद्ध प्रभाव को मापा जाता है
जहाँ मौजूदा बेंचमार्क सिर्फ मॉडल की मूल क्षमता का मूल्यांकन करते थे, SKILLSBENCH सीधे स्किल्स का प्रदर्शन पर प्रभाव मापता है

स्किल्स(Agent Skills) की परिभाषा और संरचना

स्किल्स, procedural knowledge को समाहित करने वाला structured package हैं, जो मॉडल में बदलाव किए बिना inference के समय एजेंट के व्यवहार का विस्तार करते हैं
- घटक: SKILL.md(कार्य तक पहुँचने की प्रक्रिया), executable scripts, code templates, examples आदि
स्किल्स को निम्नलिखित चार मानदंड पूरे करने चाहिए
- procedural content शामिल हो
- एकल उदाहरण नहीं, बल्कि task class स्तर पर लागू हो
- structured components शामिल हों
- file-system आधारित होने से portability सुनिश्चित हो
system prompts, few-shot examples, RAG retrieval, और tool documentation को स्किल्स नहीं माना जाता

कार्य(Task) संरचना और dataset निर्माण

हर कार्य चार तत्वों से बना है: निर्देश, environment, answer, validator
- environment को Docker containers में isolate किया जाता है ताकि reproducibility सुनिश्चित हो
- validator deterministic test scripts के ज़रिए pass/fail का स्वतः निर्णय करता है
105 contributors ने 322 candidate tasks जमा किए, जिनमें से automatic validation और human review के बाद अंतिम 84 कार्य चुने गए
contributors को निम्न आवश्यकताएँ पूरी करनी थीं
- मनुष्य द्वारा लिखे गए निर्देश (LLM-जनित नहीं)
- स्किल्स को किसी विशेष कार्य के answer की जगह procedural guidance देनी चाहिए
- सभी validation deterministic (assertion-based) तरीके से होने चाहिए
- automatic structure validation, oracle execution, AI generation detection, और leakage audit पास करना आवश्यक था
leakage रोकने के लिए स्किल्स में कार्य-विशिष्ट file names, constants, test references आदि होने पर उन्हें अस्वीकार कर दिया जाता था

बेंचमार्क संरचना और कठिनाई वर्गीकरण

SKILLSBENCH में 11 डोमेन (software, healthcare, finance, robotics आदि) के 84 कार्य शामिल हैं
कठिनाई को मानव द्वारा लगने वाले समय के आधार पर तीन स्तरों में बाँटा गया है
- Core (60 मिनट से कम): 17
- Extended (1–4 घंटे): 43
- Extreme (4 घंटे से अधिक): 26

प्रयोग सेटअप

तीन commercial agent harnesses का मूल्यांकन: Claude Code, Gemini CLI, Codex CLI
सात मॉडल उपयोग किए गए: GPT-5.2, Claude Opus 4.5/4.6, Claude Sonnet 4.5, Claude Haiku 4.5, Gemini 3 Pro, Gemini 3 Flash
तीन स्थितियों में मूल्यांकन
- No Skills: बिना स्किल्स
- With Skills: क्यूरेटेड स्किल्स के साथ
- Self-Generated Skills: मॉडल द्वारा स्वयं बनाई गई स्किल्स के साथ
कुल 7,308 वैध execution trajectories एकत्र किए गए

मूल्यांकन मापदंड

pass rate को मूल metric के रूप में उपयोग किया गया
normalized gain की अतिरिक्त गणना की गई ताकि absolute improvement और relative improvement दोनों का विश्लेषण किया जा सके
हर कार्य को 5 बार दोहराने के बाद औसत स्कोर निकाला गया

मुख्य परिणाम

क्यूरेटेड स्किल्स ने औसतन +16.2%p सुधार दिखाया, और configuration के अनुसार यह +13.6~+23.3%p के दायरे में रहा
- डोमेन-वार अंतर काफी बड़ा था; healthcare (+51.9%p) में सबसे अधिक सुधार और software engineering (+4.5%p) में सबसे कम
- 84 में से 16 कार्यों में प्रदर्शन गिरा
स्वयं-जनित स्किल्स औसतन अप्रभावी रहे या उनका नकारात्मक प्रभाव पड़ा
- मॉडल स्वयं procedural knowledge को स्थिर रूप से उत्पन्न नहीं कर पाए
फोकस्ड स्किल्स (2~3 मॉड्यूल) व्यापक दस्तावेज़-आधारित स्किल्स की तुलना में अधिक कुशल रहीं
छोटे मॉडल + स्किल्स संयोजन ने बिना स्किल्स वाले बड़े मॉडल के समान प्रदर्शन हासिल किया

निष्कर्ष

SKILLSBENCH, स्किल-केंद्रित मूल्यांकन ढाँचा प्रदान करता है और यह मात्रात्मक रूप से दिखाता है कि स्किल्स, LLM एजेंटों की वास्तविक task performance को कैसे प्रभावित करती हैं
परिणाम दिखाते हैं कि स्किल डिज़ाइन की गुणवत्ता और डोमेन उपयुक्तता प्रदर्शन सुधार के लिए निर्णायक हैं
भविष्य के शोध में स्किल्स के structural design principles और automatic generation की सीमाओं को समझने के लिए यह एक आधारभूत संसाधन बन सकता है

SkillsBench: विभिन्न कार्यों में एजेंट स्किल्स के प्रदर्शन का मूल्यांकन करने वाला बेंचमार्क

SKILLSBENCH अवलोकन

स्किल्स(Agent Skills) की परिभाषा और संरचना

कार्य(Task) संरचना और dataset निर्माण

बेंचमार्क संरचना और कठिनाई वर्गीकरण

प्रयोग सेटअप

मूल्यांकन मापदंड

मुख्य परिणाम

निष्कर्ष

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.