- बड़े भाषा मॉडल (LLM) आधारित एजेंटों की स्किल्स(Agent Skills) की प्रभावशीलता का मात्रात्मक मूल्यांकन करने के लिए यह पहला बेंचमार्क है, जिसमें 11 डोमेन के 84 कार्य शामिल हैं
- हर कार्य का मूल्यांकन तीन शर्तों में किया जाता है: स्किल्स के बिना, क्यूरेटेड स्किल्स के साथ, और स्वयं-जनित स्किल्स के साथ; कुल 7,308 execution trajectories एकत्र किए गए
- क्यूरेटेड स्किल्स ने औसतन +16.2%p प्रदर्शन सुधार दिखाया, लेकिन डोमेन-वार अंतर बड़ा था और कुछ कार्यों (84 में से 16) में प्रदर्शन उल्टा गिर गया
- स्वयं-जनित स्किल्स(Self-generated Skills) औसतन प्रभावी नहीं रहे, जिससे पता चलता है कि मॉडल स्वयं procedural knowledge को स्थिर रूप से उत्पन्न नहीं कर पाते
- छोटे और फोकस्ड स्किल मॉड्यूल (2–3 घटक) व्यापक दस्तावेज़-आधारित स्किल्स की तुलना में अधिक प्रभावी रहे, और स्किल्स का उपयोग करने वाले छोटे मॉडल ने बिना स्किल्स वाले बड़े मॉडल जैसा प्रदर्शन हासिल किया
SKILLSBENCH अवलोकन
- SKILLSBENCH, LLM एजेंटों में स्किल augmentation के प्रभाव का मूल्यांकन करने के लिए बनाया गया बेंचमार्क है, और यह Harbor framework पर आधारित है
- हर कार्य में container environment, deterministic validator, और reference answer (oracle) शामिल हैं
- स्किल्स लागू होने या न होने की स्थिति में एक ही कार्य को बार-बार चलाकर स्किल्स के शुद्ध प्रभाव को मापा जाता है
- जहाँ मौजूदा बेंचमार्क सिर्फ मॉडल की मूल क्षमता का मूल्यांकन करते थे, SKILLSBENCH सीधे स्किल्स का प्रदर्शन पर प्रभाव मापता है
स्किल्स(Agent Skills) की परिभाषा और संरचना
- स्किल्स, procedural knowledge को समाहित करने वाला structured package हैं, जो मॉडल में बदलाव किए बिना inference के समय एजेंट के व्यवहार का विस्तार करते हैं
- घटक:
SKILL.md(कार्य तक पहुँचने की प्रक्रिया), executable scripts, code templates, examples आदि
- स्किल्स को निम्नलिखित चार मानदंड पूरे करने चाहिए
- procedural content शामिल हो
- एकल उदाहरण नहीं, बल्कि task class स्तर पर लागू हो
- structured components शामिल हों
- file-system आधारित होने से portability सुनिश्चित हो
- system prompts, few-shot examples, RAG retrieval, और tool documentation को स्किल्स नहीं माना जाता
कार्य(Task) संरचना और dataset निर्माण
- हर कार्य चार तत्वों से बना है: निर्देश, environment, answer, validator
- environment को Docker containers में isolate किया जाता है ताकि reproducibility सुनिश्चित हो
- validator deterministic test scripts के ज़रिए pass/fail का स्वतः निर्णय करता है
- 105 contributors ने 322 candidate tasks जमा किए, जिनमें से automatic validation और human review के बाद अंतिम 84 कार्य चुने गए
- contributors को निम्न आवश्यकताएँ पूरी करनी थीं
- मनुष्य द्वारा लिखे गए निर्देश (LLM-जनित नहीं)
- स्किल्स को किसी विशेष कार्य के answer की जगह procedural guidance देनी चाहिए
- सभी validation deterministic (assertion-based) तरीके से होने चाहिए
- automatic structure validation, oracle execution, AI generation detection, और leakage audit पास करना आवश्यक था
- leakage रोकने के लिए स्किल्स में कार्य-विशिष्ट file names, constants, test references आदि होने पर उन्हें अस्वीकार कर दिया जाता था
बेंचमार्क संरचना और कठिनाई वर्गीकरण
- SKILLSBENCH में 11 डोमेन (software, healthcare, finance, robotics आदि) के 84 कार्य शामिल हैं
- कठिनाई को मानव द्वारा लगने वाले समय के आधार पर तीन स्तरों में बाँटा गया है
- Core (60 मिनट से कम): 17
- Extended (1–4 घंटे): 43
- Extreme (4 घंटे से अधिक): 26
प्रयोग सेटअप
- तीन commercial agent harnesses का मूल्यांकन: Claude Code, Gemini CLI, Codex CLI
- सात मॉडल उपयोग किए गए: GPT-5.2, Claude Opus 4.5/4.6, Claude Sonnet 4.5, Claude Haiku 4.5, Gemini 3 Pro, Gemini 3 Flash
- तीन स्थितियों में मूल्यांकन
- No Skills: बिना स्किल्स
- With Skills: क्यूरेटेड स्किल्स के साथ
- Self-Generated Skills: मॉडल द्वारा स्वयं बनाई गई स्किल्स के साथ
- कुल 7,308 वैध execution trajectories एकत्र किए गए
मूल्यांकन मापदंड
- pass rate को मूल metric के रूप में उपयोग किया गया
- normalized gain की अतिरिक्त गणना की गई ताकि absolute improvement और relative improvement दोनों का विश्लेषण किया जा सके
- हर कार्य को 5 बार दोहराने के बाद औसत स्कोर निकाला गया
मुख्य परिणाम
- क्यूरेटेड स्किल्स ने औसतन +16.2%p सुधार दिखाया, और configuration के अनुसार यह +13.6~+23.3%p के दायरे में रहा
- डोमेन-वार अंतर काफी बड़ा था; healthcare (+51.9%p) में सबसे अधिक सुधार और software engineering (+4.5%p) में सबसे कम
- 84 में से 16 कार्यों में प्रदर्शन गिरा
- स्वयं-जनित स्किल्स औसतन अप्रभावी रहे या उनका नकारात्मक प्रभाव पड़ा
- मॉडल स्वयं procedural knowledge को स्थिर रूप से उत्पन्न नहीं कर पाए
- फोकस्ड स्किल्स (2~3 मॉड्यूल) व्यापक दस्तावेज़-आधारित स्किल्स की तुलना में अधिक कुशल रहीं
- छोटे मॉडल + स्किल्स संयोजन ने बिना स्किल्स वाले बड़े मॉडल के समान प्रदर्शन हासिल किया
निष्कर्ष
- SKILLSBENCH, स्किल-केंद्रित मूल्यांकन ढाँचा प्रदान करता है और यह मात्रात्मक रूप से दिखाता है कि स्किल्स, LLM एजेंटों की वास्तविक task performance को कैसे प्रभावित करती हैं
- परिणाम दिखाते हैं कि स्किल डिज़ाइन की गुणवत्ता और डोमेन उपयुक्तता प्रदर्शन सुधार के लिए निर्णायक हैं
- भविष्य के शोध में स्किल्स के structural design principles और automatic generation की सीमाओं को समझने के लिए यह एक आधारभूत संसाधन बन सकता है
अभी कोई टिप्पणी नहीं है.