Garry Tan का "Skillify" — AI एजेंट की विफलता को स्थायी संरचनात्मक सुधार में बदलने की कार्यप्रणाली

(x.com/garrytan)

36 पॉइंट द्वारा ragingwind 9 일 전 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

Y Combinator के प्रमुख Garry Tan द्वारा अपने AI एजेंट संचालन अनुभव के आधार पर प्रस्तावित "Skillify" नाम की एजेंट गुणवत्ता प्रबंधन कार्यप्रणाली पर यह लेख है। 160 मिलियन डॉलर जुटाने वाले LangChain जैसे framework टेस्ट tools तो देते हैं, लेकिन "क्या और किस क्रम में टेस्ट करना है" जैसी workflow अनुपस्थित है—यही इस लेख की मूल समस्या-चेतना है। Tan एक 10-स्टेप checklist पेश करते हैं, जिसमें एजेंट की गलती को एकबारगी prompt सुधार के बजाय Markdown skill file, deterministic script और automated tests से बने स्थायी ढांचे में बदला जाता है.

मुख्य अवधारणाएँ

Skillify क्या है: जब एजेंट की विफलता होती है, तो उस विफलता को ऐसा "skill" (Markdown प्रक्रिया-दस्तावेज़ + deterministic script + test) में बदलना, जिससे वही गलती दोबारा पुनरुत्पादित न हो सके। बातचीत के दौरान "skillify it" कहने पर एजेंट यह 10-स्टेप process अपने-आप चलाता है।
Latent vs. Deterministic विभाजन: जिन कामों में निर्णय की ज़रूरत है (latent, LLM reasoning क्षेत्र) और जिनमें precision चाहिए (deterministic, code execution क्षेत्र), उन्हें साफ़-साफ़ अलग किया जाता है। timezone calculation या calendar search जैसे काम, जिनका उत्तर code तुरंत दे सकता है, उन्हें LLM का "दिमाग में" करके गलत करना—इसे Tan मुख्य bug मानते हैं।
10-स्टेप checklist: SKILL.md लिखना, deterministic script लिखना, unit test (vitest), integration test, LLM evaluation (LLM-as-judge), resolver trigger registration, resolver evaluation, reachability/duplication audit, E2E smoke test, और brain filing rules—इन सबमें पास होने पर ही उसे "skill" माना जाता है।

वास्तविक उदाहरण

10 साल पहले के Singapore business trip schedule के बारे में पूछने पर एजेंट ने 5 मिनट तक live API call किए, फिर बाद में पाया कि वही डेटा local में पहले से indexed 3,146 calendar files से तुरंत मिल सकता था
"अगली मीटिंग 28 मिनट बाद" कहने का मामला, जबकि असल में 88 मिनट बाद थी — UTC से PT timezone conversion को LLM ने मानसिक गणना से किया और पूरे 1 घंटे की गलती कर दी
दोनों मामलों में मौजूदा script (100ms के भीतर चलने वाली) के पास सही उत्तर था, लेकिन एजेंट ने script चलाने के बजाय reasoning चुना—यही मूल कारण था

अंतरकारी बिंदु

जहाँ LangChain सिर्फ़ "test tools का संग्रह" देता है, Skillify "failure → skill → test → permanent fix" जैसी स्पष्ट राय वाली workflow खुद प्रस्तुत करता है। अगर framework सिर्फ़ gym membership देता है, तो Skillify exercise routine chart जैसा है।
Nous Research के Hermes Agent के बारे में Tan कहते हैं कि वह skill auto-generation तो अच्छी तरह करता है, लेकिन tests न होने से समय के साथ skill सड़ जाते हैं; इसलिए "generation + verification" दोनों ज़रूरी हैं।

निहितार्थ

software engineering में "हर bug के साथ regression test जोड़ो" का सिद्धांत 2005 में ही स्थापित हो चुका था, लेकिन AI agent क्षेत्र अभी उस स्तर तक नहीं पहुँचा है। एजेंट skill भी codebase की तरह हैं—tests के बिना वे भी सड़ते हैं—यह दृष्टिकोण पूरे industry के लिए एक अहम चेतावनी की तरह पढ़ा जा सकता है।
40 से अधिक skills चलाने के दौरान 15% का resolver में register न होना और "अंधेरे में पड़ी functionality" बन जाना दिखाता है कि जैसे-जैसे agent system scale होता है, discoverability management एक अनिवार्य चुनौती बन जाती है।

Garry Tan का "Skillify" — AI एजेंट की विफलता को स्थायी संरचनात्मक सुधार में बदलने की कार्यप्रणाली

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.