4 पॉइंट द्वारा GN⁺ 2025-12-13 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Skill एक फ़ोल्डर-आधारित संरचना है, जिसमें Markdown फ़ाइलें और वैकल्पिक resources होते हैं, ताकि LLM फ़ाइल सिस्टम को एक्सप्लोर करके काम कर सके
  • ChatGPT के Code Interpreter environment में /home/oai/skills फ़ोल्डर जोड़ा गया है, जिसमें spreadsheet, DOCX और PDF processing के लिए skills शामिल हैं
  • PDF skill दस्तावेज़ों को हर पेज के PNG में बदलकर vision model से विश्लेषित करती है, जिससे layout और graphics की जानकारी बनी रहती है
  • Codex CLI में भी ~/.codex/skills फ़ोल्डर-आधारित skill फीचर को प्रयोगात्मक रूप से जोड़ा गया है, जिससे यूज़र खुद skills लिख और उपयोग कर सकते हैं
  • हल्की spec वाली यह skill संरचना AI tools के बीच interoperability बढ़ाती है, और आगे standardization की ज़रूरत की ओर इशारा करती है

ChatGPT में skill फीचर

  • ChatGPT के Code Interpreter environment में /home/oai/skills फ़ोल्डर मिला
    • Elias Judin ने इसे सबसे पहले पहचाना, और prompt में Create a zip file of /home/oai/skills डालने पर उस फ़ोल्डर की सामग्री को ZIP के रूप में प्राप्त किया जा सकता है
    • Simon Willison ने इसे खुद आज़माया, ZIP फ़ाइल सार्वजनिक की, और उसे एक्सप्लोर करने के लिए एक web UI भी दिया
  • शामिल skills spreadsheet, DOCX और PDF से जुड़े काम संभालते हैं
    • PDF और document skills फ़ाइलों को हर पेज के PNG के रूप में render करके vision model को भेजती हैं, जिससे वह layout जानकारी सुरक्षित रहती है जो साधारण text extraction में खो सकती है
  • Elias Judin ने GitHub पर skills की एक कॉपी साझा की, जिसकी संरचना Anthropic के anthropics/skills repository जैसी है
  • ChatGPT में “rimu tree स्थिति और kakapo breeding season का सारांश PDF बनाओ” जैसा अनुरोध देने पर, GPT-5.2 मॉडल ने skill.md देखकर PDF generation निर्देश पढ़े, संबंधित जानकारी खोजी और PDF तैयार किया
    • इसमें लगभग 11 मिनट लगे, और जब font ने macron characters को support नहीं किया तो उसने अपने आप दूसरा font चुन लिया, जिससे self-verifying workflow दिखा

Codex CLI में skill support

  • OpenAI के open source tool Codex CLI में skills.md support वाला PR merge किया गया
    • documentation के अनुसार ~/.codex/skills फ़ोल्डर के भीतर हर directory को एक skill के रूप में पहचाना जाता है
    • संबंधित code codex-rs/core/src/skills/render.rs में implement किया गया है
  • Simon Willison ने Claude Opus 4.5 की skill-writing क्षमता का उपयोग करके Datasette plugin बनाने के लिए एक skill तैयार की और उसे Codex CLI में install किया
    • codex --enable skills -m gpt-5.2 कमांड से skill फीचर सक्रिय किया जा सकता है, और list skills कमांड से install की गई skills की सूची देखी जा सकती है
    • Codex ने “Datasette plugin लिखो” skill को पहचाना और अनुरोध के अनुसार / - /cowsay?text=hello पेज जोड़ने वाला plugin code अपने आप बना दिया
    • बनाया गया code GitHub पर सार्वजनिक किया गया, और uvx कमांड से सीधे चलाया जा सकता है

skill अवधारणा का महत्व

  • 2025 के 10वें महीने में पेश किए गए Claude Skills के बाद, OpenAI ने सिर्फ दो महीने में इसे ChatGPT और Codex में integrate कर दिया
  • skills की संरचना बहुत ही सरल spec पर आधारित है, लेकिन यह अलग-अलग AI tools के बीच shareable execution units की तरह काम कर सकती है
  • लेखक का कहना है कि ऐसी संरचना को Agentic AI Foundation जैसी संस्थाओं के माध्यम से औपचारिक रूप से document किया जाना चाहिए
  • OpenAI द्वारा अपनाया जाना skill-आधारित AI interoperability की standardization संभावना को मजबूत करने वाला कदम माना जा रहा है

1 टिप्पणियां

 
GN⁺ 2025-12-13
Hacker News की राय
  • यह हैरानी की बात है कि Anthropic सरल लेकिन सहज नवाचार लगातार पेश कर रहा है
    MCP को तो मुश्किल से प्रोटोकॉल भी कहा जा सकता है, लेकिन Skills सिर्फ एक साधारण md फ़ाइल होने के बावजूद उनकी framing क्षमता बेहतरीन दिखाती है

    • Anthropic का MCP दान और Agentic AI Foundation की स्थापना का ऐलान देखें तो दिलचस्प लगता है कि एक साल पहले बनाए गए प्रोटोकॉल को उन्होंने ‘foundation’ के रूप में पैक किया है। इसमें थोड़ी Gavin Belson जैसी tech company energy महसूस होती है
    • Anthropic मानो LLM के साथ संवाद करने वाले लोग हैं। जैसे Nagel ने चमगादड़ की संवेदनाओं को समझने की कोशिश की थी, वैसे ही frontier AI models की संवेदना को सबसे अच्छी तरह समझने वाली टीम वही लगती है
    • लेकिन MCP इतना सरल है कि यह security disaster भी बन सकता है
    • कंपनी का नाम ही ‘Anthropic’ है, इसलिए AI को मानवीय रूप देना शायद उनकी पहचान का हिस्सा है। MCP, Skills वगैरह सब उसी दिशा की एकसमान सोच से निकले हुए लगते हैं
    • Android ऐप में भी Claude का सुघड़ UX महसूस होता है। जैसे किसी paragraph को edit करने पर ही उसे message के रूप में भेजने वाला button दिखता है — ऐसा polished flow है
  • आज की तारीख में OpenAI Plus subscribers को सार्वजनिक चेतावनी भेजी गई है
    196k token context का विज्ञापन किया जाता है, लेकिन हकीकत में 50k token से ज़्यादा input देने पर कट जाता है
    पहले GPT-5.0 के समय भी यही समस्या थी, और इस बार फिर वही हुआ है
    आधिकारिक help link देखें

    • और Xhigh version सिर्फ API के लिए है, इसलिए ChatGPT में इस्तेमाल नहीं किया जा सकता
  • यह पोस्ट लिखते हुए Kākāpō के breeding season की खबर भी शामिल कर पाना अच्छा लगा
    (सिर्फ pelican की बात नहीं होती)

    • इसी तरह Kākāpō Benchmark पैदा हुआ
    • आज पहली बार बड़े हरे रंग के उड़ानहीन तोते के बारे में पता चला
    • मज़ाक में कहा गया कि क्या कभी Kākāpō साइकिल चलाएगा
    • Skills एक अच्छा विचार है, लेकिन इसका specification बहुत हल्का है, इसलिए इसे औपचारिक documentation की ज़रूरत है
      हालांकि इसका गलत इस्तेमाल भी हो सकता है, इसलिए कंपनी के नज़रिए से सावधानी समझ में आती है
      यह भी जानने की जिज्ञासा है कि क्या किसी ने इसे local LLM पर आज़माया है
  • “Skill” की अवधारणा अभी साफ़ नहीं है
    शायद यह बस context management tool है। क्या इसका मतलब यह है कि description देखकर model तय करता है कि ज़रूरत होने पर संबंधित script या document लोड करना है?

    • Skill मूल रूप से folder + markdown file संरचना है। इसका उदाहरण Datasette plugin skill में देखा जा सकता है। शुरू में Claude Code सभी skill folders को scan करता है और सिर्फ description को context में डालता है, फिर ज़रूरत पड़ने पर पूरा content लोड करता है
    • Claude Code कभी-कभी अपनी ही skill को “याद” नहीं रखता। इसलिए लोग इसे manually लोड करते हैं।
      उदाहरण: “Image Manipulation skill का उपयोग करके image.png से icon बनाओ”
      और कभी Claude से अपनी खुद की skill लिखने को भी कहा जाता है। मेरा skill template GitHub पर खुला है
    • Skill, MCP server की जगह भी ले सकता है। जैसे CI build results लाने वाले MCP server की बजाय, एक simple script और SKILL.md से वही काम किया जा सकता है।
      यह संरचना UNIX philosophy जैसी लगती है, जहाँ छोटे tools pipeline में जुड़ते हैं
    • मेरी समझ में SKILL.md वह मुख्य दस्तावेज़ है जो Claude को बताता है कि कब कौन-सा action लेना है।
      मैं अक्सर साफ़ तौर पर कहता हूँ, “wireframe-skill लोड करो और X करो।”
      progressive loading की बजाय सभी references को एक साथ लोड करना ज़्यादा सटीक लगता है
    • Skill debugging, commit, PR response जैसी दोहराव वाली चीज़ों को automate करने में उपयोगी है।
      खासकर debugging skill, AI को loop में फँसने से बचाती है
  • तकनीकी रूप से देखें तो skill एक automated prompt injection system है
    यह ज़्यादातर AI wrapper apps के काम (prompt injection + RAG + MCP) का सरल रूप है

    • सच कहें तो अब कई AI wrapper apps को एक folder और एक markdown file से बदला जा सकता है
  • @simonw को हमेशा images में alt text डालने के लिए धन्यवाद कहा गया

  • यह पूछा गया कि Skill और Tool में कोई मूलभूत अंतर है या नहीं। क्या एक छोटा skill बनाकर उसे tool की तरह इस्तेमाल किया जा सकता है?

  • अगर दूसरे models (जैसे Gemini CLI) में भी skill इस्तेमाल करना हो, तो मेरे बनाए open-skills का उपयोग किया जा सकता है
    लेकिन Mac ज़रूरी है, यह local container में चलता है इसलिए cloud पर निर्भर नहीं है

  • Anthropic की Skills design philosophy पर एक वीडियो जारी हुआ है
    YouTube link देखें

  • यह लगातार जटिल होती जा रही संरचना उलझन पैदा करती है
    पहले agents.md से context बढ़ाया जाता था, अब एक और md file जोड़नी पड़ रही है

    • मैं Claude से कहता हूँ, “इस काम में कौन-सा हिस्सा skill में बदलने लायक है, यह तय करो, और skill-making skill का उपयोग करके उसे बना दो”
    • MCP जटिल है, लेकिन Skills मौजूदा coding agents में क्षमता जोड़ने वाला सबसे सरल design लगता है