LLM विस्तार के कड़वे सबक

(sawyerhood.com)

23 पॉइंट द्वारा GN⁺ 2025-11-28 | 1 टिप्पणियां | WhatsApp पर शेयर करें

पिछले 3 वर्षों में LLM विस्तार के तरीकों का विकास plugins, user instructions, memory, protocol, skills जैसी कई रूपों में आगे बढ़ा
शुरुआती ChatGPT Plugins ने API calls के ज़रिए general-purpose tools के उपयोग की कोशिश की, लेकिन model limitations और जटिल UX के कारण असफल रहे
इसके बाद Custom Instructions और Custom GPTs आए, जिन्होंने सरल prompt-based personalization और shareable customized model structure दी
Model Context Protocol(MCP) और Claude Code ने जटिल लेकिन शक्तिशाली tool integration को संभव बनाया, और हाल में Agent Skills ने इसे एक सरल रूप में फिर से जीवित किया
अंततः general-purpose tools और natural language instructions के साथ काम करने वाली agent architecture ही LLM विस्तार की मुख्य दिशा बन सकती है

LLM विस्तार का इतिहास और बदलाव

LLM के उपयोग का तरीका साधारण text input से आगे बढ़कर codebase·browser control agents तक विकसित हुआ
- user customization को कैसे support किया जाए, यह एक मुख्य चुनौती बनकर उभरा
- साधारण system prompt से लेकर जटिल client-server protocol तक कई तरह के approaches आज़माए गए

ChatGPT Plugins (मार्च 2023)

OpenAI ने ChatGPT Plugins पेश किए, जिन्हें OpenAPI spec के ज़रिए LLM द्वारा REST endpoints call करने के लिए डिज़ाइन किया गया था
- लक्ष्य AGI स्तर के general-purpose tool use की ओर बढ़ना था
लेकिन GPT-3.5 और शुरुआती GPT-4 की सीमाओं के कारण बड़े API specs को explore करते समय errors और context loss हुआ
- plugins को manually enable करना जैसी असुविधाजनक UX भी समस्या थी
फिर भी Code Interpreter(बाद में Advanced Data Analysis) plugin ने एक शक्तिशाली sandbox execution environment की संभावना दिखाई

Custom Instructions (जुलाई 2023)

plugins की जटिलता को घटाने वाला सरल user-defined prompt feature
- यह हर conversation में अपने-आप जुड़ जाता था, जिससे बार-बार context set करने की समस्या हल हुई
बाद में इसने .cursorrules, CLAUDE.md जैसे development environment rule files के पूर्वज की भूमिका निभाई

Custom GPTs (नवंबर 2023)

OpenAI ने Custom GPTs के ज़रिए prompt engineering को productize किया
- persona, files, actions को जोड़कर shareable customized GPT links बनाए जा सकते थे
यह plugins के खुले approach से हटकर single-purpose app form की ओर वापसी थी

Memory in ChatGPT (फ़रवरी 2024)

automatic personalization feature में बदला पहला उदाहरण
- बातचीत के दौरान बताई गई जानकारी को याद रखकर बाद के context में अपने-आप शामिल किया जाता था
- बिना user द्वारा सीधे सेट किए भी long-term state बनाए रखने वाली persistent agent architecture की शुरुआत

Cursor Rules (अप्रैल 2024)

Cursor IDE ने .cursorrules फ़ाइल के ज़रिए repository-level instruction management शुरू किया
- उदाहरण: “tabs का उपयोग”, “semicolon नहीं”, “TypeScript का उपयोग” आदि
बाद में यह .cursor/rules folder structure तक बढ़ा, जिससे file-wise और directory-wise rules लागू करना संभव हुआ
यह क्षमता भी जोड़ी गई कि LLM कब rules लागू करने हैं, इसका फैसला खुद करे

Model Context Protocol (MCP, नवंबर 2024)

Anthropic द्वारा पेश MCP ने model को real tools का स्थिर रूप से उपयोग करने वाला ढांचा दिया
- यह client-server connection बनाए रखते हुए tool definitions, resources और prompts का आदान-प्रदान करता है
यह सिर्फ context जोड़ने का तरीका नहीं, बल्कि वास्तविक capabilities देने वाला ढांचा था
- उदाहरण: repository पढ़ना, DB query, Vercel deployment
जटिलता और setup burden ज़्यादा है, लेकिन यह ChatGPT Apps(अक्टूबर 2025 में घोषित) की आधार परत के रूप में उपयोग हुआ

Claude Code और विस्तार तंत्र (फ़रवरी 2025)

Claude Code एक ऐसा agent है जो कई विस्तार तरीकों को एक साथ जोड़ता है
- CLAUDE.md के माध्यम से repository instructions manage करता है
- MCP के ज़रिए tools integrate करता है
- Slash Commands, Hooks, Sub-agents, Output Styles(जल्द समाप्त होने वाला) आदि को support करता है
कुछ features का भविष्य अनिश्चित है, लेकिन इसे agent विस्तार के एक प्रयोगात्मक integrated model के रूप में देखा जाता है

Agent Skills (अक्टूबर 2025)

ChatGPT Plugins के पुनर्जन्म जैसे रूप में, यह जटिल protocol के बिना folder-based skill structure का उपयोग करता है
- skills/ directory के अंदर SKILL.md, scripts और example files होते हैं
- ज़रूरत पड़ने पर ही पूरा content पढ़ा जाता है, जिससे context bloat की समस्या कम होती है
उदाहरण: Playwright आधारित web app testing skill
- SKILL.md में metadata और usage instructions शामिल होते हैं
- scripts सीधे execute होते हैं, और LLM को code content को बेवजह context में load नहीं करना पड़ता
यह general-purpose computer access को आधार मानता है, और specialized tools से अधिक general-purpose tools पर भरोसा करने वाला approach इसकी कुंजी है

भविष्य की दिशा

Agent Skills ने शुरुआती plugins के आदर्श को व्यवहारिक रूप दिया
- model अब इतना सक्षम हो रहा है कि सिर्फ general tools और instructions से काम कर सके
agent को अब साधारण LLM loop नहीं, बल्कि computer के साथ जुड़े execution entity के रूप में फिर से परिभाषित किया जा रहा है
- उदाहरण: Claude Code, Zo Computer आदि LLM और computer के integrated form हैं
2026 के बाद LLM applications के computer-embedded agent architecture के रूप में फैलने की संभावना है
निष्कर्षतः, जटिल protocol(MCP) की तुलना में natural language आधारित विस्तार फिर से केंद्र में लौट सकता है

1 टिप्पणियां

GN⁺ 2025-11-28

Hacker News राय

मेरा मानना है कि प्राकृतिक भाषा इतनी अस्पष्ट होती है कि उसे प्रोग्रामिंग भाषा तक स्केल करना अक्षम है
गणित के पास अपना डोमेन-विशिष्ट भाषा होने का कारण ही स्पष्टता सुनिश्चित करना है
- मैंने पहले टेक्निकल कम्युनिकेशन का काम किया है, और प्राकृतिक भाषा को भी बार-बार पढ़ना–सुधारना–पुनरावलोकन लूप से काफ़ी सटीक बनाया जा सकता है
  अंग्रेज़ी में यह झंझटभरा है, लेकिन आदत हो जाए तो अस्पष्टता कम की जा सकती है
- इसलिए मुझे लगता है कि स्पेसिफिकेशन को क्रमिक रूप से मज़बूत करने वाला progressive hardening ज़रूरी है
  संबंधित अवधारणा इस दस्तावेज़ में अच्छी तरह समझाई गई है
मुझे लगता है Skills वह अवधारणा है जिसने ChatGPT Plugins के सपने को वास्तविकता बना दिया
अब मॉडल इतने स्मार्ट हो गए हैं कि यह सच में काम कर सकता है
Simon Willison ने भी इस लेख में कहा कि Skills, MCP से बड़ा बदलाव है, लेकिन अभी MCP की जड़ता के कारण शायद इसे कम ध्यान मिल रहा है
- Skills कम रोचक इसलिए लगते हैं क्योंकि वे असल में चयनात्मक रूप से लोड होने वाले documentation जैसे हैं
  लेकिन MCP में जो जटिल scaffolding चाहिए होती है, उसे हटाने के लिहाज़ से इसका महत्व कहीं ज़्यादा है
  उदाहरण के लिए, Fathom अकाउंट के transcripts प्रोसेस करते समय मुझे बस एक CLI script बनानी थी और SKILL.md लिखना था
  client API testing भी मैंने इसी तरह हल की
  लेकिन यह तरीका कम चमकदार है, और बड़े पैमाने की tooling बनाने की गुंजाइश कम देता है, इसलिए शायद कम चर्चा में है
- आजकल LLM fatigue बढ़ गया है, इसलिए लोग Skills को लेकर कम उत्साहित लगते हैं
  ऊपर से Skills ऐसे agent को मानकर चलते हैं जो मनमाना code execution कर सके, इसलिए प्रवेश बाधा भी ऊँची है
- अभी भी समझ नहीं आता कि Skills directory में ऐसा क्या खास है
  मैं पहले से Claude Code से “X पढ़ो और Y कर दो” कहता आया हूँ, तो Skills उससे अलग कैसे हैं, यह जानना चाहता हूँ
- Claude Skills का sandbox execution बहुत अक्षम है
  काम को ट्रैक करने के लिए I/O और print statements पर निर्भर रहना पड़ता है, जो काफ़ी खीज पैदा करता है
- Skills मुझे MCP के end-user version जैसे लगते हैं
  MCP सिस्टम बनाने के लिए है, जबकि Skills सिर्फ Claude के लिए हैं, इसलिए lock-in काफ़ी ज़्यादा है
  Skills के बीच reference या composition न हो पाना भी बड़ी सीमा है
  आख़िरकार scalability, reusability, remote usage जैसी समस्याएँ सुलझाते-सुलझाते शायद फिर MCP पर लौटना पड़ेगा
  हालाँकि अगर Skills, MCP के एक अलग view के रूप में जगह बना लें, तो आगे चलकर Skill→MCP converter जैसी चीज़ भी आ सकती है
मुझे समझ नहीं आता कि मॉडल के सुधर जाने का Bitter Lesson से क्या संबंध है
अभी भी ढाँचा यही है कि मानवीय विशेषज्ञता डालकर मॉडल की सीमाओं की भरपाई की जाए
असली Bitter Lesson तो तब होगी जब बिना मानवीय हस्तक्षेप सिर्फ compute resources बढ़ाकर बेहतर नतीजे मिलें
- मैं भी यही सोचकर क्लिक किया था कि लेख का विषय यही होगा
Custom GPTs पुरानी अवधारणा हैं, लेकिन हाल में मुझे उनका एक व्यावहारिक उपयोग मिला
मैंने अपनी पत्नी की meeting notes और to-do management के लिए Notion API से जुड़ा एक Custom GPT बनाया, और कुछ ही घंटों में वह काफ़ी उपयोगी साबित हुआ
Reminders app के साथ integration करने की कोशिश की, लेकिन API सीमाओं और UI permission समस्याओं के कारण आख़िरकार मुझे खुद MCP server बनाना पड़ा
मैंने एक पुराने MacBook Pro पर Amphetamine चालू रखा और Tailnet व Cloudflare tunnel से जोड़कर उसे ChatGPT से access योग्य बनाया
यह जटिल है, लेकिन AI agent को एक केंद्रीय hub की तरह रखना काफ़ी मूल्यवान लगा
संबंधित implementation इस ब्लॉग में संक्षेपित है
ChatGPT 5.1 अब भी मौजूद न होने वाले API hallucinate करता है, लेकिन फिर भी धीरे-धीरे बेहतर हो रहा है
जैसे हर बार जब इंसानों की सूचना-प्रसंस्करण क्षमता सुधरी, दुनिया बदली, वैसे ही LLM अगर सही उत्तर की संभावना भर बढ़ा दें तो दुनिया फिर बदल जाएगी
“मैं MCP को short करना चाहता हूँ” वाली बात से सहमत हूँ
MCP से निपटना कठिन है, लेकिन दुनिया में ऐसे बहुत से काम हैं जिन्हें safe interface चाहिए
शुरुआती डिज़ाइन जटिल इसलिए था क्योंकि उसने streaming token processing की वास्तविकता को जस का तस उजागर कर दिया
यह जटिल है, लेकिन फिर भी मुझे लगता है कि यह अब भी काम करने योग्य सरल सिस्टम की सीमा-रेखा पर है
इसे पूरी तरह बदला नहीं जा सकेगा, और जब तक मॉडल agent environment को ठीक से संभालना नहीं सीखते, MCP जैसी संरचना कुछ समय तक ज़रूरी रहेगी
- MCP आखिरकार एक और self-describing API format ही है
  आजकल के मॉडल साधारण API description से भी काफ़ी अच्छी तरह interact कर लेते हैं
  अगर API पहले से मौजूद है, तो अलग से MCP server बनाने का कारण कम हो जाता है
- MCP कठिन है, यह बात मेरी समझ में नहीं आती
  implementation तो बस JSON-RPC + API स्तर का सीधा-सादा काम है
  Python FastMCP का hello-world उदाहरण Flask version से लगभग एक जैसा है
- लगता है MCP अपने समय से पहले आ गया था
  Skills उसी की प्रतिक्रिया के रूप में आए हैं, और आगे शायद यह LLM space और code space के self-assembling structure की ओर बढ़ेगा
- MCP बस एक और middleware story है, और ऐसी चीज़ें हमेशा विफल होती आई हैं
Skills.md को भी अंततः MCP की तरह context bloat की समस्या झेलनी पड़ेगी
बेहतर होगा कि विवरण छोड़कर सिर्फ scripts रखी जाएँ, और LLM को इस तरह प्रशिक्षित किया जाए कि वह फ़ोल्डर के भीतर ज़रूरी चीज़ें खोज ले
- मुझे लगता है यह हल किया जा सकने वाला engineering problem है
  उदाहरण के लिए, Skills को पढ़ने और चुनने के लिए एक lightweight sub-agent रखा जा सकता है
इस महीने घोषित ChatGPT Apps मुझे 3 साल पहले के ChatGPT Plugin जैसे ही लगते हैं
फ़र्क बस plugin invocation के तरीके का है — पहले dropdown से चुनते थे, अब prompt में नाम लिखना होता है
उपयोगकर्ता के नज़रिए से बड़ा अंतर नहीं दिखता
मैं prompts को probabilistic programs की तरह देखता हूँ, और उन्हें invoke करने के लिए एक समर्पित shell की ज़रूरत मानता हूँ
Claude Code या Codex जैसे coding agents इसके उदाहरण हैं
मैं इस पर शोध कर रहा हूँ कि ऐसे फीचर्स को IDE से अलग करके llm-do जैसे स्वतंत्र shell में कैसे विकसित किया जाए
LLM extension का असली मूल shell integration है
shell से जुड़ा LLM लगभग कुछ भी कर सकता है
- चम्मच से भी स्विमिंग पूल खोदा जा सकता है, लेकिन मेरे हिसाब से backhoe इस्तेमाल करना बेहतर है

LLM विस्तार के कड़वे सबक

LLM विस्तार का इतिहास और बदलाव

ChatGPT Plugins (मार्च 2023)

Custom Instructions (जुलाई 2023)

Custom GPTs (नवंबर 2023)

Memory in ChatGPT (फ़रवरी 2024)

Cursor Rules (अप्रैल 2024)

Model Context Protocol (MCP, नवंबर 2024)

Claude Code और विस्तार तंत्र (फ़रवरी 2025)

Agent Skills (अक्टूबर 2025)

भविष्य की दिशा

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय