WebMCP (Web Model Context Protocol) जारी
(developer.chrome.com)- WebMCP एक प्रस्तावित मानक है, जिसे वेबसाइटों को ब्राउज़र के भीतर AI एजेंटों के लिए structured tools सीधे expose करने के लिए डिज़ाइन किया गया है
- मौजूदा screen scraping या DOM inference के बजाय, वेब खुद "इस पेज पर क्या किया जा सकता है" जैसी capabilities और input/output को स्पष्ट contract के रूप में प्रदान करता है
- Declarative API और Imperative API के माध्यम से HTML form-आधारित कार्यों से लेकर जटिल JavaScript interactions तक को support करता है
- एजेंट page के tools को Discovery के जरिए खोज सकता है, JSON Schema से input/output को स्पष्ट करता है, और मौजूदा page state को share करने वाली contract संरचना का उपयोग करता है
- Chrome 146 version में early preview के रूप में शामिल है. पहले से आज़माने के लिए Chrome built-in AI Early Preview Program में शामिल होना ज़रूरी है
- मौजूदा MCP जहाँ server-side protocol है, वहीं WebMCP client-side browser के भीतर AI agents के लिए protocol होने के कारण अलग है
स्पेक draft दस्तावेज़: WebMCP Early Preview
WebMCP के आने की पृष्ठभूमि
- agent web environment में AI द्वारा उपयोगकर्ता की ओर से booking, submission, settings बदलना, navigation जैसे वास्तविक कार्य करने का अनुपात बढ़ रहा है
- मौजूदा web मानव उपयोगकर्ताओं को ध्यान में रखकर बनाया गया है, इसलिए agents को button के अर्थ या form संरचना का अनुमान लगाना पड़ता था
- इसके कारण input errors, गलत field mapping, और UI बदलावों के प्रति कमज़ोरी बार-बार सामने आती थी
- WebMCP इन समस्याओं को हल करने के लिए web और agent के बीच स्पष्ट interaction contract लाता है
- agent को button के उद्देश्य या form की संरचना का अनुमान लगाने के बजाय, वेबसाइट अपना interface स्पष्ट रूप से प्रकाशित करती है
- यह contract तीन मुख्य तत्वों से बना है:
- Discovery: page किन tools (जैसे checkout, filter_results) को support करता है, इसे agent standardized तरीके से देख सकता है
- JSON Schema: input और expected output की स्पष्ट परिभाषा से hallucination या गलतफहमी कम होती है
- State: मौजूदा page context की shared understanding, जिससे agent real time में उपलब्ध resources को समझ सकता है
WebMCP के मुख्य concepts
-
Structured tool exposure
- वेबसाइट अपनी capabilities को tool के रूप में घोषित करती है
- हर tool का नाम, विवरण, input schema (JSON Schema), और execution result स्पष्ट रूप से परिभाषित होता है
- agent DOM को interpret किए बिना भी यह ठीक-ठीक समझ सकता है कि क्या invoke करना है
-
अनुमान के बजाय contract
- button के अर्थ का अनुमान लगाने या calendar UI का विश्लेषण करने के बजाय, web खुद intent और rules को प्रकट करता है
- input/output format स्थिर होने से hallucination और malfunction कम होते हैं
- UI बदलने पर भी अगर tool contract बना रहे, तो agent का व्यवहार स्थिर रह सकता है
दो API मॉडल
-
Declarative API (Declarative API)
- HTML
<form>element में सिर्फ attributes जोड़कर उसे tool में बदला जा सकता है toolname,tooldescriptionattributes से tool का अर्थ घोषित किया जाता है- form fields ही tool के input parameters बन जाते हैं
- browser इन्हें अपने आप JSON Schema में बदल देता है
- सरल और दोहराए जाने वाले कार्यों, मौजूदा form-आधारित UI के लिए उपयुक्त
- HTML
-
Imperative API (Imperative API)
- JavaScript के माध्यम से सीधे tools register किए जाते हैं
registerTool,provideContext,unregisterToolजैसे API उपलब्ध हैं- जटिल logic, conditional branching, asynchronous processing, और state-based व्यवहार के लिए उपयुक्त
- SPA या advanced web applications में इसकी उपयोगिता अधिक है
ब्राउज़र और agent के interaction का तरीका
- जब agent किसी tool को invoke करता है, तो browser संबंधित UI पर अपने आप focus और input करता है
- form को agent ने invoke किया है या नहीं, इसे
agentInvokedflag से अलग किया जा सकता है - success या cancel होने पर
toolactivated,toolcancelevents होते हैं - CSS pseudo-class(
:tool-form-active,:tool-submit-active) के जरिए visual feedback दिया जाता है - मानव उपयोगकर्ता और agent उपयोग flow को एक ही UI state model में integrate किया जा सकता है
प्रमुख उपयोग परिदृश्य
- airline site पर
book_flighttool उपलब्ध होने पर, agent calendar UI को interpret किए बिना structured passenger information सीधे submit कर सकता है - medical या legal portal में
submit_applicationtool के जरिए field meanings को स्पष्ट रूप से बताया जा सकता है - developer settings page पर
run_diagnosticsजैसे tools expose करके छिपे हुए menu को अपने आप चलाया जा सकता है - customer support, e-commerce, travel services जैसे high-trust input वाले क्षेत्रों में यह खास तौर पर प्रभावी है
WebMCP और MCP में अंतर
- MCP(Model Context Protocol) एक server-side protocol है, जिसके लिए अलग server deployment की ज़रूरत होती है
- WebMCP browser के भीतर काम करता है और मौजूदा web applications में सीधे integrate किया जा सकता है
- server के बिना भी client-side capabilities को agent के सामने उपलब्ध कराया जा सकता है
- agent browser को ध्यान में रखने वाला frontend-केंद्रित approach इसका मुख्य अंतर है
वर्तमान स्थिति और सीमाएँ
- Chrome 146 या उसके ऊपर, flag enable करने पर इसका उपयोग किया जा सकता है
- headless environment में यह काम नहीं करता और visible browsing context की आवश्यकता होती है
- tools देने वाली sites को अपने आप खोजने का mechanism अभी नहीं है
- UI state synchronization की ज़िम्मेदारी developer पर रहती है
- यह अभी शुरुआती preview चरण में है, इसलिए API बदल सकती है और implementation friction मौजूद है
अभी कोई टिप्पणी नहीं है.