• WebMCP एक प्रस्तावित मानक है, जिसे वेबसाइटों को ब्राउज़र के भीतर AI एजेंटों के लिए structured tools सीधे expose करने के लिए डिज़ाइन किया गया है
  • मौजूदा screen scraping या DOM inference के बजाय, वेब खुद "इस पेज पर क्या किया जा सकता है" जैसी capabilities और input/output को स्पष्ट contract के रूप में प्रदान करता है
  • Declarative API और Imperative API के माध्यम से HTML form-आधारित कार्यों से लेकर जटिल JavaScript interactions तक को support करता है
  • एजेंट page के tools को Discovery के जरिए खोज सकता है, JSON Schema से input/output को स्पष्ट करता है, और मौजूदा page state को share करने वाली contract संरचना का उपयोग करता है
  • Chrome 146 version में early preview के रूप में शामिल है. पहले से आज़माने के लिए Chrome built-in AI Early Preview Program में शामिल होना ज़रूरी है
  • मौजूदा MCP जहाँ server-side protocol है, वहीं WebMCP client-side browser के भीतर AI agents के लिए protocol होने के कारण अलग है

स्पेक draft दस्तावेज़: WebMCP Early Preview

WebMCP के आने की पृष्ठभूमि

  • agent web environment में AI द्वारा उपयोगकर्ता की ओर से booking, submission, settings बदलना, navigation जैसे वास्तविक कार्य करने का अनुपात बढ़ रहा है
  • मौजूदा web मानव उपयोगकर्ताओं को ध्यान में रखकर बनाया गया है, इसलिए agents को button के अर्थ या form संरचना का अनुमान लगाना पड़ता था
  • इसके कारण input errors, गलत field mapping, और UI बदलावों के प्रति कमज़ोरी बार-बार सामने आती थी
  • WebMCP इन समस्याओं को हल करने के लिए web और agent के बीच स्पष्ट interaction contract लाता है
  • agent को button के उद्देश्य या form की संरचना का अनुमान लगाने के बजाय, वेबसाइट अपना interface स्पष्ट रूप से प्रकाशित करती है
  • यह contract तीन मुख्य तत्वों से बना है:
    • Discovery: page किन tools (जैसे checkout, filter_results) को support करता है, इसे agent standardized तरीके से देख सकता है
    • JSON Schema: input और expected output की स्पष्ट परिभाषा से hallucination या गलतफहमी कम होती है
    • State: मौजूदा page context की shared understanding, जिससे agent real time में उपलब्ध resources को समझ सकता है

WebMCP के मुख्य concepts

  • Structured tool exposure

    • वेबसाइट अपनी capabilities को tool के रूप में घोषित करती है
    • हर tool का नाम, विवरण, input schema (JSON Schema), और execution result स्पष्ट रूप से परिभाषित होता है
    • agent DOM को interpret किए बिना भी यह ठीक-ठीक समझ सकता है कि क्या invoke करना है
  • अनुमान के बजाय contract

    • button के अर्थ का अनुमान लगाने या calendar UI का विश्लेषण करने के बजाय, web खुद intent और rules को प्रकट करता है
    • input/output format स्थिर होने से hallucination और malfunction कम होते हैं
    • UI बदलने पर भी अगर tool contract बना रहे, तो agent का व्यवहार स्थिर रह सकता है

दो API मॉडल

  • Declarative API (Declarative API)

    • HTML <form> element में सिर्फ attributes जोड़कर उसे tool में बदला जा सकता है
    • toolname, tooldescription attributes से tool का अर्थ घोषित किया जाता है
    • form fields ही tool के input parameters बन जाते हैं
    • browser इन्हें अपने आप JSON Schema में बदल देता है
    • सरल और दोहराए जाने वाले कार्यों, मौजूदा form-आधारित UI के लिए उपयुक्त
  • Imperative API (Imperative API)

    • JavaScript के माध्यम से सीधे tools register किए जाते हैं
    • registerTool, provideContext, unregisterTool जैसे API उपलब्ध हैं
    • जटिल logic, conditional branching, asynchronous processing, और state-based व्यवहार के लिए उपयुक्त
    • SPA या advanced web applications में इसकी उपयोगिता अधिक है

ब्राउज़र और agent के interaction का तरीका

  • जब agent किसी tool को invoke करता है, तो browser संबंधित UI पर अपने आप focus और input करता है
  • form को agent ने invoke किया है या नहीं, इसे agentInvoked flag से अलग किया जा सकता है
  • success या cancel होने पर toolactivated, toolcancel events होते हैं
  • CSS pseudo-class(:tool-form-active, :tool-submit-active) के जरिए visual feedback दिया जाता है
  • मानव उपयोगकर्ता और agent उपयोग flow को एक ही UI state model में integrate किया जा सकता है

प्रमुख उपयोग परिदृश्य

  • airline site पर book_flight tool उपलब्ध होने पर, agent calendar UI को interpret किए बिना structured passenger information सीधे submit कर सकता है
  • medical या legal portal में submit_application tool के जरिए field meanings को स्पष्ट रूप से बताया जा सकता है
  • developer settings page पर run_diagnostics जैसे tools expose करके छिपे हुए menu को अपने आप चलाया जा सकता है
  • customer support, e-commerce, travel services जैसे high-trust input वाले क्षेत्रों में यह खास तौर पर प्रभावी है

WebMCP और MCP में अंतर

  • MCP(Model Context Protocol) एक server-side protocol है, जिसके लिए अलग server deployment की ज़रूरत होती है
  • WebMCP browser के भीतर काम करता है और मौजूदा web applications में सीधे integrate किया जा सकता है
  • server के बिना भी client-side capabilities को agent के सामने उपलब्ध कराया जा सकता है
  • agent browser को ध्यान में रखने वाला frontend-केंद्रित approach इसका मुख्य अंतर है

वर्तमान स्थिति और सीमाएँ

  • Chrome 146 या उसके ऊपर, flag enable करने पर इसका उपयोग किया जा सकता है
  • headless environment में यह काम नहीं करता और visible browsing context की आवश्यकता होती है
  • tools देने वाली sites को अपने आप खोजने का mechanism अभी नहीं है
  • UI state synchronization की ज़िम्मेदारी developer पर रहती है
  • यह अभी शुरुआती preview चरण में है, इसलिए API बदल सकती है और implementation friction मौजूद है

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.