42 पॉइंट द्वारा xguru 2026-02-11 | 3 टिप्पणियां | WhatsApp पर शेयर करें
  • WebMCP एक प्रस्तावित मानक है, जिसे वेबसाइटों को ब्राउज़र के भीतर AI एजेंटों के लिए structured tools सीधे expose करने के लिए डिज़ाइन किया गया है
  • मौजूदा screen scraping या DOM inference के बजाय, वेब खुद "इस पेज पर क्या किया जा सकता है" जैसी capabilities और input/output को स्पष्ट contract के रूप में प्रदान करता है
  • Declarative API और Imperative API के माध्यम से HTML form-आधारित कार्यों से लेकर जटिल JavaScript interactions तक को support करता है
  • एजेंट page के tools को Discovery के जरिए खोज सकता है, JSON Schema से input/output को स्पष्ट करता है, और मौजूदा page state को share करने वाली contract संरचना का उपयोग करता है
  • Chrome 146 version में early preview के रूप में शामिल है. पहले से आज़माने के लिए Chrome built-in AI Early Preview Program में शामिल होना ज़रूरी है
  • मौजूदा MCP जहाँ server-side protocol है, वहीं WebMCP client-side browser के भीतर AI agents के लिए protocol होने के कारण अलग है

स्पेक draft दस्तावेज़: WebMCP Early Preview

WebMCP के आने की पृष्ठभूमि

  • agent web environment में AI द्वारा उपयोगकर्ता की ओर से booking, submission, settings बदलना, navigation जैसे वास्तविक कार्य करने का अनुपात बढ़ रहा है
  • मौजूदा web मानव उपयोगकर्ताओं को ध्यान में रखकर बनाया गया है, इसलिए agents को button के अर्थ या form संरचना का अनुमान लगाना पड़ता था
  • इसके कारण input errors, गलत field mapping, और UI बदलावों के प्रति कमज़ोरी बार-बार सामने आती थी
  • WebMCP इन समस्याओं को हल करने के लिए web और agent के बीच स्पष्ट interaction contract लाता है
  • agent को button के उद्देश्य या form की संरचना का अनुमान लगाने के बजाय, वेबसाइट अपना interface स्पष्ट रूप से प्रकाशित करती है
  • यह contract तीन मुख्य तत्वों से बना है:
    • Discovery: page किन tools (जैसे checkout, filter_results) को support करता है, इसे agent standardized तरीके से देख सकता है
    • JSON Schema: input और expected output की स्पष्ट परिभाषा से hallucination या गलतफहमी कम होती है
    • State: मौजूदा page context की shared understanding, जिससे agent real time में उपलब्ध resources को समझ सकता है

WebMCP के मुख्य concepts

  • Structured tool exposure

    • वेबसाइट अपनी capabilities को tool के रूप में घोषित करती है
    • हर tool का नाम, विवरण, input schema (JSON Schema), और execution result स्पष्ट रूप से परिभाषित होता है
    • agent DOM को interpret किए बिना भी यह ठीक-ठीक समझ सकता है कि क्या invoke करना है
  • अनुमान के बजाय contract

    • button के अर्थ का अनुमान लगाने या calendar UI का विश्लेषण करने के बजाय, web खुद intent और rules को प्रकट करता है
    • input/output format स्थिर होने से hallucination और malfunction कम होते हैं
    • UI बदलने पर भी अगर tool contract बना रहे, तो agent का व्यवहार स्थिर रह सकता है

दो API मॉडल

  • Declarative API (Declarative API)

    • HTML <form> element में सिर्फ attributes जोड़कर उसे tool में बदला जा सकता है
    • toolname, tooldescription attributes से tool का अर्थ घोषित किया जाता है
    • form fields ही tool के input parameters बन जाते हैं
    • browser इन्हें अपने आप JSON Schema में बदल देता है
    • सरल और दोहराए जाने वाले कार्यों, मौजूदा form-आधारित UI के लिए उपयुक्त
  • Imperative API (Imperative API)

    • JavaScript के माध्यम से सीधे tools register किए जाते हैं
    • registerTool, provideContext, unregisterTool जैसे API उपलब्ध हैं
    • जटिल logic, conditional branching, asynchronous processing, और state-based व्यवहार के लिए उपयुक्त
    • SPA या advanced web applications में इसकी उपयोगिता अधिक है

ब्राउज़र और agent के interaction का तरीका

  • जब agent किसी tool को invoke करता है, तो browser संबंधित UI पर अपने आप focus और input करता है
  • form को agent ने invoke किया है या नहीं, इसे agentInvoked flag से अलग किया जा सकता है
  • success या cancel होने पर toolactivated, toolcancel events होते हैं
  • CSS pseudo-class(:tool-form-active, :tool-submit-active) के जरिए visual feedback दिया जाता है
  • मानव उपयोगकर्ता और agent उपयोग flow को एक ही UI state model में integrate किया जा सकता है

प्रमुख उपयोग परिदृश्य

  • airline site पर book_flight tool उपलब्ध होने पर, agent calendar UI को interpret किए बिना structured passenger information सीधे submit कर सकता है
  • medical या legal portal में submit_application tool के जरिए field meanings को स्पष्ट रूप से बताया जा सकता है
  • developer settings page पर run_diagnostics जैसे tools expose करके छिपे हुए menu को अपने आप चलाया जा सकता है
  • customer support, e-commerce, travel services जैसे high-trust input वाले क्षेत्रों में यह खास तौर पर प्रभावी है

WebMCP और MCP में अंतर

  • MCP(Model Context Protocol) एक server-side protocol है, जिसके लिए अलग server deployment की ज़रूरत होती है
  • WebMCP browser के भीतर काम करता है और मौजूदा web applications में सीधे integrate किया जा सकता है
  • server के बिना भी client-side capabilities को agent के सामने उपलब्ध कराया जा सकता है
  • agent browser को ध्यान में रखने वाला frontend-केंद्रित approach इसका मुख्य अंतर है

वर्तमान स्थिति और सीमाएँ

  • Chrome 146 या उसके ऊपर, flag enable करने पर इसका उपयोग किया जा सकता है
  • headless environment में यह काम नहीं करता और visible browsing context की आवश्यकता होती है
  • tools देने वाली sites को अपने आप खोजने का mechanism अभी नहीं है
  • UI state synchronization की ज़िम्मेदारी developer पर रहती है
  • यह अभी शुरुआती preview चरण में है, इसलिए API बदल सकती है और implementation friction मौजूद है

3 टिप्पणियां

 
xguru 2026-02-11

@firt ने X पर इसके बारे में बात करने के बाद यह काफ़ी बड़ा मुद्दा बन गया है। लिंक Google वाला रखा है.

वेबसाइट ऑटोमेशन में स्क्रीनशॉट/DOM विश्लेषण की तुलना में सिर्फ़ 10% टोकन से भी काम हो सकता है, ऐसा कहा जा रहा है. टोकन लागत बचाने वाला सॉफ़्टवेयर evolutionary pressure के चलते जीवित रहेगा, इस अनुमान के साथ भी यह मेल खाता है.

 
crawler 2026-02-11

अगर Chrome इसकी अगुवाई करे, तो यह शायद जल्दी ही दूसरे browsers में भी आ जाएगा।

 
parkindani 2026-02-11

यह agent के लिए swagger जैसा लगता है।