Omnimodal पर निर्भर हुए बिना DOM compression से token-friendly तरीके से web नेविगेट करने वाली AI agent लाइब्रेरी
(tidesurf.org)आम तौर पर मैं GN को कभी-कभार सिर्फ पढ़ता था, यह मेरी पहली पोस्ट है. कृपया सहयोग करें!
अनिश्चित मौजूदा Web Surf agent यानी omnimodal पर निर्भर होने के बजाय, CDP से प्राप्त DOM को LLM के समझने लायक न्यूनतम रूप में format और compress करके MCP बनाया जाए तो कैसा रहेगा? इसी विचार से शुरू होकर बनाई गई यह लाइब्रेरी है.
बनाने की वजह
- screenshot-आधारित web agent के लिए vision model चाहिए और token की खपत बहुत अधिक होती है.
- मौजूदा DOM serialization में CSS class, wrapper div, script आदि सब शामिल होने से एक पेज पर 50,000~100,000 token तक निकल आते हैं.
- agent को वास्तव में button, link, input और text ही चाहिए, लेकिन सिर्फ उसके लिए पूरा context window खर्च करना अक्षम है.
काम करने का तरीका
- CDP के जरिए Chrome instance से कनेक्ट करने के बाद, DOM में न्यूनतम पहचान के लिए जरूरी तत्वों को छोड़कर बाकी सब हटा दिया जाता है.
- इसके बाद हर element को एक छोटा ID दिया जाता है और वही सामग्री Agent को भेजी जाती है.
- agent से इंटरैक्टिव element के लिए
click("B1"),type("I1", "검색어")जैसे interaction भी सपोर्ट किए जाते हैं!
benchmark
- GitHub: 84,357 -> 2,593 token (32x)
- Wikipedia: 123,615 -> 12,097 token (10x)
- MDN: 24,923 -> 1,793 token (14x)
- HN: 8,736 -> 1,038 token (8.4x)
- औसतन 93% token बचत, parsing समय लगभग 30ms
paper spec
- TypeScript आधारित, runtime के रूप में Bun Native और Node 18+ दोनों सपोर्ट
chrome-remote-interfaceruntime dependency- ElysiaJS आधारित backend
लिंक
- GitHub: https://github.com/TideSurf/core
- npm: https://www.npmjs.com/package/@tidesurf/core
- दस्तावेज़/डेमो: https://tidesurf.org
इसे मैंने निजी debugging के लिए बनाकर इस्तेमाल किया था, लेकिन उम्मीद से ज्यादा उपयोगी लगा, इसलिए इसे OSS बनाकर जारी किया. एक बार इस्तेमाल करके ज़रूर देखें और खूब feedback दें!
अभी कोई टिप्पणी नहीं है.