- LLM और computer vision का उपयोग करके browser-आधारित workflow को automate करने वाला टूल
- मौजूदा automation solutions DOM parsing और XPath-आधारित interaction पर निर्भर रहे हैं, जो वेबसाइट layout बदलने पर आसानी से टूट सकते हैं. Skyvern इसके बजाय viewport में मौजूद items का real-time में विश्लेषण करता है और interaction plan बनाकर काम करता है.
- फायदे:
- नई वेबसाइटों पर भी काम कर सकता है, और custom code के बिना visual elements को काम के लिए ज़रूरी actions से map कर सकता है.
- वेबसाइट layout बदलने पर भी मज़बूती से काम करता है, और pre-defined XPath या selectors का उपयोग नहीं करता.
- एक ही workflow को कई वेबसाइटों पर लागू किया जा सकता है, और जटिल स्थितियों में interaction के ज़रिए समस्या हल कर सकता है.
यह कैसे काम करता है
- एजेंट सिस्टम: Skyvern वेबसाइट को समझने और काम की योजना बनाकर उसे चलाने के लिए कई agents का उपयोग करता है.
- इंटरैक्टेबल elements agent: वेबसाइट के HTML का विश्लेषण करता है और interact किए जा सकने वाले elements निकालता है.
- नेविगेशन agent: task पूरा करने के लिए navigation की योजना बनाता है.
- डेटा extraction agent: वेबसाइट से data निकालता है.
- पासवर्ड agent: password forms भरता है.
- 2FA agent: 2FA forms भरता है.
- डायनेमिक auto-completion agent: dynamic auto-complete forms भरता है.
Skyvern Cloud
- क्लाउड version: Skyvern का managed cloud version infrastructure संभाले बिना कई Skyvern instances को parallel में चलाकर बड़े पैमाने पर workflows automate कर सकता है. इसमें bot-detection evasion mechanisms, proxy network, और CAPTCHA solving capabilities भी शामिल हैं.
Skyvern tasks और workflows
- Task: Skyvern का बुनियादी building block, जो किसी खास लक्ष्य को हासिल करने के लिए वेबसाइट navigate करने का निर्देश देता है.
- Workflow: कई tasks को जोड़कर एक काम की इकाई बनाता है. उदाहरण के लिए, e-commerce store में products को अपने-आप खरीदने की process automate की जा सकती है.
1 टिप्पणियां
Hacker News की राय
Anthropic के Claude की "computer use" फीचर घोषणा को लेकर दिलचस्पी है और Skyvern की अलग पहचान क्या है, इस पर सवाल हैं
बताया गया है कि हाल में Playwright का उपयोग करने वाले AI wrapper बहुत सामने आए हैं
Skyvern के उदाहरण वीडियो में बहुत अधिक prompt लिखने और plain text डेटा के उपयोग को लेकर चिंता जताई गई है
यह राय है कि website redesign की आवृत्ति को बढ़ा-चढ़ाकर बताया गया है
third-party LLM पर आधारित startup के जोखिम का उल्लेख किया गया है
Skyvern के AGPL open source होने पर बधाई दी गई है और LangChain integration की योजना के बारे में पूछा गया है
"browser automation" की अवधारणा समझाई गई है
LLM workflow automation tool के use case और long-term परिणामों पर सवाल उठाए गए हैं
यह चिंता जताई गई है कि क्या Skyvern जटिल process के ऊपर एक और जटिलता जोड़ रहा है
पूछा गया है कि क्या किसी ने Skyvern को modal.com पर चलाकर देखा है
WebArena और VisualWebArena के प्रदर्शन के बारे में सवाल हैं
पूछा गया है कि क्या Cloudflare, Skyvern को block कर सकता है
पूछा गया है कि क्या किसी ने Skyvern को airline website पर चलाकर देखा है