GPT-4 Vision और Vimium का उपयोग करके वेब नेविगेशन

(github.com/ishan0102)

2 पॉइंट द्वारा GN⁺ 2023-11-10 | 1 टिप्पणियां | WhatsApp पर शेयर करें

यह एक प्रोजेक्ट है जो प्रयोग करता है कि क्या सिर्फ GPT-4V की vision क्षमता से वेब browsing संभव है, और multimodal model को वेब के साथ interact करने के लिए interface देता है
यह उस समस्या को संबोधित करता है कि अगर browser DOM को text के रूप में न दिया जाए, तो model के लिए यह तय करना मुश्किल होता है कि वह किस चीज़ पर click करना चाहता है
Vimium Chrome extension का उपयोग करके केवल keyboard से वेब navigate करना संभव बनाया गया है, और इसके जरिए यह प्रयोग किया गया है कि model वेब के साथ कैसे interact करता है
execution flow में Python requirements install करना, Vimium को locally download करना, Playwright चलाते समय extension को manually load करना, और python main.py चलाना शामिल है
python main.py --voice से Voice Mode चलाकर voice commands के जरिए लक्ष्य बताया जा सकता है और browser actions को real time में perform कराया जा सकता है
वर्तमान Vision API JSON mode या function calling support नहीं करता, इसलिए ज्यादा primitive prompting approach पर निर्भर रहना पड़ता है
कम resolution पर model कभी-कभी कुछ भी detect नहीं कर पाता; higher-resolution images इस्तेमाल करने से सुधार हो सकता है, लेकिन इसके लिए ज्यादा tokens चाहिए

1 टिप्पणियां

GN⁺ 2023-11-10

Hacker News की राय

यह सच में हैरान करने वाला है कि अब ऐसी चीज़ें संभव हैं: https://github.com/ishan0102/vimGPT/blob/682b5e539541cd6d710...
प्रॉम्प्ट ब्राउज़र को कुछ इस तरह निर्देश दे रहा है: “यूज़र के लक्ष्य में मदद करने के लिए navigate, type, click, done में से कौन-सा action करना है चुनो, पीले अक्षरों के sequence से click target बताओ, और सिर्फ JSON लौटाओ।”
- इस क्षेत्र के आगे बढ़ने की रफ्तार दिमाग सुन्न कर देने वाली है। लगता है यह dot-com boom से भी ज़्यादा पागलपन भरी लहर हो सकती है
दफ्तरों में काफी लोग legacy programs के बीच बस manual data copy करते रहते हैं। सरकारी क्षेत्र में technical debt इतना ज़्यादा है कि systems को आपस में जोड़ने का तरीका नहीं मिल पा रहा
उम्मीद है कि कभी ऐसा कोई tool इन समस्याओं के ऊपर चलने वाली layer बन सके। compute resources के नज़रिए से यह अजीब समाधान जरूर है
- बहुत पहले मैंने एक बड़े multinational grocery chain के लिए एक छोटा-सा project किया था। एक खास structure वाली Excel file parse करके internal system endpoint को call कर data submit करने वाला tool बनाया
  मौजूदा तरीका क्या है, यह पूछने पर वे मुझे office के पीछे वाले computer तक ले गए, और wallpaper पर MS EXCEL और INTERNET EXPLORER लिखे दो rectangles बने थे। जिम्मेदार व्यक्ति ने दोनों apps खोले, windows को ठीक उन्हीं rectangles में fit किया, फिर RuneScape cheaters जैसे auto-clicker चलाकर Excel values को website forms में copy-paste कर रहा था। कमाल था
- यहां “पुराने software” को दोष दिया जा रहा है, लेकिन सच तो यह है कि internet इस्तेमाल करने वाला लगभग हर व्यक्ति लगातार वही data entry problem झेलता है। screen के एक तरफ के form data को किसी दूसरे web form में copy करना, या उससे भी खराब, फिर से type करना
  username, password, email address, physical address, credit card info—सब यही हैं। input में मदद करने वाले extensions भी हैं, लेकिन कुछ भी लगातार ठीक से काम नहीं करता। username और password को ही consistently भर देना भी भरोसे लायक नहीं। internet इस्तेमाल में ads से भी बड़ी नंबर-1 झुंझलाहट यही है, और हैरानी है कि LLM हो या न हो, यह अभी तक हल नहीं हुआ। अगर कोई software इसे पूरी तरह solve कर दे, तो मैं monthly subscription देने को तैयार हूं
- industry terminology में इसे Robotic Process Automation कहा जाता है, और इस product category ने traditional screen scraping के साथ-साथ कई तरह की machine learning/AI के जरिए ऐसी चीजों को common और structured तरीके से जोड़ने पर focus किया है
  अब तक ये products काफी brittle रहे हैं, लेकिन हाल की AI technology explosion इस क्षेत्र के लिए बड़ी अच्छी खबर लगती है
- जब भी सुनता हूं कि legacy system data extraction लोग manual तरीके से करते हैं, तो सोचता हूं कि कहीं उन्होंने “proper” solution का estimate लेकर यह फैसला तो नहीं कर लिया कि कई लोगों से type करवाना ही सस्ता है
  ChatGPT जैसी चीज़ integrate करने पर भी किसी जानकार व्यक्ति को review करना होगा, और अगर उन लोगों की पहली सलाह “वहां ChatGPT मत लगाइए” हो, तो मुझे हैरानी नहीं होगी
- पहले Ghost in the Shell में एक scene देखा था जहां robot तेजी से type करने के लिए उंगलियों के ऊपर और उंगलियां रखता है; वह अजीब लगा था। सीधे USB में plug किया जा सकता है, इसलिए वैसा तो नहीं होगा, लेकिन फिर भी कभी-कभी screen और keyboard input इस्तेमाल करना पड़ेगा लगता है
vim अनजाने में ही ChatGPT के लिए एक शानदार embodied implementation बनता जा रहा है। text stream से ऐसा कुछ नहीं जो किया न जा सके, और internet पर पहले से vimscript की भरमार है
मैंने भी मिलता-जुलता experiment शुरू किया है, इसलिए अगर कोई इसी दिशा में सोच रहा हो तो reference ले सकता है: https://github.com/LachlanGray/vim-agent
मैं इसका creator हूं। कोई सवाल हो तो पूछिए, contributions का भी स्वागत है। README में संभावित next steps की कुछ चीज़ें छोड़ी हैं
- आज इससे पहले मैंने लगभग वैसी ही चीज़ publish की थी: https://github.com/Jiayi-Pan/GPT-V-on-Web. हालांकि उस पर ज्यादा ध्यान नहीं गया
- Open Interpreter भी Selenium को natural language control से automate करने की कोशिश कर रहा है, और HN पर भी हाल में काफी similar projects आ रहे हैं। Vimium approach काफी हल्का लगता है, इसलिए promising है
  किसी न किसी रूप में public World Wide Web खुद का dynamic API overlay server बनता जा रहा है
- यह इस समय ChatGPT के web browsing तरीके से कैसे अलग है?
- क्या इसे site-specific parsers लिखे बिना websites पर जाकर relevant information extract और analyze करने वाले bots बनाने में इस्तेमाल किया जा सकता है?
मैंने GPT-4 Vision के साथ screenshots और actions के जरिए browsing करने वाला similar idea आजमाया था। screenshot के ऊपर information overlay करने में असफल होने के बाद आखिर में Playwright से accessibility tree निकालकर text के रूप में साथ भेजा
इससे model को पता चलता है कि कौन-से options interactive हैं, इसलिए मेरे मामले में यह बेहतर चला। creator यहां है और future ideas की list भी है, तो अगर ठीक लगे तो इसे list में जोड़ना अच्छा होगा
- अच्छा idea है। असल में मैं सिर्फ visual data इस्तेमाल करना चाहता था, लेकिन इससे agent कहीं ज्यादा powerful बन सकता है। जल्द try करूंगा
- सिर्फ एक screen में दिखने वाली चीजों के बजाय पूरे content को capture करना बेहतर लगता है। नई बढ़ी हुई token window के साथ ज्यादातर pages text या HTML के रूप में आ सकते हैं
पिछले कुछ हफ्तों से मैं ChatGPT interface में इसे आजमा रहा था। कुछ tips हैं
CSS बदलकर gradients और rounded corners हटाना, और bold white text पर red color सबसे consistent रहा। font size बढ़ाना, और अगर दो labels overlap करें तो उन्हें एक-दूसरे से दूर push करके element की ओर point करने वाला arrow जोड़ना बेहतर है। API को annotated image और बिना annotation वाली image, दोनों भेजना अच्छा रहा
browser के लिए autopilot बनाया जा सकता है
अगर यह बड़े पैमाने पर deploy हुआ, तो आगे bot traffic को अलग पहचानना बेहद मुश्किल हो जाएगा। हालांकि short term में दिक्कत यह दिखती है कि यह सस्ता या affordable cost वाला नहीं होगा
- llava या cogvlm जैसे open-source models को fine-tune करके cost घटाई जा सकती है। यह demo भी करीब 6 cents का है, यानी पागलपन भरा महंगा नहीं, और prompt को clever तरीके से बनाएं तो और बेहतर हो सकता है
ऐसे tools का web tracking या पूरे Internet advertising पर क्या असर पड़ेगा? अगर कोई agent आपकी जगह web browse कर सके, ads या pop-ups देखे बिना tracking से भी बचते हुए सिर्फ वही चीज़ ला सके जिसे आप ठीक-ठीक ढूंढ रहे हैं, तो यह एक बेहतरीन ad blocker बन सकता है
शायद यह SEO को बेकार बनाकर Internet की quality भी बढ़ा दे. दूसरी तरफ, यह भी जिज्ञासा है कि कहीं ads किसी तरह लाई गई content के अंदर “मिल” जाने जैसे side effects तो पैदा नहीं करेंगे
- अगर तरीका page screenshots को GPT को भेजने का है, तो क्या वह ads भी साथ में नहीं देखेगा?
Netherlands की कई companies salary इस तरह देती हैं. 1) accountant से payslip लेना, 2) हर employee के लिए उस payslip की amount जितना bank transfer manually शुरू करना, और 3) काटे गए payroll tax को tax authority को भेजने वाला bank transfer भी manually शुरू करना
यह पूरी तरह बेकार manual काम है, और इसके manual process होने की कोई वजह नहीं है. लेकिन automation लगभग असंभव है. Accounting portals में API नहीं होता, या होता भी है तो data PDF के रूप में download कराते हैं, या API की cost काफी होती है. Banks में भी API नहीं होता, या फिर सिर्फ internal process automate करनी है, फिर भी developer account signup ऐसे मांगते हैं मानो public app launch करनी हो. इसलिए salary और tax pay करने का सबसे आसान तरीका आज भी किसी व्यक्ति को hire करके manually करवाना है. मैं AI पर actual bank transfers शुरू करने का भरोसा तो नहीं करूंगा, लेकिन transactions तैयार रखकर इंसान से सिर्फ submission approve करवाने जैसा तरीका शायद संभव हो
- यह AI से बहुत संबंधित नहीं लगता. UK में Pento जैसे solutions पहले से हैं, और open banking के जरिए users और tax authority को payments automate करते हैं और tax filings भी automatically submit करते हैं: https://www.pento.io/la/payroll-software
- वह तो बस banking problem है. बड़ी companies की payroll ऐसे नहीं चलती. Banks आम तौर पर SWIFT payments batches define करने वाली XML file upload करने देते हैं, और छोटी company payroll भी इसी तरह process होती है. Accountants भी XML files देते हैं, शायद उनके पास generate करने वाला app होता होगा
- हमारे देश में भी कुछ ऐसा ही है, जहां कुछ data government agency sites पर upload करना पड़ता है. शायद इस साल की शुरुआत में, announcement हुआ था कि website पर actions perform करने वाला software इस्तेमाल करने वाले लोग block किए जा सकते हैं
- repetitive GUI workflows की automation https://github.com/OpenAdaptAI/OpenAdapt का लक्ष्य है
क्या यह Adept के concept से बहुत मिलता-जुलता है? हालांकि product अभी तैयार नहीं लगता: https://www.adept.ai/
- यह थोड़ा पागलपन जैसा है कि Adept जिसके बारे में कहा जाता है कि उसने $300M से ज्यादा funding ली है और कई सालों से बना रहा है, उसे अब OpenAI API से एक दिन में बनाया जा सकता है
  लगता है Adept ने बीच में direction बदली है, लेकिन original concept इससे बहुत मिलता-जुलता था
- https://www.adept.ai/blog/experiments :)
- सही है. Adept और कुछ अन्य startups से inspiration लिया था
- बिल्कुल यही demo मेरे मन में आया था

GPT-4 Vision और Vimium का उपयोग करके वेब नेविगेशन

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय