GPT-4 Vision और Vimium का उपयोग करके वेब नेविगेशन
(github.com/ishan0102)vimGPT: मल्टीमॉडल मॉडल को एक खेल का मैदान देना
अवलोकन
- वेब नेविगेशन के लिए बड़े भाषा मॉडल (LLMs) के उपयोग की कई startup और open source प्रोजेक्ट्स में पड़ताल की जा रही है।
- केवल GPT-4V की विज़ुअल क्षमताओं का उपयोग करके वेब ब्राउज़िंग संभव है या नहीं, इस पर प्रयोग करने वाले एक प्रोजेक्ट में रुचि दिखाई गई है।
- मॉडल के लिए यह समझना कठिन होता है कि वह किस लक्ष्य पर क्लिक करना चाहता है, जब टेक्स्ट-आधारित browser DOM उपलब्ध न हो।
सेटअप
- Python आवश्यकताएँ इंस्टॉल करें:
pip install -r requirements.txt - Vimium को लोकल में डाउनलोड करना होगा और Playwright चलाते समय extension को मैन्युअली लोड करना होगा:
./setup.sh
विचार
- ऑटोमैटिक context retrieval के लिए, उपलब्ध होने पर Assistant API के उपयोग पर विचार किया जा रहा है।
- Vimium का एक विशेष संस्करण विकसित किया जा सकता है, जो context के आधार पर elements को चुनिंदा रूप से overlay करे।
- कम resolution पर मॉडल की पहचान विफल होने की समस्या को high-resolution images का उपयोग करके सुधारा जा सकता है।
- LLaVa या CogVLM को fine-tune करके इसे अधिक तेज़ और सस्ता बनाया जा सकता है।
- यदि Vision API JSON mode को सपोर्ट करे तो उसका उपयोग करने की योजना है, लेकिन फिलहाल अधिक कच्चे prompting तरीकों पर निर्भर रहना होगा।
- Vision API से सामान्य निर्देश लौटवाकर, उन्हें JSON mode API के माध्यम से औपचारिक रूप देने के तरीके पर विचार किया जा रहा है।
- टेक्स्ट इनपुट हटाने और accessibility बढ़ाने के लिए Whisper या किसी अन्य मॉडल का उपयोग करके speech-to-text जोड़ने पर भी विचार हो रहा है।
- इसे किसी कृत्रिम browser के बजाय उपयोगकर्ता के अपने browser में काम करने योग्य बनाना चाहा जा रहा है।
- यदि मॉडल पीले रंग के आयत के नीचे नहीं देख पाता, तो Vimium के सक्रिय या निष्क्रिय होने के अनुसार frames देने की बात शामिल है।
- image input के अलावा, Chrome accessibility tree को इनपुट के रूप में देकर ऐसे interactive elements का layout प्रदान करने की बात है जिन्हें Vimium bindings से मैप किया जा सके।
संदर्भ सामग्री
GN⁺ की राय
इस लेख की सबसे महत्वपूर्ण बात यह है कि GPT-4V जैसे बड़े भाषा मॉडलों का उपयोग करके वेब ब्राउज़िंग अनुभव को बदलने की कोशिश की जा रही है। Vimium extension के माध्यम से मॉडल को वेब के साथ इंटरैक्ट करने का तरीका देना एक दिलचस्प दृष्टिकोण है, और इसमें वेब accessibility और interactivity को बेहतर बनाने की क्षमता है। टेक्नोलॉजी उत्साही लोगों और software developers के लिए ऐसे प्रयोग AI के भविष्य और वेब interfaces के विकास पर महत्वपूर्ण अंतर्दृष्टि देते हैं, इसलिए यह एक बेहद आकर्षक विषय बन जाता है।
1 टिप्पणियां
Hacker News की राय
अब यह संभव है, इस पर यक़ीन करना मुश्किल है:
मेरे कार्यस्थल पर technical debt बहुत ज़्यादा है, इसलिए बहुत से लोग अब भी मैन्युअली डेटा कॉपी करते हैं:
निर्माता की ओर से अभिवादन:
यह राय कि vim, ChatGPT के लिए उपयुक्त "implementation" है:
GPT-4 Vision का उपयोग करके screenshot और browsing tasks पर चर्चा:
ChatGPT interface के ज़रिए किए गए प्रयोग का अनुभव साझा:
सवाल कि ऐसे टूल web tracking या advertising पर क्या असर डालेंगे:
ब्राउज़र के लिए एक autopilot बनाया जा सकता है:
GPT-4V ने web scraping को लेकर एक नया नज़रिया दिया है, ऐसी सकारात्मक राय:
वास्तविक उपयोग का अनुभव साझा: