2 पॉइंट द्वारा GN⁺ 2023-11-10 | 1 टिप्पणियां | WhatsApp पर शेयर करें

vimGPT: मल्टीमॉडल मॉडल को एक खेल का मैदान देना

अवलोकन

  • वेब नेविगेशन के लिए बड़े भाषा मॉडल (LLMs) के उपयोग की कई startup और open source प्रोजेक्ट्स में पड़ताल की जा रही है।
  • केवल GPT-4V की विज़ुअल क्षमताओं का उपयोग करके वेब ब्राउज़िंग संभव है या नहीं, इस पर प्रयोग करने वाले एक प्रोजेक्ट में रुचि दिखाई गई है।
  • मॉडल के लिए यह समझना कठिन होता है कि वह किस लक्ष्य पर क्लिक करना चाहता है, जब टेक्स्ट-आधारित browser DOM उपलब्ध न हो।

सेटअप

  • Python आवश्यकताएँ इंस्टॉल करें: pip install -r requirements.txt
  • Vimium को लोकल में डाउनलोड करना होगा और Playwright चलाते समय extension को मैन्युअली लोड करना होगा: ./setup.sh

विचार

  • ऑटोमैटिक context retrieval के लिए, उपलब्ध होने पर Assistant API के उपयोग पर विचार किया जा रहा है।
  • Vimium का एक विशेष संस्करण विकसित किया जा सकता है, जो context के आधार पर elements को चुनिंदा रूप से overlay करे।
  • कम resolution पर मॉडल की पहचान विफल होने की समस्या को high-resolution images का उपयोग करके सुधारा जा सकता है।
  • LLaVa या CogVLM को fine-tune करके इसे अधिक तेज़ और सस्ता बनाया जा सकता है।
  • यदि Vision API JSON mode को सपोर्ट करे तो उसका उपयोग करने की योजना है, लेकिन फिलहाल अधिक कच्चे prompting तरीकों पर निर्भर रहना होगा।
  • Vision API से सामान्य निर्देश लौटवाकर, उन्हें JSON mode API के माध्यम से औपचारिक रूप देने के तरीके पर विचार किया जा रहा है।
  • टेक्स्ट इनपुट हटाने और accessibility बढ़ाने के लिए Whisper या किसी अन्य मॉडल का उपयोग करके speech-to-text जोड़ने पर भी विचार हो रहा है।
  • इसे किसी कृत्रिम browser के बजाय उपयोगकर्ता के अपने browser में काम करने योग्य बनाना चाहा जा रहा है।
  • यदि मॉडल पीले रंग के आयत के नीचे नहीं देख पाता, तो Vimium के सक्रिय या निष्क्रिय होने के अनुसार frames देने की बात शामिल है।
  • image input के अलावा, Chrome accessibility tree को इनपुट के रूप में देकर ऐसे interactive elements का layout प्रदान करने की बात है जिन्हें Vimium bindings से मैप किया जा सके।

संदर्भ सामग्री

GN⁺ की राय

इस लेख की सबसे महत्वपूर्ण बात यह है कि GPT-4V जैसे बड़े भाषा मॉडलों का उपयोग करके वेब ब्राउज़िंग अनुभव को बदलने की कोशिश की जा रही है। Vimium extension के माध्यम से मॉडल को वेब के साथ इंटरैक्ट करने का तरीका देना एक दिलचस्प दृष्टिकोण है, और इसमें वेब accessibility और interactivity को बेहतर बनाने की क्षमता है। टेक्नोलॉजी उत्साही लोगों और software developers के लिए ऐसे प्रयोग AI के भविष्य और वेब interfaces के विकास पर महत्वपूर्ण अंतर्दृष्टि देते हैं, इसलिए यह एक बेहद आकर्षक विषय बन जाता है।

1 टिप्पणियां

 
GN⁺ 2023-11-10
Hacker News की राय
  • अब यह संभव है, इस पर यक़ीन करना मुश्किल है:

    • यूज़र को कोई खास काम पूरा करने में मदद करने के लिए चुनने योग्य विकल्प हैं: 'navigate', 'type', 'click', 'done'.
    • 'navigate' को दिए गए URL पर जाना होता है, और 'type' व 'click' एक string लेकर उसे प्रोसेस करते हैं.
    • क्लिक करते समय पीले अक्षरों की sequence लौटानी होती है, और टाइपिंग करते समय message को string के रूप में लौटाना होता है.
    • अगर पेज संतोषजनक हो, तो 'done' को key के रूप में लौटाना चाहिए, और जवाब केवल JSON फ़ॉर्मैट में ही होना चाहिए.
  • मेरे कार्यस्थल पर technical debt बहुत ज़्यादा है, इसलिए बहुत से लोग अब भी मैन्युअली डेटा कॉपी करते हैं:

    • इस बात को लेकर उत्साह जताया गया कि ऐसे टूल मौजूदा समस्याओं को हल करने वाली एक लेयर की तरह काम कर सकते हैं.
  • निर्माता की ओर से अभिवादन:

    • प्रोजेक्ट साझा करने के लिए धन्यवाद, और कहा कि कोई सवाल हो तो बताएं.
    • README में अगले चरणों के लिए ideas हैं, इसलिए contributions का स्वागत है.
  • यह राय कि vim, ChatGPT के लिए उपयुक्त "implementation" है:

    • text stream के रूप में सब कुछ किया जा सकता है, और इंटरनेट पर पहले से बहुत सारा vimscript मौजूद है.
    • कहा कि उन्होंने भी ऐसा ही एक प्रयोग शुरू किया है, और संबंधित प्रोजेक्ट का लिंक साझा किया.
  • GPT-4 Vision का उपयोग करके screenshot और browsing tasks पर चर्चा:

    • screenshot पर जानकारी overlay करने में असफल होने के बाद, playwright से accessibility tree को text के रूप में लाकर model को interaction options बताने वाले तरीके ने बेहतर नतीजे दिखाए.
    • निर्माता को सुझाव दिया गया कि इस idea को future ideas list में जोड़ा जाए.
  • ChatGPT interface के ज़रिए किए गए प्रयोग का अनुभव साझा:

    • CSS अपडेट करके gradient और rounded corners हटाने का सुझाव दिया गया.
    • लाल रंग और bold सफेद text का संयोजन सबसे लगातार अच्छे नतीजे देता दिखा.
    • font size बढ़ाने, और अगर labels overlap हों तो उन्हें अलग करके arrows जोड़ने की सलाह दी गई.
    • API को annotation वाली image और बिना annotation वाली image, दोनों भेजने की सिफारिश की गई.
  • सवाल कि ऐसे टूल web tracking या advertising पर क्या असर डालेंगे:

    • एजेंट, यूज़र की तरफ़ से ads या pop-up के बिना मनचाही चीज़ ढूंढ़ देने वाले एक 'ad blocker' की तरह काम कर सकता है.
    • कल्पना की गई कि इससे SEO की अहमियत घट सकती है और इंटरनेट की गुणवत्ता बेहतर हो सकती है.
    • दूसरी ओर, ads के संभावित नकारात्मक प्रभाव को लेकर चिंता भी जताई गई.
  • ब्राउज़र के लिए एक autopilot बनाया जा सकता है:

    • अगर यह तकनीक बड़े पैमाने पर deploy हुई, तो bot traffic को अलग पहचानना बहुत मुश्किल हो जाएगा.
    • यह भी सवाल उठाया गया कि कम-से-कम अल्पकाल में इसकी लागत सस्ती या इसकी पहुँच आसान नहीं होगी.
  • GPT-4V ने web scraping को लेकर एक नया नज़रिया दिया है, ऐसी सकारात्मक राय:

    • उम्मीद जताई गई कि यह code या इसी तरह का code कई projects में इस्तेमाल होगा.
    • उदाहरण के लिए, LinkedIn या Twitter जैसी websites को scrape करने, competitor analysis, industry understanding, और news gathering में इसका उपयोग हो सकता है.
  • वास्तविक उपयोग का अनुभव साझा:

    • क्लिक किए जा सकने वाले विकल्पों के छोटे annotations अक्सर स्क्रीन पर दिखाई नहीं देते थे, जिससे loop में फँसने की समस्या हुई.
    • Twitter में लॉग इन करने में सफलता मिली, लेकिन 100 image API limit बहुत जल्दी खत्म हो गई.
    • भविष्य के versions में मुख्य रूप से text-based browser का उपयोग करने और केवल जटिल परिस्थितियों में vision का उपयोग करने का सुझाव दिया गया.