• GPT-4(V) के साथ वेब इंटरैक्शन को automate करते समय उठने वाले सवाल
    • LLM के response को web elements से कैसे map करें?
    • LLM के workspace को बेहतर समझाने के लिए page को markup कैसे करें?
    • text-only LLM को 'screenshot' कैसे दिया जाए?
  • Tarsier multimodal web agents के लिए एक vision utility है
    • यह [1] जैसे IDs के जरिए page के interactable elements को visually 'tag' करने के तरीके से काम करता है
    • इससे GPT-4(V) को task पूरा करने के लिए element और ID के बीच mapping मिलती है
    • interactable elements को page पर दिखने वाले button, link या input field के रूप में परिभाषित किया गया है
    • यह page का text representation भी दे सकता है
      • यानी non-multimodal LLMs में भी अधिक गहरा interaction संभव हो जाता है
      • मौजूदा vision-language models की performance issues को देखते हुए यह एक महत्वपूर्ण बात है
    • साथ ही, यह एक OCR utility भी देता है जो page screenshot को vision के बिना LLM द्वारा समझे जा सकने वाले whitespace-structured string में बदल देती है
  • समर्थित OCR services
    • फिलहाल केवल Google Cloud Vision समर्थित है, Amazon Textract और Microsoft Azure Computer Vision का support जल्द आने वाला है

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.