- GPT-4(V) के साथ वेब इंटरैक्शन को automate करते समय उठने वाले सवाल
- LLM के response को web elements से कैसे map करें?
- LLM के workspace को बेहतर समझाने के लिए page को markup कैसे करें?
- text-only LLM को 'screenshot' कैसे दिया जाए?
- Tarsier multimodal web agents के लिए एक vision utility है
- यह [1] जैसे IDs के जरिए page के interactable elements को visually 'tag' करने के तरीके से काम करता है
- इससे GPT-4(V) को task पूरा करने के लिए element और ID के बीच mapping मिलती है
- interactable elements को page पर दिखने वाले button, link या input field के रूप में परिभाषित किया गया है
- यह page का text representation भी दे सकता है
- यानी non-multimodal LLMs में भी अधिक गहरा interaction संभव हो जाता है
- मौजूदा vision-language models की performance issues को देखते हुए यह एक महत्वपूर्ण बात है
- साथ ही, यह एक OCR utility भी देता है जो page screenshot को vision के बिना LLM द्वारा समझे जा सकने वाले whitespace-structured string में बदल देती है
- समर्थित OCR services
- फिलहाल केवल Google Cloud Vision समर्थित है, Amazon Textract और Microsoft Azure Computer Vision का support जल्द आने वाला है
अभी कोई टिप्पणी नहीं है.