Tarsier - वेब इंटरैक्शन एजेंट्स के लिए विज़न यूटिलिटी

xguru · 2023-11-16T10:03:01+09:00

GPT-4(V) के साथ वेब इंटरैक्शन को automate करते समय उठने वाले सवाल LLM के response को web elements से कैसे map करें? LLM के workspace को बेहतर समझाने के लिए page को markup कैसे करें? text-only LLM को 'screenshot' कैसे दिया जाए? Tarsier multimodal web agents के लिए एक vision utility है यह [1] जैसे IDs के जरिए page के interactable elements को visually 'tag' करने के तरीके से काम करता है इससे GPT-4(V) को task पूरा करने के लिए element और ID के बीच mapping मिलती है interactable elements को page पर दिखने वाले button, link या input field के रूप में परिभाषित किया गया है यह page का text representation भी दे सकता है यानी non-multimodal LLMs में भी अधिक गहरा interaction संभव हो जाता है मौजूदा vision-language models की performance issues को देखते हुए यह एक महत्वपूर्ण बात है साथ ही, यह एक OCR utility भी देता है जो page screenshot को vision के बिना LLM द्वारा समझे जा सकने वाले whitespace-structured string में बदल देती है समर्थित OCR services फिलहाल केवल Google Cloud Vision समर्थित है, Amazon Textract और Microsoft Azure Computer Vision का support जल्द आने वाला है

GPT-4(V) के साथ वेब इंटरैक्शन को automate करते समय उठने वाले सवाल
- LLM के response को web elements से कैसे map करें?
- LLM के workspace को बेहतर समझाने के लिए page को markup कैसे करें?
- text-only LLM को 'screenshot' कैसे दिया जाए?
Tarsier multimodal web agents के लिए एक vision utility है
- यह [1] जैसे IDs के जरिए page के interactable elements को visually 'tag' करने के तरीके से काम करता है
- इससे GPT-4(V) को task पूरा करने के लिए element और ID के बीच mapping मिलती है
- interactable elements को page पर दिखने वाले button, link या input field के रूप में परिभाषित किया गया है
- यह page का text representation भी दे सकता है
  - यानी non-multimodal LLMs में भी अधिक गहरा interaction संभव हो जाता है
  - मौजूदा vision-language models की performance issues को देखते हुए यह एक महत्वपूर्ण बात है
- साथ ही, यह एक OCR utility भी देता है जो page screenshot को vision के बिना LLM द्वारा समझे जा सकने वाले whitespace-structured string में बदल देती है
समर्थित OCR services
- फिलहाल केवल Google Cloud Vision समर्थित है, Amazon Textract और Microsoft Azure Computer Vision का support जल्द आने वाला है

Tarsier - वेब इंटरैक्शन एजेंट्स के लिए विज़न यूटिलिटी

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.