नमस्ते। दूसरी ख़बरें हमेशा मुझसे पहले पोस्ट कर देने वाले लोग होते हैं, इसलिए ऐसा संयोग बना कि Show GN पर यह मेरी पहली पोस्ट बन गई।
मैं उत्सुक था कि क्या UI में यूज़र कहाँ देखते हैं, इसे VLM से predict किया जा सकता है, इसलिए मैंने खुद प्रयोग किया और उसे एक पेपर के रूप में व्यवस्थित किया।
मैंने UEyes नामक dataset का उपयोग करके VLM के gaze prediction परिणामों की तुलना वास्तविक eye-tracking डेटा से की।

मैंने arXiv endorsement के लिए UEyes(cs.HC) के पहले लेखक से भी संपर्क किया, और उन्होंने खुशी-खुशी स्वीकार कर लिया।

paper: https://arxiv.org/abs/2604.26352
github: https://github.com/dunward/uigaze

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.