ONE-PEACE: असीमित मल्टी-मोडैलिटी के लिए एक सामान्य representation model

xguru · 2023-05-24T10:47:01+09:00

Vision, audio और language modalities — तीनों को समेटने वाला एक General Representation Model पहले से pre-trained model के बिना भी unified tasks पर बेहतरीन परिणाम देता है शक्तिशाली emergent zero-shot retrieval के ज़रिए training data में paired न की गई modalities को align किया जा सकता है Audio-to-Image, Audio+Text-to-Image, Audio+Image-to-Image

(github.com/OFA-Sys)

11 पॉइंट द्वारा xguru 2023-05-24 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Vision, audio और language modalities — तीनों को समेटने वाला एक General Representation Model
पहले से pre-trained model के बिना भी unified tasks पर बेहतरीन परिणाम देता है
शक्तिशाली emergent zero-shot retrieval के ज़रिए training data में paired न की गई modalities को align किया जा सकता है
Audio-to-Image, Audio+Text-to-Image, Audio+Image-to-Image

1 टिप्पणियां

dbs0829 2023-05-24

लगता है इसने कई tasks में SOTA को पीछे छोड़ दिया है।

ONE-PEACE: असीमित मल्टी-मोडैलिटी के लिए एक सामान्य representation model

संबंधित पढ़ाई

1 टिप्पणियां