ONE-PEACE: असीमित मल्टी-मोडैलिटी के लिए एक सामान्य representation model
(github.com/OFA-Sys)- Vision, audio और language modalities — तीनों को समेटने वाला एक General Representation Model
- पहले से pre-trained model के बिना भी unified tasks पर बेहतरीन परिणाम देता है
- शक्तिशाली emergent zero-shot retrieval के ज़रिए training data में paired न की गई modalities को align किया जा सकता है
- Audio-to-Image, Audio+Text-to-Image, Audio+Image-to-Image
1 टिप्पणियां
लगता है इसने कई tasks में SOTA को पीछे छोड़ दिया है।