11 पॉइंट द्वारा xguru 2023-05-24 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Vision, audio और language modalities — तीनों को समेटने वाला एक General Representation Model
  • पहले से pre-trained model के बिना भी unified tasks पर बेहतरीन परिणाम देता है
  • शक्तिशाली emergent zero-shot retrieval के ज़रिए training data में paired न की गई modalities को align किया जा सकता है
  • Audio-to-Image, Audio+Text-to-Image, Audio+Image-to-Image

1 टिप्पणियां

 
dbs0829 2023-05-24

लगता है इसने कई tasks में SOTA को पीछे छोड़ दिया है।