3 पॉइंट द्वारा xguru 2023-05-31 | 3 टिप्पणियां | WhatsApp पर शेयर करें
  • Vision, audio और language modalities सभी को समेटने वाला एक General Representation Model
  • पहले से pre-trained model के बिना भी integrated tasks पर बेहतरीन परिणाम देता है
  • शक्तिशाली emergent zero-shot retrieval के ज़रिए training data में paired न की गई modalities को align किया जा सकता है
  • Audio-to-Image, Audio+Text-to-Image, Audio+Image-to-Image

3 टिप्पणियां

 
ninebow 2023-05-31

अरे, लगता है यह वही चीज़ है जो आपने पिछले हफ़्ते पोस्ट की थी. +_+
https://hi.news.hada.io/topic?id=9249

 
xguru 2023-05-31

अरे, मैंने गलती से कुछ और ही कॉपी कर लिया था... यह Slack पर भी शेयर हो गया था, इसलिए इसे ऐसे ही छोड़ रहा हूँ
(चूंकि यह महत्वपूर्ण है, तो इसे दो बार देख लें.. सिसक)

 
ninebow 2023-05-31

जी, धन्यवाद! 🙇🏼‍♂️
(आपकी वजह से पता चला कि xguru जी इसे खुद सीधे पोस्ट करते हैं! 🤣)