9 पॉइंट द्वारा xguru 2022-10-07 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Video Diffusion Model का उपयोग करके टेक्स्ट इनपुट से वीडियो बनाने वाला "Text-conditional Video Generation System"
  • इसकी खासियत यह है कि यह टेक्स्ट से लो-रेज़ोल्यूशन वीडियो (24x48 पिक्सेल, 16 फ्रेम, 3fps) बनाता है और फिर 7 diffusion models को cascade करके अपस्केल करता है
  • अंतिम आउटपुट 1280x768 24fps है। 5.3 सेकंड लंबा वीडियो जनरेट किया जा सकता है
  • पेपर: Imagen Video : High Definition Video Generation with Diffusion Models