Google ने टेक्स्ट-to-वीडियो AI "Imagen Video" पेश किया
(imagen.research.google)- Video Diffusion Model का उपयोग करके टेक्स्ट इनपुट से वीडियो बनाने वाला "Text-conditional Video Generation System"
- इसकी खासियत यह है कि यह टेक्स्ट से लो-रेज़ोल्यूशन वीडियो (24x48 पिक्सेल, 16 फ्रेम, 3fps) बनाता है और फिर 7 diffusion models को cascade करके अपस्केल करता है
- अंतिम आउटपुट 1280x768 24fps है। 5.3 सेकंड लंबा वीडियो जनरेट किया जा सकता है
- पेपर: Imagen Video : High Definition Video Generation with Diffusion Models
1 टिप्पणियां
Imagen - Google का text-to-image diffusion model
Imagen-pytorch - Google Imagen का Pytorch implementation
Make-A-Video : टेक्स्ट से वीडियो जनरेट करने वाला AI