- LDM compressed low-dimensional latent space में Diffusion Model को train करता है, जिससे बहुत अधिक computing resources के बिना भी high-resolution image synthesis संभव होता है
- यह NVidia का पेपर है जो इस LDM को high-resolution video पर लागू करता है
- LDM को पहले image-only के लिए pretrain किया गया, फिर temporal dimension जोड़ा गया, और encoded image sequence को fine-tune करके image generator को video generator में बदला गया
- diffusion model upsampler को align करके इसे temporally consistent ultra-high-resolution video model में बदला गया
अभी कोई टिप्पणी नहीं है.