• LDM compressed low-dimensional latent space में Diffusion Model को train करता है, जिससे बहुत अधिक computing resources के बिना भी high-resolution image synthesis संभव होता है
  • यह NVidia का पेपर है जो इस LDM को high-resolution video पर लागू करता है
  • LDM को पहले image-only के लिए pretrain किया गया, फिर temporal dimension जोड़ा गया, और encoded image sequence को fine-tune करके image generator को video generator में बदला गया
  • diffusion model upsampler को align करके इसे temporally consistent ultra-high-resolution video model में बदला गया

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.