- Diffusion मॉडल ने image, audio और video generation में क्रांति लाई है
- लेकिन इन्हें iterative generation process से गुजरना पड़ता है, इसलिए ये धीमे हैं और real-time में लागू करना मुश्किल है
- Consistency मॉडल Adversarial Training के बिना सिर्फ 1~2 चरणों में बेहतरीन गुणवत्ता की generation कर सकता है
- इस मॉडल में भी कई बार sampling करने पर गुणवत्ता और बेहतर होती है
- zero-shot data editing, image inpainting, colorization, Super-Resolution आदि भी बिना विशेष training के समर्थित हैं
- pre-trained Diffusion Model को distill करने के तरीके से, या एक स्वतंत्र generative model के रूप में train किया जा सकता है
1 टिप्पणियां
पेपर पहले ही प्रकाशित हो चुका था: Consistency Models https://arxiv.org/abs/2303.01469
Diffusion मॉडल के पहले पेपर में 1000 चरणों से होकर generation किया जाता था, और अब लगातार प्रगति के साथ यह 50 चरणों से नीचे आ गया है,
इसे 1~4 चरणों तक घटाने वाले Distilled StableDiffusion2 की बात भी पिछले साल के आखिर में सामने आई थी, लेकिन अभी तक उसका पेपर प्रकाशित नहीं हुआ है.
https://twitter.com/EMostaque/status/1598131202044866560