11 पॉइंट द्वारा xguru 2023-04-13 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Diffusion मॉडल ने image, audio और video generation में क्रांति लाई है
    • लेकिन इन्हें iterative generation process से गुजरना पड़ता है, इसलिए ये धीमे हैं और real-time में लागू करना मुश्किल है
  • Consistency मॉडल Adversarial Training के बिना सिर्फ 1~2 चरणों में बेहतरीन गुणवत्ता की generation कर सकता है
    • इस मॉडल में भी कई बार sampling करने पर गुणवत्ता और बेहतर होती है
    • zero-shot data editing, image inpainting, colorization, Super-Resolution आदि भी बिना विशेष training के समर्थित हैं
    • pre-trained Diffusion Model को distill करने के तरीके से, या एक स्वतंत्र generative model के रूप में train किया जा सकता है

1 टिप्पणियां

 
xguru 2023-04-13

पेपर पहले ही प्रकाशित हो चुका था: Consistency Models https://arxiv.org/abs/2303.01469

Diffusion मॉडल के पहले पेपर में 1000 चरणों से होकर generation किया जाता था, और अब लगातार प्रगति के साथ यह 50 चरणों से नीचे आ गया है,
इसे 1~4 चरणों तक घटाने वाले Distilled StableDiffusion2 की बात भी पिछले साल के आखिर में सामने आई थी, लेकिन अभी तक उसका पेपर प्रकाशित नहीं हुआ है.
https://twitter.com/EMostaque/status/1598131202044866560