Stable Diffusion - DALL-E जैसा Text-To-Image ओपन सोर्स
(github.com/CompVis)- Latent Diffusion मॉडल को LAION-5B डेटाबेस की 512x512 इमेजों पर प्रशिक्षित किया गया
- Google के Imagen की तरह CLIP ViT-L/14 टेक्स्ट एन्कोडर का उपयोग
- हल्का होने के कारण 10GB से अधिक VRAM वाले सिर्फ 1 GPU पर भी चल सकता है
- Stability AI और LAION के शोधकर्ताओं का सहयोग और समर्थन
1 टिप्पणियां
कहा जा रहा है कि modern art illustration जैसी चीज़ों में इसके नतीजे DALL-E 2 या MidJourney से भी बेहतर हैं।
डेवलपर Discord में कहा गया है कि यह M1 Mac पर भी चलता है।
फिलहाल hardware constraints कम होने की वजह से, ऐसा लगता है कि इसे कोई भी आसानी से इस्तेमाल कर सकेगा — यही इसकी बड़ी ताकत हो सकती है।
बेशक यह open source है, लेकिन अभी के लिए इसकी पहुंच सिर्फ academic use तक ही है।
खुद DALL-E जैसी AI image generator चलाना
Imagen - Google का text-to-image diffusion model
LAION-400M - 40 करोड़ image-text pair वाला dataset