Stable Diffusion - DALL-E जैसा Text-To-Image ओपन सोर्स

xguru · 2022-08-16T10:07:51+09:00

Latent Diffusion मॉडल को LAION-5B डेटाबेस की 512x512 इमेजों पर प्रशिक्षित किया गया Google के Imagen की तरह CLIP ViT-L/14 टेक्स्ट एन्कोडर का उपयोग हल्का होने के कारण 10GB से अधिक VRAM वाले सिर्फ 1 GPU पर भी चल सकता है Stability AI और LAION के शोधकर्ताओं का सहयोग और समर्थन

(github.com/CompVis)

11 पॉइंट द्वारा xguru 2022-08-16 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Latent Diffusion मॉडल को LAION-5B डेटाबेस की 512x512 इमेजों पर प्रशिक्षित किया गया
Google के Imagen की तरह CLIP ViT-L/14 टेक्स्ट एन्कोडर का उपयोग
हल्का होने के कारण 10GB से अधिक VRAM वाले सिर्फ 1 GPU पर भी चल सकता है
Stability AI और LAION के शोधकर्ताओं का सहयोग और समर्थन

1 टिप्पणियां

xguru 2022-08-16

कहा जा रहा है कि modern art illustration जैसी चीज़ों में इसके नतीजे DALL-E 2 या MidJourney से भी बेहतर हैं।
डेवलपर Discord में कहा गया है कि यह M1 Mac पर भी चलता है।
फिलहाल hardware constraints कम होने की वजह से, ऐसा लगता है कि इसे कोई भी आसानी से इस्तेमाल कर सकेगा — यही इसकी बड़ी ताकत हो सकती है।
बेशक यह open source है, लेकिन अभी के लिए इसकी पहुंच सिर्फ academic use तक ही है।

खुद DALL-E जैसी AI image generator चलाना
Imagen - Google का text-to-image diffusion model
LAION-400M - 40 करोड़ image-text pair वाला dataset

Stable Diffusion - DALL-E जैसा Text-To-Image ओपन सोर्स

संबंधित पढ़ाई

1 टिप्पणियां