- SD v1 ने open source AI model के परिदृश्य को बदल दिया था
- SD v2 ने नए text encoder OpenCLIP के साथ text-to-image model को train किया है, जिससे v1 की तुलना में image quality में बड़ा सुधार हुआ है
- 512x512, 768x768 image generation संभव
- LAION-5B dataset के aesthetic subset का उपयोग करके train किया गया है (साथ ही NSFW filter के जरिए adult content को बाहर रखा गया है)
- Upscaler Diffusion model built-in है, जिससे image resolution को 4 गुना बढ़ाया जा सकता है
- यानी 128x128 image को 512x512 तक upscale किया जा सकता है
- यानी, SD v2 अब 2048x2048 resolution या उससे अधिक की images generate कर सकता है
- Depth-to-Image Diffusion model : depth2img
- मौजूदा image-to-image feature को नई संभावनाओं तक विस्तारित करता है
- input image की depth का अनुमान लगाने के बाद text और depth information दोनों का उपयोग करके नई image generate करता है
- यानी image की depth के आधार पर केवल कुछ खास हिस्सों को अलग तरह से generate किया जा सकता है
- Inpainting Diffusion Model में सुधार किया गया
- SD v1 की तरह इसे single GPU environment में भी चलाने लायक optimize किया गया है
1 टिप्पणियां
हम भी SD v1 पर upscaler जोड़कर उपलब्ध करा रहे हैं (512 x 512 में बनाकर, और अगर उपयोगकर्ता चाहे तो चौड़ाई और ऊंचाई को 4 गुना-4 गुना upscale), और SD v1 से सीधे बड़े size की image बनाने की तुलना में वह संयोजन ज़्यादा तेज़ और बेहतर लगा।