- यह लेख लेखक के उस प्रयास पर चर्चा करता है, जिसका उद्देश्य open source मॉडल Stability AI के Stable Diffusion XL 1.0 (SDXL) के प्रदर्शन को बेहतर बनाना है। यह मॉडल 1024x1024 रेज़ोल्यूशन की इमेजें जनरेट करता है।
- SDXL दो मॉडलों से बना है: एक base model और एक वैकल्पिक refiner model, जो गति पर असर डाले बिना डिटेल को काफी बेहतर बनाता है।
- लेखक ने SDXL के साथ काम करने के लिए Hugging Face की diffusers Python library का उपयोग किया और base model तथा refiner model दोनों को load और उपयोग करने के तरीके के उदाहरण दिए।
- लेखक ने मध्यम-स्तर के L4 GPU वाले cloud virtual machine का उपयोग करके इमेजें जनरेट कीं, और उल्लेख किया कि हर 1024x1024 इमेज लगभग 22 सेकंड में बन जाती है।
- लेखक ने diffusers की दो नई सुविधाओं—prompt weighting और Dreambooth LoRA training तथा inference—के साथ प्रयोग किया।
- Prompt weighting, परिणामस्वरूप position text embeddings में terms के गणितीय वज़न को अधिक नियंत्रित करने की सुविधा देकर अंतिम आउटपुट को बेहतर बनाती है।
- Dreambooth LoRA support, थोड़ी संख्या में source images और एक trigger keyword के आधार पर Stable Diffusion की fine-tuning को संभव बनाता है, जिससे उस keyword को दिए गए अन्य संदर्भों में उस इमेज के "concept" का उपयोग किया जा सकता है।
- लेखक ने SDXL की क्षमता की जांच करने के लिए Ugly Sonic जैसे ऐसे concept पर LoRA को train किया, जो Stable Diffusion के मूल dataset में मौजूद नहीं था। परिणाम कहीं बेहतर और अधिक सुसंगत थे।
- लेखक ने "wrong" prompt के साथ अत्यधिक विकृत और बेकार इमेजों पर भी LoRA को train किया। आशा यह थी कि LoRA, "wrong" को एक "negative prompt" की तरह इस्तेमाल करना सीखे और ऐसी इमेजों से बचते हुए कम विकृत इमेजें जनरेट करे।
- लेखक ने पाया कि LoRA, SDXL को अधिक स्मार्ट बनाता है और उसे prompt की भावना के प्रति अधिक वफादार बनाता है, जिससे जनरेट की गई इमेजों की गुणवत्ता और स्पष्टता बेहतर होती है।
- लेखक ने निष्कर्ष निकाला कि खराब इमेजों पर SDXL को train करना, मानव फीडबैक से reinforcement learning (RLHF) के एक रूप जैसा है, जो ChatGPT को शक्तिशाली बनाने वाली तकनीक से मिलता-जुलता है।
- लेखक आगे भी "negative LoRAs" की संभावनाओं का अध्ययन जारी रखने की योजना बना रहे हैं, जिसमें प्रदर्शन सुधारने के लिए उन्हें अन्य LoRAs के साथ merge करना शामिल है।
1 टिप्पणियां
Hacker News राय