2 पॉइंट द्वारा GN⁺ 2023-08-23 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • यह लेख लेखक के उस प्रयास पर चर्चा करता है, जिसका उद्देश्य open source मॉडल Stability AI के Stable Diffusion XL 1.0 (SDXL) के प्रदर्शन को बेहतर बनाना है। यह मॉडल 1024x1024 रेज़ोल्यूशन की इमेजें जनरेट करता है।
  • SDXL दो मॉडलों से बना है: एक base model और एक वैकल्पिक refiner model, जो गति पर असर डाले बिना डिटेल को काफी बेहतर बनाता है।
  • लेखक ने SDXL के साथ काम करने के लिए Hugging Face की diffusers Python library का उपयोग किया और base model तथा refiner model दोनों को load और उपयोग करने के तरीके के उदाहरण दिए।
  • लेखक ने मध्यम-स्तर के L4 GPU वाले cloud virtual machine का उपयोग करके इमेजें जनरेट कीं, और उल्लेख किया कि हर 1024x1024 इमेज लगभग 22 सेकंड में बन जाती है।
  • लेखक ने diffusers की दो नई सुविधाओं—prompt weighting और Dreambooth LoRA training तथा inference—के साथ प्रयोग किया।
  • Prompt weighting, परिणामस्वरूप position text embeddings में terms के गणितीय वज़न को अधिक नियंत्रित करने की सुविधा देकर अंतिम आउटपुट को बेहतर बनाती है।
  • Dreambooth LoRA support, थोड़ी संख्या में source images और एक trigger keyword के आधार पर Stable Diffusion की fine-tuning को संभव बनाता है, जिससे उस keyword को दिए गए अन्य संदर्भों में उस इमेज के "concept" का उपयोग किया जा सकता है।
  • लेखक ने SDXL की क्षमता की जांच करने के लिए Ugly Sonic जैसे ऐसे concept पर LoRA को train किया, जो Stable Diffusion के मूल dataset में मौजूद नहीं था। परिणाम कहीं बेहतर और अधिक सुसंगत थे।
  • लेखक ने "wrong" prompt के साथ अत्यधिक विकृत और बेकार इमेजों पर भी LoRA को train किया। आशा यह थी कि LoRA, "wrong" को एक "negative prompt" की तरह इस्तेमाल करना सीखे और ऐसी इमेजों से बचते हुए कम विकृत इमेजें जनरेट करे।
  • लेखक ने पाया कि LoRA, SDXL को अधिक स्मार्ट बनाता है और उसे prompt की भावना के प्रति अधिक वफादार बनाता है, जिससे जनरेट की गई इमेजों की गुणवत्ता और स्पष्टता बेहतर होती है।
  • लेखक ने निष्कर्ष निकाला कि खराब इमेजों पर SDXL को train करना, मानव फीडबैक से reinforcement learning (RLHF) के एक रूप जैसा है, जो ChatGPT को शक्तिशाली बनाने वाली तकनीक से मिलता-जुलता है।
  • लेखक आगे भी "negative LoRAs" की संभावनाओं का अध्ययन जारी रखने की योजना बना रहे हैं, जिसमें प्रदर्शन सुधारने के लिए उन्हें अन्य LoRAs के साथ merge करना शामिल है।

1 टिप्पणियां

 
GN⁺ 2023-08-23
Hacker News राय
  • personalized RLHF (Reinforcement Learning from Human Feedback) की अवधारणा ध्यान आकर्षित कर रही है, और इसमें AI output को किसी व्यक्ति की पसंद के अनुसार दिशा देने की क्षमता है।
  • AI system द्वारा बनाई जाने वाली हर image में "पसंद/नापसंद" feedback option लागू करने का सुझाव दिया गया, और इसके साथ "गलत" images को नज़रअंदाज़ करने के लिए एक वैकल्पिक text label भी प्रस्तावित किया गया।
  • feedback के लिए संभव सबसे तेज़ iteration loop को लेकर सवाल उठाया गया, और यह विचार रखा गया कि model के व्यक्तिगत रूप से पसंद की जाने वाली images output करने की संभावना बढ़ाने के लिए प्रति सेकंड लगभग 10k preference इकट्ठा किए जाएँ।
  • कला निर्माण के लिए Stable Diffusion (SD) के उपयोग को मान्यता दी गई, और SD 1.5/2.0 तथा SDXL के बीच का अंतर महत्वपूर्ण बताया गया।
  • data scientists ने अपने PC पर किए गए सभी keypresses को रिकॉर्ड किया, और इसे अब AI system के लिए उपयोगी data माना जा रहा है।
  • SDXL Base Model का उपयोग करके विभिन्न styles के prompts मिलाकर images बनाने, उनसे LoRA (Learning from Observations and Rewards) को train करने, और फिर उसी LoRA + training set बनाने में इस्तेमाल हुए prompts के साथ दोबारा generation करने का विचार साझा किया गया।
  • इस प्रक्रिया के परिणाम को एक बढ़े हुए प्रभाव के रूप में बताया गया - ज़्यादा errors, ज़्यादा अजीब, high-resolution में।
  • माना जाता है कि image generation AI की release को ज़्यादा ध्यान नहीं मिला, क्योंकि इसमें higher vram और compute requirements थे, और specialized SD1.5 models की तुलना में lower-quality output मिल रहा था।
  • Stable Diffusion XL के लिए बनाए गए LORAs के बारे में बताया गया कि वे केवल सामान्य negative prompts के साथ ही अच्छी तरह काम करते हैं।
  • एक साथ कई LoRAs को सक्रिय करने की क्षमता को लेकर विवाद है।
  • RLHF का उपयोग करके GPT3 को अधिक उपयोग में आसान बनाना मान्य माना गया, और यह आशा जताई गई कि भविष्य के models में खराब results को negative training data के रूप में शामिल किया जाएगा।
  • LoRAs को merge करने की संभावना का ज़िक्र किया गया, और एक ऐसे सेटअप में रुचि दिखाई गई जिसमें एक LoRA personal subjects को शामिल करे, दूसरा results को improve करे, और तीसरा किसी specific style के लिए हो।