खराब AI-जनित इमेजों से Stable Diffusion XL को अधिक समझदार बनाने का प्रयोग

(minimaxir.com)

2 पॉइंट द्वारा GN⁺ 2023-08-23 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Stable Diffusion XL 1.0 एक ओपन सोर्स मॉडल है जो डिफ़ॉल्ट रूप से 1024x1024 इमेज बना सकता है, और diffusers सपोर्ट तथा refiner मॉडल की वजह से व्यक्तिगत प्रयोगों की एंट्री बाधा कम हो गई है
Dreambooth LoRA पूरे मॉडल को दोबारा ट्रेन किए बिना केवल छोटे adapters को ट्रेन करता है, जिससे किसी खास concept को जल्दी जोड़ना और शेयर करना आसान हो जाता है
मुख्य प्रयोग यह था कि SDXL द्वारा बनाई गई विकृत और निम्न-गुणवत्ता वाली इमेजों को wrong से जोड़कर ट्रेन किया जाए, फिर इसे negative prompt के रूप में देकर देखा जाए कि क्या generation के नतीजे बेहतर होते हैं
wrong LoRA ने कई prompts में lighting, texture, layout, हाथ-और-बांहों की अभिव्यक्ति, और prompt fidelity को बेस SDXL या साधारण wrong negative prompt की तुलना में बेहतर बनाया
खराब इमेजों को चुनकर मॉडल को यह सिखाना कि उसे किस दिशा से बचना है, negative LoRA और RLHF के अधिक करीब का एक तरीका है, हालांकि data generation और training time में अभी भी सुधार की गुंजाइश है

SDXL 1.0 और प्रयोग का वातावरण

Stability AI ने पिछले महीने Stable Diffusion XL 1.0 जारी किया और इसे open source के रूप में वितरित किया
SDXL उन ओपन सोर्स मॉडलों में से एक है जो बिना किसी अलग workaround के 1024x1024 resolution इमेज डिफ़ॉल्ट रूप से बना सकता है, इसलिए यह अधिक detail दे सकता है
मॉडल दो भागों से बना है
- base model: मूल इमेज generation संभालता है
- refiner model: detail को काफी बेहतर बनाता है, और speed overhead न होने के कारण संभव हो तो इसे साथ में इस्तेमाल करने की सिफारिश की जाती है
Hugging Face का diffusers SDXL और performance optimization को सपोर्ट करता है, इसलिए example code में थोड़ा बदलाव करके भी प्रयोग किए जा सकते हैं
प्रयोग Google Cloud Platform की Spot instance पर NVIDIA L4 GPU के साथ किया गया
- कुल लागत $0.24 प्रति घंटा थी
- 1024x1024 की एक इमेज बनाने में लगभग 22 सेकंड लगते थे
- mid-range GPU पर एक बार में केवल 1 इमेज ही बनाई जा सकती थी
- कम resolution पर यह तेज़ है, लेकिन नतीजे काफी खराब होते हैं, इसलिए इसकी सिफारिश नहीं की जाती

diffusers में prompt weighting और Dreambooth LoRA

diffusers उन दो features को सपोर्ट करता है जिनका उपयोग पहले Stable Diffusion प्रयोगों में नहीं किया गया था
- prompt weighting
- Dreambooth LoRA training और inference
prompt weighting compel का उपयोग करके शब्दों या phrases की अहमियत को अधिक गणितीय तरीके से नियंत्रित करता है
- किसी शब्द पर कई + या - लगाकर result embedding में उसकी अहमियत बढ़ाई या घटाई जा सकती है
- किसी phrase को brackets में रखकर, जैसे San Francisco landscape by Salvador Dali, (oil on canvas)+++, किसी खास medium expression को मज़बूत किया जा सकता है
परीक्षण में पाया गया कि इस तरीके ने Stable Diffusion 2.0 के बाद कठिन हो चुके अधिकांश prompt tuning को काफी हद तक आसान बना दिया
- डिफ़ॉल्ट guidance_scale 7.5 है
- Max Woolf को 13 पसंद है, और लेख के सभी LoRA examples में भी guidance_scale 13 का उपयोग किया गया है
Dreambooth एक तकनीक है जो कम संख्या में मूल इमेज और trigger keyword के जरिए Stable Diffusion को किसी खास concept पर ट्रेन करती है
LoRA पूरे Stable Diffusion मॉडल के बजाय visual model के लिए केवल छोटे adapters को ट्रेन करता है
- एक सस्ते single GPU पर लगभग 10 मिनट में training संभव है
- final model + LoRA की quality पूर्ण fine-tuning के समान होती है
- यह छोटे binary file के रूप में save होता है, इसलिए शेयर करना आसान है
- जिसे आमतौर पर Stable Diffusion fine-tuning कहा जाता है, वह अक्सर LoRA generation ही होता है
- एक समय में केवल एक LoRA सक्रिय किया जा सकता है, हालांकि कई LoRA को merge करना संभव है, लेकिन यह नाज़ुक काम है

Ugly Sonic LoRA से SDXL की क्षमता की पुष्टि

LoRA के व्यापक उपयोग से पहले textual inversion के जरिए text encoder में concepts सिखाए जाते थे, लेकिन training में समय ज़्यादा लगता था और results को संभालना कठिन हो सकता था
पहले meme character Ugly Sonic, जो मूल Stable Diffusion dataset में नहीं था, को textual inversion से सिखाया गया था, लेकिन परिणाम मिश्रित थे
SDXL की संभावनाओं को परखने के लिए Ugly Sonic को LoRA के रूप में फिर से ट्रेन किया गया
- इसके लिए Hugging Face की train_dreambooth_lora_sdxl.py script का उपयोग किया गया
- कुछ parameters को बदला गया, लेकिन मूल रूप से यह तुरंत काम करने लगा
ट्रेन किया गया Ugly Sonic LoRA विभिन्न prompts पर पहले की तुलना में कहीं बेहतर और अधिक सुसंगत इमेज बनाता है

`wrong` LoRA प्रयोग की रूपरेखा

negative prompt से जुड़े पिछले textual inversion प्रयोग को SDXL LoRA पर दोबारा किया गया, जिसमें विकृत और निम्न-गुणवत्ता वाली इमेजों को wrong prompt से जोड़कर ट्रेन किया गया
लक्ष्य यह देखना था कि जब wrong को negative prompt के रूप में इस्तेमाल किया जाए, तो क्या मॉडल ऐसी इमेजों से दूर जाकर कम विकृत इमेज बना सकता है
synthetic wrong इमेजें स्वयं SDXL से बनाई गईं
- इसके लिए wrong image generator Jupyter Notebook तैयार की गई
- blurry, bad hands जैसे खराब इमेज प्रकारों को अधिक स्पष्ट रूप से अलग दिखाने के लिए अलग-अलग prompt weights का उपयोग किया गया
- high-resolution लेकिन low-quality इमेज बनाने के लिए SDXL का फिर से उपयोग करना पड़ा
बनी हुई wrong इमेजें 2000 के दशक के punk rock album cover जैसी लगती थीं, या पहली नज़र में सामान्य लेकिन ध्यान से देखने पर अप्रिय uncanny valley गुण दिखाती थीं
sdxl-wrong-lora को SDXL base model पर लोड किया गया
- refiner के लिए LoRA की ज़रूरत नहीं है
- तुलना के लिए Jupyter Notebook भी सार्वजनिक की गई है

तुलना का तरीका और प्रमुख परिणाम

तुलना के लिए तीन सेटअप थे
- बिना LoRA का base + refiner pipeline
- बिना LoRA, लेकिन wrong को negative prompt के रूप में देने वाला pipeline
- wrong LoRA लागू करके wrong को negative prompt के रूप में देने वाला pipeline
सभी generations में एक ही seed का उपयोग किया गया ताकि photo composition समान रहे और wrong negative prompt तथा LoRA के प्रभाव की तुलना करना आसान हो
A wolf in Yosemite National Park, chilly nature documentary film photography
- बेस मॉडल में wrong जोड़ने पर जंगल की इमेज में कुछ पत्तियाँ और depth बढ़ती है
- LoRA lighting, shadows, पत्तियों के detail को और बेहतर करता है और भेड़िये को कैमरे की ओर देखने वाली composition में बदल देता है
An extreme close-up of a wolf in Yosemite National Park, chilly nature documentary film photography
- LoRA का result texture, जीवंतता और clarity में बेहतर है
- केवल wrong prompt जोड़ने से भी viewpoint बदल जाता है
a large delicious hamburger (in the shape of five-dimensional alien geometry)++++, professional food photography
- कई prompt engineering प्रयासों के बावजूद पाँच-आयामी alien geometry hamburger को ठीक से संभाला नहीं जा सका
- बेस SDXL ने alien को उम्मीद से अधिक literal तरीके से लिया हुआ लगता है
- LoRA ऐसा “alien” hamburger बनाता है जिसे इंसान के लिए खाना कठिन लगे, और उसमें अधिक चमकदार प्रस्तुति होती है
lossless PDF scan of the front page of the January 2038 issue of the Wall Street Journal featuring a cover story about (evil robot world domination)++
- text readability Stable Diffusion 2.0 की तुलना में बेहतर हुई है, लेकिन तीनों मामलों में लगभग समान है
- LoRA अधिक आधुनिक page composition, विविध article layout, और headlines के सापेक्ष font weight को बेहतर करता है
- बेस मॉडल, wrong negative prompt देने पर भी, page को एकरस और पुराने भूरे कागज़ जैसा दिखाता है
USA President Taylor Swift (signing papers)++++, photo taken by the Associated Press
- बेस SDXL में दाहिना हाथ बहुत अवास्तविक है, और केवल wrong जोड़ने पर स्थिति और खराब हो जाती है
- LoRA में हाथ की समस्या सुधर जाती है, और jacket का रंग भी पीलेपन लिए सफेद के बजाय अधिक साफ़ सफेद के करीब हो जाता है
- फिर भी SDXL 1.0 से इंसान बनाना अभी भी कठिन और अविश्वसनीय है, और हाथों को ध्यान से न देखने की चेतावनी बनी रहती है

अतिरिक्त उदाहरणों में दिखे बदलाव

realistic human Shrek blogging at a computer workstation, hyperrealistic award-winning photo for vanity fair
- हाथ और lighting बेहतर हैं, और कपड़ों का detail तथा background अधिक रोचक हो जाते हैं
pepperoni pizza in the shape of a heart, hyperrealistic award-winning professional food photography
- pepperoni detail और गर्मी से बने bubbles अधिक स्पष्ट दिखते हैं, किनारों पर अत्यधिक pepperoni कम हो जाता है, और crust अधिक crispy दिखता है
presidential painting of realistic human Spongebob Squarepants wearing a suit, (oil on canvas)+++++
- Spongebob की नाक वापस आ जाती है और suit पर buttons की संख्या बढ़ जाती है
San Francisco panorama attacked by (one massive kitten)++++, hyperrealistic award-winning photo by the Associated Press
- LoRA वास्तव में prompt का पालन करने की कोशिश करता हुआ दिखता है
hyperrealistic death metal album cover featuring edgy moody realistic (human Super Mario)++, edgy and moody
- Mario का proportion game character के अधिक करीब हो जाता है, और character lighting अधिक तीखी तथा उदास हो जाती है

सार्वजनिक सामग्री और पुनरुत्पादन का तरीका

wrong LoRA Hugging Face पर सार्वजनिक है
diffusers के अलावा अन्य interfaces में इसके प्रभाव की गारंटी नहीं दी जा सकती
इमेज generation में उपयोग किए गए notebooks GitHub repository में सार्वजनिक हैं
सामान्य SDXL 1.0 + refiner + wrong LoRA के लिए Colab Notebook मुफ्त T4 GPU पर चलाया जा सकता है
लेख में उपयोग की गई generated images के high-resolution versions post source code में देखे जा सकते हैं

`wrong` LoRA ने काम क्यों किया

शुरुआती अनुमान यह था कि wrong LoRA केवल image quality और clarity बढ़ाएगा, लेकिन वास्तविक परिणाम SDXL के prompt intent के प्रति अधिक faithful व्यवहार के रूप में सामने आए
तकनीकी रूप से negative prompt diffusion प्रक्रिया शुरू होने वाले latent space के क्षेत्र को सेट करता है
- LoRA के बिना wrong negative prompt का उपयोग करने की स्थिति
- LoRA लागू करके wrong negative prompt का उपयोग करने की स्थिति
- दोनों ही स्थितियों में शुरुआती क्षेत्र समान होता है
सहज रूप से देखें तो LoRA ने high-dimensional latent space के अवांछित क्षेत्रों को शुरुआती क्षेत्र के अधिक समान रूप में reshape किया, जिससे सामान्य generation के उन क्षेत्रों तक पहुँचने की संभावना कम हुई और परिणाम बेहतर हुए
खराब इमेजों से SDXL को ट्रेन करके सुधारना तकनीकी रूप से RLHF के एक रूप के रूप में देखा जा सकता है
- OpenAI सकारात्मक user interaction से मॉडल को बेहतर बनाता है और नकारात्मक व्यवहार को परोक्ष रूप से कम करता है
- यह प्रयोग उन इमेजों का उपयोग करता है जिन्हें उपयोगकर्ता ने खराब चुना, ताकि सकारात्मक व्यवहार को परोक्ष रूप से बढ़ाया जा सके
Dreambooth LoRA को large language model जितने अधिक input data की ज़रूरत नहीं होती

आगे की संभावनाएँ और अगले प्रयोग

negative LoRA में अभी भी सुधार की काफी गुंजाइश है
- synthetic dataset generation parameters को और बेहतर बनाया जा सकता है
- LoRA को अधिक समय तक train किया जा सकता है
यह भी परीक्षण का विषय है कि क्या अन्य LoRA के साथ merge करके performance बढ़ाई जा सकती है
- विशेष रूप से wrong LoRA और Ugly Sonic LoRA के संयोजन का उदाहरण दिया गया है
SDXL ControlNet के लिए diffusers model को भी सपोर्ट करता है
- ControlNet generated images के overall shape और composition को मज़बूती से नियंत्रित कर सकता है
- ControlNet को LoRA के साथ भी उपयोग किया जा सकता है
AI image generation quality improvement research के एक कारण के रूप में पारदर्शी AI journalism पर ज़ोर दिया गया है
- इसमें reproducible prompts और Jupyter Notebook को सार्वजनिक करना शामिल है
- मौजूदा venture capital माहौल में उद्योग के नए AI image generation improvements सार्वजनिक न किए जाने की आशंका भी जताई गई है
- साथ ही यह भी स्पष्ट किया गया है कि पेशेवर कलाकारों को AI से बदलने का समर्थन या अनुमोदन नहीं किया जाता

1 टिप्पणियां

GN⁺ 2023-08-23

Hacker News की राय

पर्सनलाइज़्ड RLHF का कॉन्सेप्ट वाकई दिलचस्प है
किसी खास generative AI सिस्टम के साथ interaction बढ़ने पर, ऐसा लगता है कि output को व्यक्तिगत पसंद की दिशा में meaningful तरीके से adjust करने लायक interaction data जमा हो जाएगा। अच्छा होगा अगर UI बेहतर होकर इस प्रक्रिया को जितना हो सके उतना transparent बना दे
productization के नज़रिए से, generate की गई हर image पर “like/dislike” feedback जोड़ना और wrong को override करने वाला optional text label जोड़ना आसान लगता है। पर्याप्त human feedback जमा होने पर, या हर रात batch job चलाकर, नए LoRA को व्यक्तिगत preferences के हिसाब से दोबारा train किया जा सकता है
prompt से N candidate images बनाकर उनमें से एक चुनकर refine करने वाली implicit tree search में भी human feedback collect किया जा सकता है। और explicit तरीके से देखें तो batch को जल्दी rank/score करने वाला UI रखा जा सकता है, या हर iterative improvement step पर पसंद न आने वाली images को हटाने के लिए trash रखा जा सकता है, ताकि बाद में negative feedback को project/global LoRA updates में इकट्ठा करके शामिल किया जा सके
image generation के तुरंत बाद key input से react करने वाला बहुत छोटा feedback loop बनाया जाए तो यह भी जानने लायक है कि shortest iteration cycle कितनी छोटी हो सकती है। अगर कोई कई घंटों तक device से बंधा रहकर प्रति सेकंड 1 के हिसाब से करीब 10,000 preferences इकट्ठा करे, तो क्या model उन images को काफी बेहतर बना पाएगा जो उस व्यक्ति को personally पसंद आएंगी? हालांकि यह काफी intense है और कुछ-कुछ Clockwork Orange जैसा feel भी देता है
लेख में wrong images की संख्या नहीं दिखी, लेकिन code सरसरी तौर पर देखने पर लगता है कि 13 keywords और प्रति keyword करीब 6 images थीं, यानी बहुत ज़्यादा नहीं। अगर लगभग 100 feedback से ही model को इतना adjust किया गया, तो यह हैरान करने लायक कम मात्रा है
- AI Horde Stability.ai के साथ मिलकर असल में यही flow implement कर रहा है
  AI Horde एक open-source distributed cluster है जो volunteers द्वारा दिए गए GPUs पर चलता है, और Stability.ai कुछ GPU resources देकर A/B tests चलाता है
  AI Horde UI Lucid Creations या खुद बनाए ArtBot से SDXL model के लिए images request करने पर आपको 2 images मिलती हैं। एक SDXL v1.0 से generate होती है और दूसरी updated model से, लेकिन आपको पता नहीं चलता कि कौन-सी कौन है
  user को बस दोनों में से ज़्यादा पसंद आने वाली image चुननी होती है, और result Stability.ai को वापस जाता है, जहां analysis करके future image models में शामिल किया जाता है
  इसके अलावा AI Horde और LAION भी इसी तरह सहयोग करके उसी उद्देश्य के लिए user-defined aesthetic ratings उपलब्ध कराते हैं
  https://aihorde.net/
  https://dbzer0.com/blog/stable-diffusion-xl-beta-on-the-ai-h...
  https://dbzer0.itch.io/lucid-creations
  https://tinybots.net/artbot
  https://laion.ai/blog/laion-stable-horde/
- सही। 6 CFG values × 13 keywords = 78 images हैं
  हालांकि उनमें से कुछ बहुत उपयोगी नहीं हैं। उदाहरण के लिए “random text” कभी-कभी पुराने SMS app जैसे results देता दिखता है
  LoRA अच्छी तरह काम करता है और सिर्फ 4–5 images भी काफी हो सकती हैं, लेकिन वह पुराने और छोटे Stable Diffusion के संदर्भ में था। इसलिए SDXL के लिए मैंने ज़्यादा images इस्तेमाल कीं और LoRA को थोड़ा ज्यादा देर तक train किया। तुलना के लिए, Ugly Sonic LoRA ने करीब 14 images इस्तेमाल की थीं, और शायद वह overfit हो गया होगा
- आपको हमारे द्वारा develop किए जा रहे open-source framework https://github.com/agentic-ai/enact में दिलचस्पी हो सकती है
  यह अभी शुरुआती stage में है, लेकिन core insight यह है कि text हो या image, single model हो या model chain, कई generative AI flows को किसी न किसी तरह के feedback signal से align करना पड़ता है, इसलिए इसे support करने वाली basic infrastructure बनाना सही है। शुरुआती demos में से एक बिल्कुल ऐसा ही flow था, और actual model weights adjust करने के बजाय सस्ते proxy के रूप में prompt improvement का इस्तेमाल किया गया था
  मोटे तौर पर लक्ष्य Python-level core infrastructure बनाना है, जिससे flow को लगभग native Python में आसानी से लिखा जा सके और evaluator जैसे “human components” के execution सहित generation flow के execution को track किया जा सके। time travel/rewind/rerun, automatic gradio UI, FastAPI भी support हैं, लेकिन आखिरी दो अभी बहुत experimental हैं
  medium term में हम चाहते हैं कि किसी भी generation flow को “human evaluation” flow से wrap करके API या gradio UI के रूप में automatically deploy किया जा सके, और फिर RLHF, fine-tuning, generation sub-components के A/B testing जैसी अलग-अलग techniques से उसे आसानी से align किया जा सके
  अभी हम “skeleton” को सही तरह से सेट करने पर focus कर रहे हैं, लेकिन quick start doc https://github.com/agentic-ai/enact/blob/main/examples/quick... और README https://github.com/agentic-ai/enact/tree/main#why-enact देखने पर दिशा काफी समझ आ जाती है। हम इसे try करने या contribute करने वाले लोगों की तलाश में हैं
- RLHF का मतलब human feedback-based reinforcement learning है
  क्या ऐसे systems पहले से ही human feedback के आधार पर अच्छी चीज़ों को ज़्यादा और बुरी चीज़ों को कम score करना नहीं सीखते?
- Implicit RLHF explicit तरीके से बेहतर काम करता है
  यह Mom test जैसा है: जब आप किसी से evaluate करने को कहते हैं, तो वही सवाल evaluation को प्रभावित कर देता है
  upscaling flow इस्तेमाल किया जा सकता है, लेकिन इसे Discord-based Midjourney की तरह सीमित होने की ज़रूरत नहीं है। सभी full-size images दिखाकर यह भी detect किया जा सकता है कि user ने copy/save/right-click किया या नहीं
Stable Diffusion से आर्ट बनाना वाकई एक मज़ेदार hobby बन गया है
SD 1.5/2.0 और SDXL के बीच फर्क बहुत बड़ा है, और quality इतनी तेज़ी से बेहतर हो रही है, यह प्रभावशाली है
- क्या आप समझा सकते हैं कि SD 1.5/2.0 और SDXL में फर्क इतना बड़ा क्यों है?
  मैंने अभी तक SDXL इस्तेमाल नहीं किया है, लेकिन 1.5 बहुत ज़्यादा इस्तेमाल किया है
  अब तक मैं इसे बस ज़्यादा resolution और ज़्यादा “quality” के तौर पर समझ रहा था, लेकिन realistic vision 3 लंबे समय तक इस्तेमाल करने के कारण मुझे quality की समस्या कभी नहीं हुई। upscaling इस्तेमाल करने पर ज़्यादा resolution की भी ज़रूरत नहीं पड़ी
करीब 5 साल पहले कुछ data scientists के बीच PC के हर key input का record रखना trend बन गया था, और अब जब देखता हूँ कि वह data सच में काफी उपयोगी हो गया है, तो थोड़ी ईर्ष्या होती है
मेरे पास पसंदीदा anime illustrations का 30,000 images वाला collection है, और 5 साल पहले मैंने उन्हें aesthetic score के आधार पर competitive ranking तक दी थी; लगता है ऐसी चीज़ में यह काफी काम आ सकता है
बहुत शानदार। जल्द ही इस idea को खुद run करके देखने वाला हूँ। मैं भी थोड़ा scientist हूँ :)
कुछ दिन पहले मैंने एक दिलचस्प चीज़ की। SDXL Base Model को Diffusers के साथ इस्तेमाल करके कई style prompts मिलाकर images generate कीं, फिर उन images से LoRA train किया, और फिर उसी LoRA तथा training set generate करने में इस्तेमाल हुए prompts के साथ दोबारा generate किया
नतीजतन effect और मजबूत हो गया—ज़्यादा glitchy, ज़्यादा अजीब, और high-resolution जैसा महसूस हुआ
results यहाँ हैं: https://imgur.com/gallery/vUobKPK
ज़ाहिर है, मैं इन generations से एक और LoRA train करूँगा और process repeat करूँगा
सोचने पर लगा कि यह Diffusers की 77 token limit को bypass करने और कहीं ज़्यादा styles develop करने का काफी अच्छा तरीका है
LoRA को https://replicate.com/galleri5/nammeh पर आज़माया जा सकता है। GitHub account चाहिए
जल्द ही इसे CivitAI पर भी upload करूँगा
अच्छा होगा अगर LoRa को civitai.com और Stable Diffusion Reddit पर भी upload कर दें
results काफी अच्छे लग रहे हैं और इसे try करने का इंतज़ार है। मुझे नहीं पता था कि generated images का craze ठंडा पड़ गया है; मैं तो इसे लगातार regularly इस्तेमाल कर रहा हूँ, इसलिए मुझे यह हमेशा चर्चा में लगता है
- original release मैंने /r/StableDiffusion पर post किया था, लेकिन comments सारे “यह A1111 के साथ compatible क्यों नहीं है?” ही थे, और conversion के लिए कोई अच्छा script नहीं मिला: https://www.reddit.com/r/StableDiffusion/comments/15r5k3i/i_...
  Civitai ने LoRA लेकर publish कर दिया: https://civitai.com/models/128708/sdxl-wrong-lora
- लोग अपनी आदतों के आधार पर मान लेते हैं कि सब लोग भी वैसा ही करते होंगे, और मैं भी यह काफी बार करता हूँ। मेरे नज़रिए से generated images का craze अभी भी गरम है
  अगर SDXL को लेकर मैं बहुत excited नहीं था, तो इसलिए कि image quality में कोई बहुत बड़ा jump महसूस नहीं हुआ। size double होना अच्छा है, लेकिन हमेशा 1024x1024 images generate करना नहीं चाहूँगा, इसलिए यह problem भी है
  मैं अभी भी third-party trained SD 1.5 models इस्तेमाल करता हूँ; output सचमुच अच्छा है और upscaling के करीब 5 तरीके हैं, जिनमें से कम-से-कम एक enlarge करते हुए नए details add कर देता है
थोड़ा related बात: वजह अभी साफ नहीं है, लेकिन Stable Diffusion XL के लिए मैंने जो LoRA बनाए हैं, वे तभी ठीक से काम करते हैं जब काफी generic negative prompt दिया जाए
मैंने अपने चेहरे की 6 photos से fine-tuning की, लेकिन सिर्फ positive prompt इस्तेमाल करने पर generated character मुझसे बहुत मिलता-जुलता नहीं होता। लेकिन “low quality” जैसे generic negative words जोड़ते ही अचानक मेरे चेहरे का depiction लगभग accurate हो जाता है
मैंने कई models train किए हैं, और अलग-अलग learning rates व training epochs की संख्या में भी यही लगातार हुआ
आखिरकार मुझे लगता है कि यह phenomenon किसी न किसी तरह इस article में minimaxir ने जो observe किया, उसे पैदा करने वाली वजह से जुड़ा होगा
मैं इस बात से सहमत नहीं हूँ कि generated image AI का craze ठंडा पड़ गया, इसलिए SDXL release कुल मिलाकर चुपचाप निकल गया
जिन लोगों से मैंने बात की, उनके हिसाब से दो वजहें थीं। पहली, ज़्यादा VRAM और compute requirements। दूसरी, specialized SD1.5 models की तुलना में result quality कम मानी गई
मुझे यकीन है कि अगर इनमें से कोई एक भी अलग होता, तो यह कहीं ज़्यादा popular होता
लेकिन आखिरकार ज़्यादातर लोग इंतज़ार कर रहे हैं कि specialized SDXL models वाकई specialized 1.5 models से आगे निकल सकते हैं या नहीं
- वजह output quality का कम होना है
  casual तौर पर इस्तेमाल करने वाले ज़्यादातर लोगों के लिए यह थोड़ी देर छेड़ने वाला toy जैसा है। उत्साही SD fans… शायद hardcore चीज़ें बना रहे होंगे
  XL porn में कमजोर है। Stability अपनी बनाई चीज़ से डर गई और “safety” की तरफ hedge करना चाहा। आखिर Kate Middleton या Emma Watson porn बहुत believable नहीं होना चाहिए
  लोग 1.5 का इस्तेमाल तब तक जारी रखेंगे जब तक कुछ बेहतर नहीं आ जाता, खासकर porn में बेहतर चीज़ आने तक
यह concept नया नहीं है। civit.ai पर हाथों और खराब anatomy को ठीक करने के लिए negative prompt में डालने वाले बहुत सारे negative embeddings हैं
- वह article में mention किया गया पिछला textual inversion experiment था: https://minimaxir.com/2022/11/stable-diffusion-negative-prom...
  यह article negative LoRA के बारे में है, जो technical level पर उसी तरह काम नहीं करता
शायद 90s के “counterculture vs counterculture ही, लेकिन MTV पर आने वाली counterculture” वाले विरोधाभासी माहौल में बड़े होने का असर है कि जब prompt “award winning photo for vanity fair” जैसे tag reference पर खत्म होता है, तो इस generated image wave का हिस्सा न बनने की गहरी इच्छा पैदा होती है
ऐसे articles में prompt writer जो भी standard tag suffix इस्तेमाल करता है, वह भी कुछ ऐसा ही महसूस कराता है
- “award winning photo for vanity fair” आम तौर पर अच्छी photo composition, जैसे rule of thirds, निकालने की एक trick जैसा है
“LoRA को एक बार में सिर्फ एक ही active किया जा सकता है” वाली बात कम-से-कम auto1111 में बिल्कुल सच नहीं है
- मेरी याद के मुताबिक, अंदर से यह merging और weight adjustment करने का तरीका है

खराब AI-जनित इमेजों से Stable Diffusion XL को अधिक समझदार बनाने का प्रयोग

SDXL 1.0 और प्रयोग का वातावरण

diffusers में prompt weighting और Dreambooth LoRA

Ugly Sonic LoRA से SDXL की क्षमता की पुष्टि

wrong LoRA प्रयोग की रूपरेखा

तुलना का तरीका और प्रमुख परिणाम

अतिरिक्त उदाहरणों में दिखे बदलाव

सार्वजनिक सामग्री और पुनरुत्पादन का तरीका

wrong LoRA ने काम क्यों किया

आगे की संभावनाएँ और अगले प्रयोग

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय

`wrong` LoRA प्रयोग की रूपरेखा

`wrong` LoRA ने काम क्यों किया