HN परिचय: SDXL Lightning का उपयोग करके रीयल-टाइम इमेज जनरेशन

(fastsdxl.ai)

1 पॉइंट द्वारा GN⁺ 2024-02-23 | 1 टिप्पणियां | WhatsApp पर शेयर करें

1 टिप्पणियां

GN⁺ 2024-02-23

Hacker News की राय

कल मैंने इसे Groq के साथ इस्तेमाल करके Neal Agrawal के infinite fun game को Chrome extension के रूप में बेहतर बनाया, और इसे सिर्फ emoji नहीं बल्कि असली images generate करने लायक बना दिया
लगभग real-time image generation और LLM generation भविष्य जैसा लगता है। Prompt लिखने के लिए Groq का Mixtral इस्तेमाल किया, और real-time generation के लिए Fal API इस्तेमाल किया
https://x.com/altryne/status/1760561501096575401?s=20
- इसे side-scrolling game में बदल दिया जाए तो अच्छा होगा, जहां आगे बढ़ते हुए background उन शब्दों की renderings में धीरे-धीरे और natural तरीके से transition करे जिनसे वह deal कर रहा है
  कल्पना कीजिए कि demo की शुरुआत का नीला landscape धीरे-धीरे बाद की image के सूखे पहाड़ी terrain में बदलता है, और foreground में एक नया character आ जाता है
- सोच रहा हूं कि क्या इसे card-based game में बदला जा सकता है
- सच में बहुत अच्छा लग रहा है। जानना चाहूंगा कि Chrome extension share करने की संभावना है या नहीं
रिकॉर्ड के लिए, SDXL Lightning Hugging Face पर अपेक्षाकृत उदार license के साथ जारी किया गया open source है: https://huggingface.co/ByteDance/SDXL-Lightning
कुछ दूसरे UI भी हैं। जैसे: https://replicate.com/lucataco/sdxl-lightning-4step
- सही है। अंदर से यह SDXL Lightning इस्तेमाल करता है, जिसे ByteDance ने Stable Diffusion XL के ऊपर train करके open source किया है
  इसमें अपना inference engine और real-time infrastructure जोड़कर दूसरे UI की तुलना में अधिक smooth experience दिया गया है। speed के हिसाब से तो तुलना लगभग बनती ही नहीं; यहां 4 steps करीब 370ms में होते हैं, जबकि linked replicate example करीब 2–3 seconds का है
- Gradio से भी demo बनाया था, लेकिन यह fal.ai से 2 गुना धीमा है। single A10G पर stable-fast compilation इस्तेमाल किया है
  https://huggingface.co/spaces/radames/Real-Time-Text-to-Imag...
  GPU/CUDA/Docker हो तो इसे local पर भी चलाकर देख सकते हैं
  docker run -it -p 7860:7860 --platform=linux/amd64 --gpus all -e SFAST_COMPILE="1" -e USE_TAESD="0" registry.hf.space/radames-real-time-text-to-image-sdxl-lightning:latest python app.py
- local inference में memory usage और speed कितनी होती है, यह जानना चाहूंगा
speed शानदार है
quality के लिए, मैंने वह prompt उधार लिया जिसे आज लोग Stable Diffusion 3 और दूसरे models test करने में इस्तेमाल कर रहे थे: "Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat"
मुझे जो result मिला वह यह है: https://imgur.com/a/XrAuqCB
Stable Diffusion 3 से तुलना करें तो: https://pbs.twimg.com/media/GG8mm5va4AA_5PJ?format=jpg&name=...
1. https://news.ycombinator.com/item?id=39467526
- spatial prompt adherence SDXL या पुराने Stable Diffusion family में आम तौर पर कमजोर रहा है। उम्मीद है कि Stable Diffusion इस हिस्से को example की तरह अच्छी तरह polish करेगा
  latest open-weights Stability model Stable Cascade में भी यही example test किया, और वह भी बहुत अच्छा नहीं रहा: https://fal.ai/models/stable-cascade?share=eab44060-690b-497...
- मुझे मिला result काफी accurate है: https://imgur.com/a/vH0zq5b
  seed: 3919562
- seed बदल-बदलकर चलाने पर results बहुत अलग हो जाते हैं
demo सच में impressive है, लेकिन अगर यह और smooth होता तो कहीं ज्यादा चौंकाने वाला लगता। अभी, उदाहरण के लिए, कोई word delete करने या space add करने पर थोड़े समय में inference 4 बार होता है, जिससे थोड़ा झटका-सा महसूस होता है
हो सकता है कि यह जानबूझकर step-by-step results दिखाने के लिए हो। संदर्भ के लिए, यह fal.ai का demo है, और मुझे उनके बारे में पहली बार उस सुबह पता चला जब Stable Cascade release हुआ था और उन्होंने demo post किया था
अगर OpenAI के बाहर inference run करना हो तो मैं fal.ai को बहुत strongly recommend करूंगा। मैं AI industry में लगभग 3 साल से हूं, और पिछले साल से तो लगभग 24 घंटे इससे जुड़ा रहा हूं; Fal ऐसा पहला service लगता है जो paper में लिखे numbers नहीं, बल्कि real usage में इसे इतना तेज बनाने के लिए details पर ध्यान देता है
उदाहरण के लिए WebSocket connections, API key से request sign करने के लिए edge function से होकर न गुजरना पड़े, इसके लिए short-lived JWT जैसी चीजें
- अगर यह इतना तेज है, तो target image पर सीधे jump करने के बजाय latent space के अंदर किसी smooth path पर चलते हुए intermediate images generate करना बेहतर हो सकता है
यह डेमो वाकई बहुत पसंद आया। यह accessible, तेज़ और intuitive है। इतनी आसानी से इस स्तर की quality मिल सकती है, यह हैरान करने वाला है
- यह डेमो और Groq वाकई कमाल के थे। कुछ समय पहले तक याद है कि account बनाने पर करीब 20 free generations देने वाली sites पर एक टूटी-फूटी image पाने के लिए लंबा इंतज़ार करना पड़ता था
  अब बिना signup या CAPTCHA के website पर जाकर बिजली जैसी तेज़ text और image generation कर पाना शानदार है। खासकर यह देखते हुए कि Groq और fal.ai demos को पूरी तरह open रख पाने की स्थिति में हैं, 2024 की शुरुआत में ऐसी performance improvement की उम्मीद नहीं थी
  मुझे लगता है कि तेज़ generation image quality की कमियों की काफी भरपाई कर देता है। अगर fail भी हो जाए, तो अच्छा result अक्सर बस एक seed या prompt में छोटे से बदलाव की दूरी पर होता है
जिज्ञासा है कि यह इतना तेज़ कैसे हो सकता है। और blob:[https://blbahblah](<https://blbahblah>;) images क्या हैं, समझ नहीं आया
साथ ही, prompt को थोड़ा बदलने पर raccoon के दो tails हो जाने की संभावना बढ़ जाती है
- दूसरे सवाल का जवाब दें तो, वह object URL है
  https://developer.mozilla.org/en-US/docs/Web/API/URL/createO...
  यह किसी file या Blob को ऐसे URL में बदलने का तरीका है जिसे image element वगैरह में इस्तेमाल किया जा सके
- यह JavaScript के buffer को दर्शाने वाला temporary URL है: https://developer.mozilla.org/en-US/docs/Web/API/URL/createO...
सचमुच हैरान करने वाला। latency में कमी ऐसे tools के साथ interact करने के तरीके पर बड़ा असर डालती है
यहां speed का फायदा सिर्फ ज़्यादा images generate करने भर से आगे जाता है; यह कई attempts करते समय thought flow को बिना टूटे जारी रखने देता है
वाकई impressive है, लेकिन सोच रहा हूं कि क्या किसी को Stable Diffusion से consistent character generate करने का तरीका पता है
अगर पहला prompt एक लड़की का है जो बिल्ली से बात कर रही है, और दूसरा prompt वही लड़की है जो उसी बिल्ली के साथ खेल रही है, तो मैं चाहता हूं कि दोनों pictures में लड़की और बिल्ली एक जैसी दिखें
अगर संभव हो तो related links या tutorials बहुत मददगार होंगे
- जहां तक याद है, Dashtoon Studio Stable Diffusion के साथ consistent characters वाली comics बनाने देता है: https://dashtoon.com/create
- Dashtoon Studio में यह संभव है। सिर्फ एक image upload करने पर भी यह consistent character LoRA train कर देता है। यह AI comics बनाने का software है, और YouTube पर यह video मिला: https://www.youtube.com/watch?v=EEQwEvKQGvE
  LoRA सबसे versatile तरीका है। क्योंकि इससे desired pose और camera angle में character को consistently पाया जा सकता है। IP-Adapter input image की features को बहुत ज़्यादा copy कर देता है, और pose जैसी चीज़ें जिन्हें copy नहीं करना है, उन्हें चुनना मुश्किल होता है। इसलिए portrait input वाले character से अलग actions करवाना मुश्किल हो सकता है
  Reactor को ऐसा generated image चाहिए जिसमें face swap किया जा सके। Realistic images में यह अच्छा काम करता है, लेकिन stylized images में style बनी नहीं रहती और hairstyle भी copy नहीं होता
  अब तक जो मिला है, उनमें Dashtoon सबसे stable और आसान था। नए character की 20 images जुटाना भी मुश्किल है, और LoRA training set में close-ups की संख्या या expressions की संख्या जैसी image properties काफी महत्वपूर्ण होती हैं
- https://scenario.gg देख सकते हैं। आप character की custom images से खुद LoRA train कर सकते हैं, और अच्छी consistency पाने के लिए अलग-अलग angles की लगभग 20 images चाहिए होती हैं
  एक ज्यादा simple लेकिन फिर भी काफी ठीक तरीका IP-Adapter भी है, और यह service उसे भी support करती है। cat को consistent रखना custom LoRA के बिना मुश्किल लगता है। Reference: https://help.scenario.com/training-a-character-lora
- आम तौर पर सिर्फ नाम इस्तेमाल करना ही काफी होता है। अच्छे SD models में Maria Smith लगभग हमेशा Maria Smith जैसी ही दिखती है
- Mickey काफी consistent दिखता है: https://fastsdxl.ai/share/4us7hrp3jm20
एक single character डालने पर behavior दिलचस्प है। मेरे मामले में यह अक्सर छोटे और काफी detailed buildings पर converge करता दिखता है
वही character जितना ज़्यादा repeat करता हूं, जैसे 111 की जगह 11111111, building उतनी ही अजीब हो जाती है। अब देख रहा हूं कि यह seed के प्रति काफी sensitive लगता है
- अनजान शब्दों या concepts का output पर असल में असर नहीं पड़ता। prompt में baby raccoon को maxolhx से बदल कर देखें, तो यह उस word को ignore करके Italian bride render करता है
  सख्ती से कहें तो असर अब भी होता है, लेकिन ऐसे तरीके से नहीं जिसे हम आसानी से explain कर सकें। यह लगभग seed के साथ खेलने जैसा है
सच में बहुत पसंद आया। URL शेयर करने की सुविधा होती तो अच्छा होता
late 90s movie poster, 24 hour clock movie "2: Electric Boogaloo" dan aykroyd1
इस prompt का result शानदार था
- एक आम आदमी ऐसा दिखता है: https://fastsdxl.ai/share/1mb3d5lo5ic9
  हीरो ऐसा दिखता है: https://fastsdxl.ai/share/x9jxax4pnljd
  आतंकवादी ऐसा दिखता है: https://fastsdxl.ai/share/ejtyvv9ahpfs
  मैं जैसा बनना चाहता हूं, वह ऐसा दिखता है: https://fastsdxl.ai/share/8ekkecm5rqsr
  तेज़ speed की वजह से सिर्फ seed बदलते हुए अंदर मौजूद bias को जल्दी evaluate कर पाना बहुत दिलचस्प है
- अभी-अभी sharing feature जोड़ दिया है। अच्छा होगा अगर आप बताएं कि आप क्या बना रहे हैं
- seed दिया होता तो शायद share करना संभव होता

HN परिचय: SDXL Lightning का उपयोग करके रीयल-टाइम इमेज जनरेशन

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय