- Stable Diffusion 3 को चलाने वाली तकनीक पर गहराई से चर्चा करने वाला एक रिसर्च पेपर प्रकाशित किया गया है
- SD3, मानव वरीयता मूल्यांकन के आधार पर, typography और prompt adherence के मामले में DALL·E 3, Midjourney v6 और Ideogram v1 जैसे नवीनतम text-to-image generation systems से बेहतर प्रदर्शन करता है
- नई Multimodal Diffusion Transformer (MMDiT) architecture, image और language representations के लिए अलग-अलग weight sets का उपयोग करती है, जिससे SD3 के पिछले versions की तुलना में text understanding और spelling क्षमता बेहतर होती है
प्रदर्शन
- Stable Diffusion 3 की output images का SDXL, SDXL Turbo, Stable Cascade, Playground v2.5, Pixart-α जैसे विभिन्न open models और DALL·E 3, Midjourney v6, Ideogram v1 जैसे closed-source systems के साथ, human feedback के आधार पर प्रदर्शन मूल्यांकन के लिए तुलना की गई
- परीक्षण परिणामों में, Stable Diffusion 3 ऊपर बताए गए सभी क्षेत्रों में मौजूदा अत्याधुनिक text-to-image generation systems के बराबर या उनसे बेहतर साबित हुआ
- शुरुआती non-optimized inference test में, सबसे बड़े SD3 model में 8B parameters हैं, यह RTX 4090 की 24GB VRAM में फिट हो जाता है, और 50 sampling steps का उपयोग करते समय 1024x1024 resolution की image बनाने में 34 सेकंड लगते हैं
- शुरुआती रिलीज़ में 800m से 8B parameter models तक के विभिन्न Stable Diffusion 3 variants होंगे, जिससे hardware barrier और कम होगा
आर्किटेक्चर विवरण
- text-to-image generation के लिए model को text और image, दोनों modalities पर विचार करना होता है
- इस नई architecture को MMDiT कहा जाता है, जो विभिन्न modalities को संभालने की इसकी क्षमता को दर्शाता है
- Stable Diffusion के पिछले versions की तरह, उपयुक्त text और image representations निकालने के लिए pre-trained models का उपयोग किया जाता है
- text और image embeddings वैचारिक रूप से काफी अलग हैं, इसलिए दोनों modalities के लिए अलग-अलग weight sets का उपयोग किया जाता है
- इस approach का उपयोग करने से image और text tokens के बीच जानकारी प्रवाहित हो सकती है, जिससे output की overall understanding और typography बेहतर होती है
- यह architecture video जैसी multimodalities तक आसानी से विस्तारित की जा सकती है
Reweighting के जरिए Rectified Flows में सुधार
- Stable Diffusion 3 training के दौरान Rectified Flow (RF) formulation का उपयोग करता है, जो data और noise को linear trajectory से जोड़ता है
- इससे inference path अधिक सीधा बनता है, जिससे कम steps में sampling संभव होती है
- इसके अलावा, training process में एक नया trajectory sampling schedule पेश किया गया है, जो trajectory के मध्य भाग को अधिक weight देता है
- इस approach को अन्य diffusion trajectories के साथ तुलना करके test करने पर पाया गया कि पिछला RF formulation कम-step sampling regime में प्रदर्शन सुधारता था, लेकिन अधिक steps पर इसका relative performance घटता था
- दूसरी ओर, reweighted RF variant लगातार प्रदर्शन में सुधार करता है
Rectified Flow Transformer model का scaling
- reweighted Rectified Flow formulation और MMDiT backbone का उपयोग करके text-to-image synthesis के लिए scaling study की गई
- model size और training steps, दोनों के लिए validation loss में smooth कमी देखी गई
- यह जांचने के लिए कि क्या यह model output में सार्थक सुधार में बदलता है, automatic image alignment metric (GenEval) और human preference score (ELO) का मूल्यांकन किया गया
- परिणाम इन metrics और validation loss के बीच मजबूत correlation दिखाते हैं
- scaling trends में saturation के कोई संकेत नहीं दिखे, जिससे भविष्य में model performance के लगातार बेहतर होने की आशावादी संभावना बनती है
लचीला text encoder
- inference के लिए memory-intensive 4.7B parameter T5 text encoder को हटाकर, SD3 की memory requirements को काफी कम किया जा सकता है और performance loss बहुत मामूली रहता है
- इस text encoder को हटाने से visual aesthetics पर असर नहीं पड़ता (हटाने के बाद win rate: 50%), जबकि text adherence में हल्की कमी आती है (win rate 46%)
- हालांकि, text generation में SD3 की पूरी क्षमता हासिल करने के लिए T5 को शामिल करना recommended है
1 टिप्पणियां
Hacker News राय
Stability AI की open source के प्रति प्रतिबद्धता काफ़ी दिलचस्प है, और उम्मीद है कि वे जितना संभव हो उतने लंबे समय तक काम करते रहें।
Stable Diffusion 3 का text rendering प्रभावशाली है, लेकिन text में अब भी उसका एक खास over-processed सा एहसास रहता है।
सवाल है कि क्या SD3 download के लिए उपलब्ध है।
यह काफ़ी दिलचस्प है कि image generators ने आखिरकार spelling को सही तरह से लागू करना शुरू कर दिया है।
SD3 की घोषणा बहुत रोमांचक है।
SD3 में text rendering का सुधार अच्छा है, लेकिन हाथ और उंगलियाँ बनाना अब भी मुश्किल है।
यह architecture इतना लचीला है कि इसे आसानी से video तक बढ़ाया जा सकता है।
कई कंपनियाँ जो कभी 'open' के लिए समर्पित थीं या पहले open थीं, धीरे-धीरे ज़्यादा closed होती जा रही हैं।
Stability AI के विपरीत, OpenAI सबसे बंद AI research labs में से एक है।