13 पॉइंट द्वारा xguru 2024-03-06 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Stable Diffusion 3 को चलाने वाली तकनीक पर गहराई से चर्चा करने वाला एक रिसर्च पेपर प्रकाशित किया गया है
  • SD3, मानव वरीयता मूल्यांकन के आधार पर, typography और prompt adherence के मामले में DALL·E 3, Midjourney v6 और Ideogram v1 जैसे नवीनतम text-to-image generation systems से बेहतर प्रदर्शन करता है
  • नई Multimodal Diffusion Transformer (MMDiT) architecture, image और language representations के लिए अलग-अलग weight sets का उपयोग करती है, जिससे SD3 के पिछले versions की तुलना में text understanding और spelling क्षमता बेहतर होती है

प्रदर्शन

  • Stable Diffusion 3 की output images का SDXL, SDXL Turbo, Stable Cascade, Playground v2.5, Pixart-α जैसे विभिन्न open models और DALL·E 3, Midjourney v6, Ideogram v1 जैसे closed-source systems के साथ, human feedback के आधार पर प्रदर्शन मूल्यांकन के लिए तुलना की गई
  • परीक्षण परिणामों में, Stable Diffusion 3 ऊपर बताए गए सभी क्षेत्रों में मौजूदा अत्याधुनिक text-to-image generation systems के बराबर या उनसे बेहतर साबित हुआ
  • शुरुआती non-optimized inference test में, सबसे बड़े SD3 model में 8B parameters हैं, यह RTX 4090 की 24GB VRAM में फिट हो जाता है, और 50 sampling steps का उपयोग करते समय 1024x1024 resolution की image बनाने में 34 सेकंड लगते हैं
  • शुरुआती रिलीज़ में 800m से 8B parameter models तक के विभिन्न Stable Diffusion 3 variants होंगे, जिससे hardware barrier और कम होगा

आर्किटेक्चर विवरण

  • text-to-image generation के लिए model को text और image, दोनों modalities पर विचार करना होता है
  • इस नई architecture को MMDiT कहा जाता है, जो विभिन्न modalities को संभालने की इसकी क्षमता को दर्शाता है
  • Stable Diffusion के पिछले versions की तरह, उपयुक्त text और image representations निकालने के लिए pre-trained models का उपयोग किया जाता है
  • text और image embeddings वैचारिक रूप से काफी अलग हैं, इसलिए दोनों modalities के लिए अलग-अलग weight sets का उपयोग किया जाता है
  • इस approach का उपयोग करने से image और text tokens के बीच जानकारी प्रवाहित हो सकती है, जिससे output की overall understanding और typography बेहतर होती है
  • यह architecture video जैसी multimodalities तक आसानी से विस्तारित की जा सकती है

Reweighting के जरिए Rectified Flows में सुधार

  • Stable Diffusion 3 training के दौरान Rectified Flow (RF) formulation का उपयोग करता है, जो data और noise को linear trajectory से जोड़ता है
  • इससे inference path अधिक सीधा बनता है, जिससे कम steps में sampling संभव होती है
  • इसके अलावा, training process में एक नया trajectory sampling schedule पेश किया गया है, जो trajectory के मध्य भाग को अधिक weight देता है
  • इस approach को अन्य diffusion trajectories के साथ तुलना करके test करने पर पाया गया कि पिछला RF formulation कम-step sampling regime में प्रदर्शन सुधारता था, लेकिन अधिक steps पर इसका relative performance घटता था
  • दूसरी ओर, reweighted RF variant लगातार प्रदर्शन में सुधार करता है

Rectified Flow Transformer model का scaling

  • reweighted Rectified Flow formulation और MMDiT backbone का उपयोग करके text-to-image synthesis के लिए scaling study की गई
  • model size और training steps, दोनों के लिए validation loss में smooth कमी देखी गई
  • यह जांचने के लिए कि क्या यह model output में सार्थक सुधार में बदलता है, automatic image alignment metric (GenEval) और human preference score (ELO) का मूल्यांकन किया गया
  • परिणाम इन metrics और validation loss के बीच मजबूत correlation दिखाते हैं
  • scaling trends में saturation के कोई संकेत नहीं दिखे, जिससे भविष्य में model performance के लगातार बेहतर होने की आशावादी संभावना बनती है

लचीला text encoder

  • inference के लिए memory-intensive 4.7B parameter T5 text encoder को हटाकर, SD3 की memory requirements को काफी कम किया जा सकता है और performance loss बहुत मामूली रहता है
  • इस text encoder को हटाने से visual aesthetics पर असर नहीं पड़ता (हटाने के बाद win rate: 50%), जबकि text adherence में हल्की कमी आती है (win rate 46%)
  • हालांकि, text generation में SD3 की पूरी क्षमता हासिल करने के लिए T5 को शामिल करना recommended है

1 टिप्पणियां

 
xguru 2024-03-06

Hacker News राय

  • Stability AI की open source के प्रति प्रतिबद्धता काफ़ी दिलचस्प है, और उम्मीद है कि वे जितना संभव हो उतने लंबे समय तक काम करते रहें।

    • जिज्ञासा है कि क्या Stable Diffusion 3 अभी भी tokenization और text embedding के लिए OpenAI के CLIP का इस्तेमाल करता है।
    • बस यह मान रहा/रही हूँ कि वे model architecture के उस हिस्से को बेहतर बनाएँगे ताकि वह text और image prompts से और बेहतर मेल खाए।
  • Stable Diffusion 3 का text rendering प्रभावशाली है, लेकिन text में अब भी उसका एक खास over-processed सा एहसास रहता है।

    • text का रंग हमेशा एक ही value तक बढ़ा हुआ लगता है, जिससे ऐसा लगता है जैसे किसी high-quality image पर text को शौकिया तरीके से बस जोड़ दिया गया हो।
  • सवाल है कि क्या SD3 download के लिए उपलब्ध है।

    • SD के शुरुआती versions को local पर चलाया था और वे बहुत अच्छे थे।
    • जिज्ञासा है कि क्या कई LLMs की तरह, जिनमें self-hosting उम्मीद जगाती थी, यह भी SAAS की तरफ मुड़ गया है।
  • यह काफ़ी दिलचस्प है कि image generators ने आखिरकार spelling को सही तरह से लागू करना शुरू कर दिया है।

    • DALL-E 3 की spelling क्षमता पर ज़ोर दिया गया था, लेकिन Bing इस्तेमाल करने पर यह कम सुसंगत लगी।
    • spelling को सही तरह से लागू करने में आने वाली चुनौतियों और उसके कारणों पर कम तकनीकी व्याख्या पढ़ना चाहूँगा/चाहूँगी।
    • जिज्ञासा है कि क्या SD3 पुरानी images में text की समस्याओं को साफ़ या ठीक कर सकता है।
  • SD3 की घोषणा बहुत रोमांचक है।

    • paper में blog की तुलना में कहीं ज़्यादा विस्तृत जानकारी है।
    • paper का मुख्य बिंदु यह दिखाना है कि इसमें ऐसा architecture है जो अधिक expressive text encoder को शामिल कर सकता है, और यह जटिल scenes में मदद करता है।
    • training के लिहाज़ से अभी इस stack की सीमाओं तक नहीं पहुँचे हैं, इसलिए उम्मीद है कि SD3.1 और बेहतर होगा, और SD4 में video processing के लिए और अधिक front-end encoding जोड़ी जा सकती है।
  • SD3 में text rendering का सुधार अच्छा है, लेकिन हाथ और उंगलियाँ बनाना अब भी मुश्किल है।

    • example images में pixelated wizard को छोड़कर इंसानी हाथ नहीं हैं, और बंदर के हाथ कुछ अजीब लगते हैं।
  • यह architecture इतना लचीला है कि इसे आसानी से video तक बढ़ाया जा सकता है।

    • उम्मीद है कि यह LLaMA के transformer blocks की तरह एक और "foundational" block बन जाएगा।
    • यह इतना general है कि text encoding/timestep conditions को block में कई तरीकों से integrate किया जा सकता है।
    • position encoding (2D RoPE?) के साथ प्रयोग करने के अलावा लगभग कुछ खास बाकी नहीं बचता।
    • transformers को scale करना और quantization/optimization पर ध्यान देना ताकि इस stack को हर जगह सही तरह से चलाया जा सके।
  • कई कंपनियाँ जो कभी 'open' के लिए समर्पित थीं या पहले open थीं, धीरे-धीरे ज़्यादा closed होती जा रही हैं।

    • Stability AI द्वारा ऐसे research papers सार्वजनिक करने के लिए आभार।
  • Stability AI के विपरीत, OpenAI सबसे बंद AI research labs में से एक है।

    • Deep Mind भी इससे ज़्यादा papers प्रकाशित करता है।
    • जिज्ञासा है कि क्या OpenAI के भीतर कोई सार्वजनिक रूप से कहता है, "हम यहाँ पैसे के लिए हैं!"
    • SamA ने हाल ही में Elon के मुकदमे के बारे में जो पत्र लिखा, वह उतना ही सच लगता है जितना Putin का यह कहना कि वह Ukraine पर 'denazification' के लिए हमला कर रहा है।