Stability AI ने Stable Diffusion XL 1.0 मॉडल की घोषणा की
(techcrunch.com)- सबसे उन्नत Text-to-Image मॉडल
- पिछले वर्ज़न की तुलना में अधिक जीवंत, अधिक सटीक रंग, और बेहतर contrast, shadow तथा lighting
- 3.5 बिलियन parameters
- कुछ ही सेकंड में 1 मेगापिक्सेल रेज़ोल्यूशन की इमेज बना सकता है
- कस्टमाइज़ किया जा सकता है, और concept तथा style के लिए fine-tuning की जा सकती है
- टेक्स्ट जनरेशन भी बेहतर हुई है, जिससे उन्नत टेक्स्ट जनरेशन और readability में सुधार हुआ है
- inpainting, outpainting, image-to-image prompts को सपोर्ट करता है
2 टिप्पणियां
Stability AI ने Stable Diffusion XL 1.0 मॉडल की घोषणा की
आधिकारिक घोषणा पोस्ट के लिए GPT-4 से विस्तृत विवरण अपने-आप तैयार कराया गया है.
SDXL 1.0 की घोषणा (ANNOUNCING SDXL 1.0)
परिचय
Stability AI टीम टेक्स्ट-टू-इमेज जनरेशन मॉडल के विकास के अगले चरण, SDXL 1.0, को एक open model के रूप में जारी करते हुए गर्व महसूस कर रही है। SDXL 0.9 के सीमित और केवल research-उपयोग रिलीज़ के बाद, SDXL का पूर्ण संस्करण दुनिया के सर्वश्रेष्ठ open image generation model के रूप में बेहतर किया गया है।
सारांश
SDXL 1.0, Stability AI का प्रमुख image model है और image generation के लिए सर्वश्रेष्ठ open model है। हमने इसकी तुलना कई अन्य मॉडलों से की है, और नतीजे में यह पाया कि लोग अन्य open model की तुलना में SDXL 1.0 द्वारा बनाई गई छवियों को अधिक पसंद करते हैं। यह शोध-निष्कर्ष हमारे Discord पर experimental models की generations से कैप्चर किए गए कई हफ्तों के preference data और external tests से प्राप्त हुए हैं।
SDXL लगभग हर art style में उच्च-गुणवत्ता वाली छवियां बनाता है, और photorealism के लिए यह सर्वश्रेष्ठ open model है। मॉडल द्वारा दिए गए किसी खास ‘feel’ के बिना unique images को prompt किया जा सकता है, जिससे style की पूर्ण स्वतंत्रता सुनिश्चित होती है। SDXL 1.0 को खास तौर पर vivid और accurate colors के लिए अच्छी तरह tune किया गया है, और इसमें अपने पूर्ववर्ती की तुलना में बेहतर contrast, lighting और shadows हैं। इसके अलावा, SDXL उन concepts को भी generate कर सकता है जिन्हें image models आमतौर पर render करने में कठिनाई महसूस करते हैं, जैसे हाथ, text, या spatially arranged compositions (उदाहरण: background में कुत्ते का पीछा करती महिला)।
SDXL जटिल, विस्तृत और सौंदर्यपूर्ण रूप से संतोषजनक छवियां बनाने के लिए केवल कुछ शब्दों की मांग करता है। उपयोगकर्ताओं को अब high-quality images पाने के लिए ‘masterpiece’ जैसे qualifier terms का उपयोग करने की ज़रूरत नहीं है। इसके अलावा, SDXL ‘The Red Square’ (एक प्रसिद्ध स्थान) और ‘red square’ (एक आकृति) जैसे concepts के बीच का अंतर समझ सकता है।
SDXL 1.0 में open access image models में सबसे अधिक parameters हैं, और यह 3.5B parameter base model तथा 6.6B parameter refiner से बनी एक अभिनव नई architecture पर आधारित है। पूरा मॉडल latent diffusion के लिए mixture-of-experts pipeline से बना है: पहले चरण में base model (शोरयुक्त) latents बनाता है, जिन्हें अंतिम denoising चरण में विशेषज्ञ refinement model द्वारा आगे प्रोसेस किया जाता है। ध्यान देने योग्य है कि base model को एक स्वतंत्र module के रूप में भी उपयोग किया जा सकता है। यह two-stage architecture image generation के लिए एक मजबूत approach प्रदान करता है और अधिक बेहतर परिणाम देता है।
संदर्भ
Stability AI Blog: Stability AI के ब्लॉग में कंपनी के नवीनतम research और announcements के बारे में विस्तृत जानकारी दी जाती है। इस ब्लॉग के माध्यम से आप SDXL 1.0 जैसे नवीनतम मॉडलों के बारे में अतिरिक्त जानकारी प्राप्त कर सकते हैं।
https://stability.ai/blog
Stable Diffusion: यह वेबसाइट Stability AI की Stable Diffusion तकनीक के बारे में विस्तृत जानकारी देती है। यह तकनीक SDXL 1.0 का मुख्य घटक है, और इस वेबसाइट के माध्यम से आप इस तकनीक की गहरी समझ प्राप्त कर सकते हैं।
https://stability.ai/stable-diffusion
Discord Community: यह Discord community वह जगह है जहाँ Stability AI के researchers और users एकत्र होकर अपना काम साझा करते हैं और चर्चा करते हैं। इस community के माध्यम से आप SDXL 1.0 जैसे मॉडलों का उपयोग करने वाले अन्य लोगों के अनुभव सुन सकते हैं।
https://discord.gg/stablediffusion
StabilityAI की आधिकारिक घोषणा पोस्ट में थोड़ा और विस्तृत विवरण है, इसलिए लिंक छोड़ रहा/रही हूँ. :)
https://stability.ai/blog/stable-diffusion-sdxl-1-announcement