- Qwen-Image-Edit, Qwen-Image मॉडल पर आधारित इमेज एडिटिंग के लिए समर्पित एक विस्तारित मॉडल है
- यह इनपुट इमेज को एक साथ Qwen2.5-VL और VAE Encoder में भेजता है, जिससे semantic और appearance दोनों तरह की एडिटिंग संभव होती है
- इसका text editing फीचर बहुत शक्तिशाली है, जो Chinese और English में फ़ॉन्ट, आकार और स्टाइल को बनाए रखते हुए सीधे संशोधन कर सकता है
- इसने विभिन्न benchmarks में state-of-the-art (SOTA) performance हासिल की है, और इमेज एडिटिंग के लिए एक मजबूत foundation model के रूप में स्थापित हो चुका है
- इसे open source Apache 2.0 लाइसेंस के तहत जारी किया गया है, इसलिए developers और researchers इसे स्वतंत्र रूप से उपयोग कर सकते हैं
परिचय
- Qwen-Image-Edit, Qwen-Image की text rendering क्षमता को बढ़ाकर इमेज एडिटिंग को सपोर्ट करने वाला मॉडल है
- इसकी संरचना इमेज इनपुट को semantic control (Qwen2.5-VL) और appearance control (VAE Encoder) दोनों तक एक साथ पहुंचाती है
- इसकी खासियत यह है कि यह सटीक text editing के साथ-साथ semantic और appearance editing दोनों को सपोर्ट करता है
मुख्य फीचर्स
- Semantic & appearance editing: object जोड़ना, हटाना, घुमाना, style transform जैसे semantic बदलावों के साथ-साथ केवल किसी खास क्षेत्र को बदलने वाली appearance editing को सपोर्ट करता है
- सटीक text editing: English और Chinese को सीधे संशोधित किया जा सकता है, और मूल फ़ॉन्ट व स्टाइल को सुरक्षित रखा जाता है
- प्रदर्शन में बढ़त: कई public benchmarks में state-of-the-art प्रदर्शन हासिल किया गया है
त्वरित शुरुआत
- इसे Hugging Face की
diffusers लाइब्रेरी के जरिए इस्तेमाल किया जा सकता है
- उदाहरण कोड में खरगोश का रंग बैंगनी करना और बैकग्राउंड को फ्लैशलाइट में बदलने का काम किया गया है
- CUDA acceleration और
torch.bfloat16 सपोर्ट के जरिए इसे कुशलतापूर्वक चलाया जा सकता है
डेमो उदाहरण (Showcase)
- Semantic editing: character IP बनाना, object rotation (90 डिग्री, 180 डिग्री), style transform (जैसे Ghibli शैली) संभव है
- Appearance editing: साइनबोर्ड जोड़ना, बाल हटाना, किसी विशेष text का रंग बदलना, बैकग्राउंड बदलना, कपड़े बदलना आदि को बहुत सटीकता से किया जा सकता है
- Text editing: English और Chinese पोस्टरों में बड़े और छोटे टेक्स्ट तक को सटीक रूप से संशोधित किया जा सकता है
- Sequential editing chain: calligraphy कार्य में अक्षर त्रुटियों को चरणबद्ध तरीके से ठीक कर अंततः एक पूर्ण संस्करण बनाने का उदाहरण दिखाया गया है
अनुप्रयोग परिदृश्य
- ब्रांड IP विस्तार: Capybara character आधारित MBTI इमोटिकॉन बनाने का उदाहरण पेश किया गया है
- कला और सृजन: portrait की विभिन्न style transformations के जरिए virtual avatar बनाने की संभावना दिखाई गई है
- औद्योगिक उपयोग: साइनबोर्ड जोड़ते समय reflection effect तक को स्वाभाविक रूप से जनरेट करने जैसी सूक्ष्म एडिटिंग को सपोर्ट करता है
लाइसेंस
- Apache 2.0 लाइसेंस के तहत जारी, इसलिए इसे स्वतंत्र रूप से उपयोग, संशोधित और वितरित किया जा सकता है
अभी कोई टिप्पणी नहीं है.