Qwen-Image-Edit - इमेज एडिटिंग के लिए समर्पित मॉडल जारी

(huggingface.co)

18 पॉइंट द्वारा GN⁺ 2025-08-21 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

Qwen-Image-Edit, Qwen-Image मॉडल पर आधारित इमेज एडिटिंग के लिए समर्पित एक विस्तारित मॉडल है
यह इनपुट इमेज को एक साथ Qwen2.5-VL और VAE Encoder में भेजता है, जिससे semantic और appearance दोनों तरह की एडिटिंग संभव होती है
इसका text editing फीचर बहुत शक्तिशाली है, जो Chinese और English में फ़ॉन्ट, आकार और स्टाइल को बनाए रखते हुए सीधे संशोधन कर सकता है
इसने विभिन्न benchmarks में state-of-the-art (SOTA) performance हासिल की है, और इमेज एडिटिंग के लिए एक मजबूत foundation model के रूप में स्थापित हो चुका है
इसे open source Apache 2.0 लाइसेंस के तहत जारी किया गया है, इसलिए developers और researchers इसे स्वतंत्र रूप से उपयोग कर सकते हैं

परिचय

Qwen-Image-Edit, Qwen-Image की text rendering क्षमता को बढ़ाकर इमेज एडिटिंग को सपोर्ट करने वाला मॉडल है
इसकी संरचना इमेज इनपुट को semantic control (Qwen2.5-VL) और appearance control (VAE Encoder) दोनों तक एक साथ पहुंचाती है
इसकी खासियत यह है कि यह सटीक text editing के साथ-साथ semantic और appearance editing दोनों को सपोर्ट करता है

Semantic & appearance editing: object जोड़ना, हटाना, घुमाना, style transform जैसे semantic बदलावों के साथ-साथ केवल किसी खास क्षेत्र को बदलने वाली appearance editing को सपोर्ट करता है
सटीक text editing: English और Chinese को सीधे संशोधित किया जा सकता है, और मूल फ़ॉन्ट व स्टाइल को सुरक्षित रखा जाता है
प्रदर्शन में बढ़त: कई public benchmarks में state-of-the-art प्रदर्शन हासिल किया गया है

इसे Hugging Face की diffusers लाइब्रेरी के जरिए इस्तेमाल किया जा सकता है
उदाहरण कोड में खरगोश का रंग बैंगनी करना और बैकग्राउंड को फ्लैशलाइट में बदलने का काम किया गया है
CUDA acceleration और torch.bfloat16 सपोर्ट के जरिए इसे कुशलतापूर्वक चलाया जा सकता है

Semantic editing: character IP बनाना, object rotation (90 डिग्री, 180 डिग्री), style transform (जैसे Ghibli शैली) संभव है
Appearance editing: साइनबोर्ड जोड़ना, बाल हटाना, किसी विशेष text का रंग बदलना, बैकग्राउंड बदलना, कपड़े बदलना आदि को बहुत सटीकता से किया जा सकता है
Text editing: English और Chinese पोस्टरों में बड़े और छोटे टेक्स्ट तक को सटीक रूप से संशोधित किया जा सकता है
Sequential editing chain: calligraphy कार्य में अक्षर त्रुटियों को चरणबद्ध तरीके से ठीक कर अंततः एक पूर्ण संस्करण बनाने का उदाहरण दिखाया गया है

ब्रांड IP विस्तार: Capybara character आधारित MBTI इमोटिकॉन बनाने का उदाहरण पेश किया गया है
कला और सृजन: portrait की विभिन्न style transformations के जरिए virtual avatar बनाने की संभावना दिखाई गई है
औद्योगिक उपयोग: साइनबोर्ड जोड़ते समय reflection effect तक को स्वाभाविक रूप से जनरेट करने जैसी सूक्ष्म एडिटिंग को सपोर्ट करता है

Apache 2.0 लाइसेंस के तहत जारी, इसलिए इसे स्वतंत्र रूप से उपयोग, संशोधित और वितरित किया जा सकता है