• Qwen-Image-Edit, Qwen-Image मॉडल पर आधारित इमेज एडिटिंग के लिए समर्पित एक विस्तारित मॉडल है
  • यह इनपुट इमेज को एक साथ Qwen2.5-VL और VAE Encoder में भेजता है, जिससे semantic और appearance दोनों तरह की एडिटिंग संभव होती है
  • इसका text editing फीचर बहुत शक्तिशाली है, जो Chinese और English में फ़ॉन्ट, आकार और स्टाइल को बनाए रखते हुए सीधे संशोधन कर सकता है
  • इसने विभिन्न benchmarks में state-of-the-art (SOTA) performance हासिल की है, और इमेज एडिटिंग के लिए एक मजबूत foundation model के रूप में स्थापित हो चुका है
  • इसे open source Apache 2.0 लाइसेंस के तहत जारी किया गया है, इसलिए developers और researchers इसे स्वतंत्र रूप से उपयोग कर सकते हैं

परिचय

  • Qwen-Image-Edit, Qwen-Image की text rendering क्षमता को बढ़ाकर इमेज एडिटिंग को सपोर्ट करने वाला मॉडल है
  • इसकी संरचना इमेज इनपुट को semantic control (Qwen2.5-VL) और appearance control (VAE Encoder) दोनों तक एक साथ पहुंचाती है
  • इसकी खासियत यह है कि यह सटीक text editing के साथ-साथ semantic और appearance editing दोनों को सपोर्ट करता है

मुख्य फीचर्स

  • Semantic & appearance editing: object जोड़ना, हटाना, घुमाना, style transform जैसे semantic बदलावों के साथ-साथ केवल किसी खास क्षेत्र को बदलने वाली appearance editing को सपोर्ट करता है
  • सटीक text editing: English और Chinese को सीधे संशोधित किया जा सकता है, और मूल फ़ॉन्ट व स्टाइल को सुरक्षित रखा जाता है
  • प्रदर्शन में बढ़त: कई public benchmarks में state-of-the-art प्रदर्शन हासिल किया गया है

त्वरित शुरुआत

  • इसे Hugging Face की diffusers लाइब्रेरी के जरिए इस्तेमाल किया जा सकता है
  • उदाहरण कोड में खरगोश का रंग बैंगनी करना और बैकग्राउंड को फ्लैशलाइट में बदलने का काम किया गया है
  • CUDA acceleration और torch.bfloat16 सपोर्ट के जरिए इसे कुशलतापूर्वक चलाया जा सकता है

डेमो उदाहरण (Showcase)

  • Semantic editing: character IP बनाना, object rotation (90 डिग्री, 180 डिग्री), style transform (जैसे Ghibli शैली) संभव है
  • Appearance editing: साइनबोर्ड जोड़ना, बाल हटाना, किसी विशेष text का रंग बदलना, बैकग्राउंड बदलना, कपड़े बदलना आदि को बहुत सटीकता से किया जा सकता है
  • Text editing: English और Chinese पोस्टरों में बड़े और छोटे टेक्स्ट तक को सटीक रूप से संशोधित किया जा सकता है
  • Sequential editing chain: calligraphy कार्य में अक्षर त्रुटियों को चरणबद्ध तरीके से ठीक कर अंततः एक पूर्ण संस्करण बनाने का उदाहरण दिखाया गया है

अनुप्रयोग परिदृश्य

  • ब्रांड IP विस्तार: Capybara character आधारित MBTI इमोटिकॉन बनाने का उदाहरण पेश किया गया है
  • कला और सृजन: portrait की विभिन्न style transformations के जरिए virtual avatar बनाने की संभावना दिखाई गई है
  • औद्योगिक उपयोग: साइनबोर्ड जोड़ते समय reflection effect तक को स्वाभाविक रूप से जनरेट करने जैसी सूक्ष्म एडिटिंग को सपोर्ट करता है

लाइसेंस

  • Apache 2.0 लाइसेंस के तहत जारी, इसलिए इसे स्वतंत्र रूप से उपयोग, संशोधित और वितरित किया जा सकता है

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.