• Qwen-Image एक 20B पैरामीटर आधारित MMDiT इमेज़ निर्माण मॉडल है, जो नेटिव टेक्स्ट रेंडरिंग और प्रिसाइज़ इमेज़ एडिटिंग में मजबूत है।
  • अक्षर प्रणाली (अंग्रेजी, Hanzi आदि) के जटिल टेक्स्ट प्रतिनिधित्व में यह उच्च सटीकता और दृश्य गुणवत्ता हासिल करता है।
  • कई पब्लिक बेंचमार्क (GenEval, DPG, OneIG-Bench आदि) में इसने शीर्ष स्तर का प्रदर्शन किया है और टेक्स्ट-जनरेशन क्षमता भी उत्कृष्ट है।
  • वास्तविक डेमो में इसने मल्टीलैंग्वेज, पोस्टर, PPT, इलस्ट्रेशन जैसे जटिल लेआउट और विविध स्टाइल बेहद सटीक तरीके से दिखाए हैं।
  • स्टाइल ट्रांसफॉर्मेशन, ऑब्जेक्ट add/remove, डिटेल्ड डेस्क्रिप्शन, पोज़ बदलने जैसी एडिटिंग क्षमताएँ देता है और ओपन-सोर्स इकोसिस्टम को बढ़ाने पर फोकस करता है।

परिचय और मुख्य विशेषताएँ

  • Qwen-Image एक 20B पैरामीटर आधारित MMDiT इमेज़ निर्माण बेस मॉडल है, जो जटिल टेक्स्ट रेंडरिंग और सटीक इमेज़ एडिटिंग के लिए विशेष रूप से डिज़ाइन किया गया है।
  • Qwen Chat में आप नवीनतम मॉडल का अनुभव कर सकते हैं।

मुख्य फीचर्स

  • बेहतरीन टेक्स्ट रेंडरिंग: मल्टी लाइन लेआउट, पैराग्राफ-स्तर समझ और फाइन-ग्रेन टेक्स्ट प्रस्तुति संभव बनाता है
    • अंग्रेजी, Hanzi आदि, यानी alphabetic और logographic दोनों स्क्रिप्ट परिवारों को हाई-फिडेलिटी सपोर्ट मिलती है
  • संगत इमेज़ एडिटिंग: बेहतर multi-task training के जरिए semantic accuracy और visual realism दोनों सुरक्षित रहते हैं
  • मजबूत बेंचमार्क प्रदर्शन: कई सार्वजनिक बेंचमार्क में जनरेशन और एडिटिंग दोनों टास्क में शीर्ष श्रेणी का परिणाम
  • टेक्स्ट जनरेशन/एडिटिंग के क्षेत्र में LongText-Bench, ChineseWord, TextCraft में भी उत्कृष्ट स्कोर
  • क्रिएटिव उपयोग जैसे क्रिएशन, डिज़ाइन और स्टोरीटेलिंग में व्यापक रूप से काम में लाया जा सकता है

प्रदर्शन और बेंचमार्क

  • Qwen-Image ने GenEval, DPG, OneIG-Bench (जनरल इमेज जनरेशन) और GEdit, ImgEdit, GSO (एडिटिंग) जैसे बेंचमार्क पर हर जगह नवीनतम SOTA प्रदर्शन हासिल किया है
  • खास तौर पर चीनी टेक्स्ट जनरेशन में इसने पहले के शीर्ष मॉडल को बड़े अंतर से पीछे छोड़ दिया
  • वाइड जनरल क्षमता के साथ-साथ, सटीक टेक्स्ट रेंडरिंग जोड़कर यह एक लीडिंग इमेज़ जनरेशन मॉडल के रूप में स्थापित हो रहा है

डेमो उदाहरण

चीनी टेक्स्ट प्रस्तुति

  • उदाहरणीय prompt के आधार पर, यह Miyazaki animation शैली के साथ-साथ वास्तविक शब्दों जैसे “云存储”, “云计算”, “云模型” और अनोखे Hanzi (“千问”) को भी सही-सही रेंडर करता है।
  • चरित्र की pose, expression और दृश्य की depth भी प्राकृतिक तरीके से बनाई गई है।

जटिल चीनी टेक्स्ट का समानांतर प्रदर्शन

  • परिष्कृत द्विपदी, ब्रश-कैलिग्राफी, Qinghua शैली जैसे विवरण तक सूक्ष्मता से दिखाए गए हैं।
  • फ़ॉन्ट स्टाइल, लेआउट और चित्र (उदाहरण: 岳阳楼) तक वास्तविक जैसे स्तर पर पूर्णतः निर्मित दिखते हैं।

अंग्रेजी टेक्स्ट और मल्टीलाइन

  • बुक शेल्फ डिस्प्ले, संकेतक टेक्स्ट और पोस्टर जैसे कई स्थानों पर टेक्स्ट को विस्तार से रेंडर किया गया है।
  • New Arrivals This Week” से लेकर बुक-कवर पर छोटे वाक्य तक, वास्तविक जैसा फॉन्ट और लेआउट प्रस्तुत हैं।

जटिल अंग्रेजी इन्फोग्राफिक

  • प्रत्येक सब-मॉड्यूल में आइकन + शीर्षक + विवरण पैराग्राफ को अलग करके सही स्थान पर रखा गया है।
  • “Habits for Emotional Wellbeing” पर आधारित जटिल इन्फोग्राफिक भी प्राकृतिक आर्टवर्क और संतुलित composition के साथ पूरी तरह तैयार है।

छोटे और लंबे टेक्स्ट

  • इमेज के 1/10 से छोटे क्षेत्र तक लंबा handwritten टेक्स्ट भी बहुत विस्तार से दिखाया गया है।
  • बड़ी मात्रा में वाक्य भी हैंडराइटन शैली, लेआउट और लाइन-ब्रेक सहित सटीकता से दोहराए गए हैं।

बहुभाषी मिश्रण

  • अंग्रेजी और चीनी को एक ही इमेज में हैंडराइटन शैली में एक साथ जनरेट किया गया है।
  • prompt में भाषा बदलने पर टेक्स्ट जनरेशन स्वाभाविक रूप से बदल जाता है।

पोस्टर निर्माण

  • फिल्म पोस्टर, सब-टैगलाइन, कास्ट/डायरेक्टर/लॉन्च जानकारी जैसे अलग-अलग टेक्स्ट और विज़ुअल तत्वों को Sci-Fi, ग्राफिक डिजाइन आदि कई शैलीयों में सहजता से combine किया गया है।

Korean PPT उदाहरण

  • नए AI/कॉर्पोरेट PPT शैली (Alibaba लोगो, मुख्य शीर्षक, उपशीर्षक, कलाकार-शैली की इमेज प्लेसमेंट, कैलिग्राफी फॉन्ट, डिटेल्ड एक्सप्लेनेशन) तक में एकसार आउटपुट दिया गया है।

सामान्य इमेज जनरेशन और एडिटिंग

  • फोटोरियल, इंप्रेशनिज़्म, ऐनिमे, मिनिमल जैसी विविध आर्ट स्टाइल्स का सपोर्ट देते हुए यह रचनात्मक उपयोगिता बढ़ाता है।
  • स्टाइल बदलना, ऑब्जेक्ट add/delete, डिटेल सुधार, टेक्स्ट एडिटिंग, ह्यूमन pose adjustment जैसी कई practical इमेज एडिटिंग कमांड्स उपलब्ध हैं।

निष्कर्ष

  • Qwen-Image इमेज जनरेशन के क्षितिज का विस्तार करने, विज़ुअल कंटेंट निर्माण की टेक्निकल एंट्री बैरियर कम करने और क्रिएटिव उपयोग को बढ़ावा देने पर केंद्रित है।
  • समुदाय सहयोग, openness और टिकाऊ जनरेटिव AI इकोसिस्टम निर्माण पर विशेष जोर है।
  • वास्तविक उपयोगकर्ता feedback के आधार पर फीचर्स सुधारने और ओपन इकोसिस्टम को और विस्तारित करने की योजनाएं हैं।

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.