- Qwen-Image एक 20B पैरामीटर आधारित MMDiT इमेज़ निर्माण मॉडल है, जो नेटिव टेक्स्ट रेंडरिंग और प्रिसाइज़ इमेज़ एडिटिंग में मजबूत है।
- अक्षर प्रणाली (अंग्रेजी, Hanzi आदि) के जटिल टेक्स्ट प्रतिनिधित्व में यह उच्च सटीकता और दृश्य गुणवत्ता हासिल करता है।
- कई पब्लिक बेंचमार्क (GenEval, DPG, OneIG-Bench आदि) में इसने शीर्ष स्तर का प्रदर्शन किया है और टेक्स्ट-जनरेशन क्षमता भी उत्कृष्ट है।
- वास्तविक डेमो में इसने मल्टीलैंग्वेज, पोस्टर, PPT, इलस्ट्रेशन जैसे जटिल लेआउट और विविध स्टाइल बेहद सटीक तरीके से दिखाए हैं।
- स्टाइल ट्रांसफॉर्मेशन, ऑब्जेक्ट add/remove, डिटेल्ड डेस्क्रिप्शन, पोज़ बदलने जैसी एडिटिंग क्षमताएँ देता है और ओपन-सोर्स इकोसिस्टम को बढ़ाने पर फोकस करता है।
परिचय और मुख्य विशेषताएँ
- Qwen-Image एक 20B पैरामीटर आधारित MMDiT इमेज़ निर्माण बेस मॉडल है, जो जटिल टेक्स्ट रेंडरिंग और सटीक इमेज़ एडिटिंग के लिए विशेष रूप से डिज़ाइन किया गया है।
- Qwen Chat में आप नवीनतम मॉडल का अनुभव कर सकते हैं।
मुख्य फीचर्स
- बेहतरीन टेक्स्ट रेंडरिंग: मल्टी लाइन लेआउट, पैराग्राफ-स्तर समझ और फाइन-ग्रेन टेक्स्ट प्रस्तुति संभव बनाता है
- अंग्रेजी, Hanzi आदि, यानी alphabetic और logographic दोनों स्क्रिप्ट परिवारों को हाई-फिडेलिटी सपोर्ट मिलती है
- संगत इमेज़ एडिटिंग: बेहतर multi-task training के जरिए semantic accuracy और visual realism दोनों सुरक्षित रहते हैं
- मजबूत बेंचमार्क प्रदर्शन: कई सार्वजनिक बेंचमार्क में जनरेशन और एडिटिंग दोनों टास्क में शीर्ष श्रेणी का परिणाम
- टेक्स्ट जनरेशन/एडिटिंग के क्षेत्र में LongText-Bench, ChineseWord, TextCraft में भी उत्कृष्ट स्कोर
- क्रिएटिव उपयोग जैसे क्रिएशन, डिज़ाइन और स्टोरीटेलिंग में व्यापक रूप से काम में लाया जा सकता है
प्रदर्शन और बेंचमार्क
- Qwen-Image ने GenEval, DPG, OneIG-Bench (जनरल इमेज जनरेशन) और GEdit, ImgEdit, GSO (एडिटिंग) जैसे बेंचमार्क पर हर जगह नवीनतम SOTA प्रदर्शन हासिल किया है
- खास तौर पर चीनी टेक्स्ट जनरेशन में इसने पहले के शीर्ष मॉडल को बड़े अंतर से पीछे छोड़ दिया
- वाइड जनरल क्षमता के साथ-साथ, सटीक टेक्स्ट रेंडरिंग जोड़कर यह एक लीडिंग इमेज़ जनरेशन मॉडल के रूप में स्थापित हो रहा है
डेमो उदाहरण
चीनी टेक्स्ट प्रस्तुति
- उदाहरणीय prompt के आधार पर, यह Miyazaki animation शैली के साथ-साथ वास्तविक शब्दों जैसे “云存储”, “云计算”, “云模型” और अनोखे Hanzi (“千问”) को भी सही-सही रेंडर करता है।
- चरित्र की pose, expression और दृश्य की depth भी प्राकृतिक तरीके से बनाई गई है।
जटिल चीनी टेक्स्ट का समानांतर प्रदर्शन
- परिष्कृत द्विपदी, ब्रश-कैलिग्राफी, Qinghua शैली जैसे विवरण तक सूक्ष्मता से दिखाए गए हैं।
- फ़ॉन्ट स्टाइल, लेआउट और चित्र (उदाहरण: 岳阳楼) तक वास्तविक जैसे स्तर पर पूर्णतः निर्मित दिखते हैं।
अंग्रेजी टेक्स्ट और मल्टीलाइन
- बुक शेल्फ डिस्प्ले, संकेतक टेक्स्ट और पोस्टर जैसे कई स्थानों पर टेक्स्ट को विस्तार से रेंडर किया गया है।
- “New Arrivals This Week” से लेकर बुक-कवर पर छोटे वाक्य तक, वास्तविक जैसा फॉन्ट और लेआउट प्रस्तुत हैं।
जटिल अंग्रेजी इन्फोग्राफिक
- प्रत्येक सब-मॉड्यूल में आइकन + शीर्षक + विवरण पैराग्राफ को अलग करके सही स्थान पर रखा गया है।
- “Habits for Emotional Wellbeing” पर आधारित जटिल इन्फोग्राफिक भी प्राकृतिक आर्टवर्क और संतुलित composition के साथ पूरी तरह तैयार है।
छोटे और लंबे टेक्स्ट
- इमेज के 1/10 से छोटे क्षेत्र तक लंबा handwritten टेक्स्ट भी बहुत विस्तार से दिखाया गया है।
- बड़ी मात्रा में वाक्य भी हैंडराइटन शैली, लेआउट और लाइन-ब्रेक सहित सटीकता से दोहराए गए हैं।
बहुभाषी मिश्रण
- अंग्रेजी और चीनी को एक ही इमेज में हैंडराइटन शैली में एक साथ जनरेट किया गया है।
- prompt में भाषा बदलने पर टेक्स्ट जनरेशन स्वाभाविक रूप से बदल जाता है।
पोस्टर निर्माण
- फिल्म पोस्टर, सब-टैगलाइन, कास्ट/डायरेक्टर/लॉन्च जानकारी जैसे अलग-अलग टेक्स्ट और विज़ुअल तत्वों को Sci-Fi, ग्राफिक डिजाइन आदि कई शैलीयों में सहजता से combine किया गया है।
Korean PPT उदाहरण
- नए AI/कॉर्पोरेट PPT शैली (Alibaba लोगो, मुख्य शीर्षक, उपशीर्षक, कलाकार-शैली की इमेज प्लेसमेंट, कैलिग्राफी फॉन्ट, डिटेल्ड एक्सप्लेनेशन) तक में एकसार आउटपुट दिया गया है।
सामान्य इमेज जनरेशन और एडिटिंग
- फोटोरियल, इंप्रेशनिज़्म, ऐनिमे, मिनिमल जैसी विविध आर्ट स्टाइल्स का सपोर्ट देते हुए यह रचनात्मक उपयोगिता बढ़ाता है।
- स्टाइल बदलना, ऑब्जेक्ट add/delete, डिटेल सुधार, टेक्स्ट एडिटिंग, ह्यूमन pose adjustment जैसी कई practical इमेज एडिटिंग कमांड्स उपलब्ध हैं।
निष्कर्ष
- Qwen-Image इमेज जनरेशन के क्षितिज का विस्तार करने, विज़ुअल कंटेंट निर्माण की टेक्निकल एंट्री बैरियर कम करने और क्रिएटिव उपयोग को बढ़ावा देने पर केंद्रित है।
- समुदाय सहयोग, openness और टिकाऊ जनरेटिव AI इकोसिस्टम निर्माण पर विशेष जोर है।
- वास्तविक उपयोगकर्ता feedback के आधार पर फीचर्स सुधारने और ओपन इकोसिस्टम को और विस्तारित करने की योजनाएं हैं।
अभी कोई टिप्पणी नहीं है.