Qwen-Image: नेटिव टेक्स्ट रेंडरिंग वाला इमेज़ निर्माण मॉडल

(qwenlm.github.io)

1 पॉइंट द्वारा GN⁺ 2025-08-05 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Qwen-Image एक 20B पैरामीटर आधारित MMDiT इमेज़ निर्माण मॉडल है, जो नेटिव टेक्स्ट रेंडरिंग और प्रिसाइज़ इमेज़ एडिटिंग में मजबूत है।
अक्षर प्रणाली (अंग्रेजी, Hanzi आदि) के जटिल टेक्स्ट प्रतिनिधित्व में यह उच्च सटीकता और दृश्य गुणवत्ता हासिल करता है।
कई पब्लिक बेंचमार्क (GenEval, DPG, OneIG-Bench आदि) में इसने शीर्ष स्तर का प्रदर्शन किया है और टेक्स्ट-जनरेशन क्षमता भी उत्कृष्ट है।
वास्तविक डेमो में इसने मल्टीलैंग्वेज, पोस्टर, PPT, इलस्ट्रेशन जैसे जटिल लेआउट और विविध स्टाइल बेहद सटीक तरीके से दिखाए हैं।
स्टाइल ट्रांसफॉर्मेशन, ऑब्जेक्ट add/remove, डिटेल्ड डेस्क्रिप्शन, पोज़ बदलने जैसी एडिटिंग क्षमताएँ देता है और ओपन-सोर्स इकोसिस्टम को बढ़ाने पर फोकस करता है।

परिचय और मुख्य विशेषताएँ

Qwen-Image एक 20B पैरामीटर आधारित MMDiT इमेज़ निर्माण बेस मॉडल है, जो जटिल टेक्स्ट रेंडरिंग और सटीक इमेज़ एडिटिंग के लिए विशेष रूप से डिज़ाइन किया गया है।
Qwen Chat में आप नवीनतम मॉडल का अनुभव कर सकते हैं।

मुख्य फीचर्स

बेहतरीन टेक्स्ट रेंडरिंग: मल्टी लाइन लेआउट, पैराग्राफ-स्तर समझ और फाइन-ग्रेन टेक्स्ट प्रस्तुति संभव बनाता है
- अंग्रेजी, Hanzi आदि, यानी alphabetic और logographic दोनों स्क्रिप्ट परिवारों को हाई-फिडेलिटी सपोर्ट मिलती है
संगत इमेज़ एडिटिंग: बेहतर multi-task training के जरिए semantic accuracy और visual realism दोनों सुरक्षित रहते हैं
मजबूत बेंचमार्क प्रदर्शन: कई सार्वजनिक बेंचमार्क में जनरेशन और एडिटिंग दोनों टास्क में शीर्ष श्रेणी का परिणाम
टेक्स्ट जनरेशन/एडिटिंग के क्षेत्र में LongText-Bench, ChineseWord, TextCraft में भी उत्कृष्ट स्कोर
क्रिएटिव उपयोग जैसे क्रिएशन, डिज़ाइन और स्टोरीटेलिंग में व्यापक रूप से काम में लाया जा सकता है

प्रदर्शन और बेंचमार्क

Qwen-Image ने GenEval, DPG, OneIG-Bench (जनरल इमेज जनरेशन) और GEdit, ImgEdit, GSO (एडिटिंग) जैसे बेंचमार्क पर हर जगह नवीनतम SOTA प्रदर्शन हासिल किया है
खास तौर पर चीनी टेक्स्ट जनरेशन में इसने पहले के शीर्ष मॉडल को बड़े अंतर से पीछे छोड़ दिया
वाइड जनरल क्षमता के साथ-साथ, सटीक टेक्स्ट रेंडरिंग जोड़कर यह एक लीडिंग इमेज़ जनरेशन मॉडल के रूप में स्थापित हो रहा है

डेमो उदाहरण

चीनी टेक्स्ट प्रस्तुति

उदाहरणीय prompt के आधार पर, यह Miyazaki animation शैली के साथ-साथ वास्तविक शब्दों जैसे “云存储”, “云计算”, “云模型” और अनोखे Hanzi (“千问”) को भी सही-सही रेंडर करता है।
चरित्र की pose, expression और दृश्य की depth भी प्राकृतिक तरीके से बनाई गई है।

जटिल चीनी टेक्स्ट का समानांतर प्रदर्शन

परिष्कृत द्विपदी, ब्रश-कैलिग्राफी, Qinghua शैली जैसे विवरण तक सूक्ष्मता से दिखाए गए हैं।
फ़ॉन्ट स्टाइल, लेआउट और चित्र (उदाहरण: 岳阳楼) तक वास्तविक जैसे स्तर पर पूर्णतः निर्मित दिखते हैं।

अंग्रेजी टेक्स्ट और मल्टीलाइन

बुक शेल्फ डिस्प्ले, संकेतक टेक्स्ट और पोस्टर जैसे कई स्थानों पर टेक्स्ट को विस्तार से रेंडर किया गया है।
“New Arrivals This Week” से लेकर बुक-कवर पर छोटे वाक्य तक, वास्तविक जैसा फॉन्ट और लेआउट प्रस्तुत हैं।

जटिल अंग्रेजी इन्फोग्राफिक

प्रत्येक सब-मॉड्यूल में आइकन + शीर्षक + विवरण पैराग्राफ को अलग करके सही स्थान पर रखा गया है।
“Habits for Emotional Wellbeing” पर आधारित जटिल इन्फोग्राफिक भी प्राकृतिक आर्टवर्क और संतुलित composition के साथ पूरी तरह तैयार है।

छोटे और लंबे टेक्स्ट

इमेज के 1/10 से छोटे क्षेत्र तक लंबा handwritten टेक्स्ट भी बहुत विस्तार से दिखाया गया है।
बड़ी मात्रा में वाक्य भी हैंडराइटन शैली, लेआउट और लाइन-ब्रेक सहित सटीकता से दोहराए गए हैं।

बहुभाषी मिश्रण

अंग्रेजी और चीनी को एक ही इमेज में हैंडराइटन शैली में एक साथ जनरेट किया गया है।
prompt में भाषा बदलने पर टेक्स्ट जनरेशन स्वाभाविक रूप से बदल जाता है।

पोस्टर निर्माण

फिल्म पोस्टर, सब-टैगलाइन, कास्ट/डायरेक्टर/लॉन्च जानकारी जैसे अलग-अलग टेक्स्ट और विज़ुअल तत्वों को Sci-Fi, ग्राफिक डिजाइन आदि कई शैलीयों में सहजता से combine किया गया है।

Korean PPT उदाहरण

नए AI/कॉर्पोरेट PPT शैली (Alibaba लोगो, मुख्य शीर्षक, उपशीर्षक, कलाकार-शैली की इमेज प्लेसमेंट, कैलिग्राफी फॉन्ट, डिटेल्ड एक्सप्लेनेशन) तक में एकसार आउटपुट दिया गया है।

सामान्य इमेज जनरेशन और एडिटिंग

फोटोरियल, इंप्रेशनिज़्म, ऐनिमे, मिनिमल जैसी विविध आर्ट स्टाइल्स का सपोर्ट देते हुए यह रचनात्मक उपयोगिता बढ़ाता है।
स्टाइल बदलना, ऑब्जेक्ट add/delete, डिटेल सुधार, टेक्स्ट एडिटिंग, ह्यूमन pose adjustment जैसी कई practical इमेज एडिटिंग कमांड्स उपलब्ध हैं।

निष्कर्ष

Qwen-Image इमेज जनरेशन के क्षितिज का विस्तार करने, विज़ुअल कंटेंट निर्माण की टेक्निकल एंट्री बैरियर कम करने और क्रिएटिव उपयोग को बढ़ावा देने पर केंद्रित है।
समुदाय सहयोग, openness और टिकाऊ जनरेटिव AI इकोसिस्टम निर्माण पर विशेष जोर है।
वास्तविक उपयोगकर्ता feedback के आधार पर फीचर्स सुधारने और ओपन इकोसिस्टम को और विस्तारित करने की योजनाएं हैं।

1 टिप्पणियां

GN⁺ 2025-08-05

Hacker News टिप्पणी

समझ नहीं आता कि इसे लेकर इतना बड़ा हाइप अभी तक क्यों नहीं बना—– यह सिर्फ gpt-image-1 को हर पहलू में पछाड़ने वाला पहला ओपन सोर्स मॉडल ही नहीं, बल्कि Flux Kontext से भी आगे एडिटिंग क्षमता देने वाला मॉडल है। यह सच में बड़ी बात है।
- करीब एक घंटे तक मैंने इस मॉडल के साथ खेलने/ट्राई करने में समय बिताया। कुल मिलाकर यह काफी अच्छी है, लेकिन मेरे शुरुआती टेस्ट में जटिल प्रॉम्प्ट अनुपालन में यह निश्चित तौर पर gpt-image-1 (या Imagen 3/4) से कमजोर रही। लगभग ~50% सफलता मिली, जबकि gpt-image-1 करीब ~75% रही। maze, Schrödinger equation जैसे केस ये अभी तक नहीं कर पाई। genai showdown साइट पर मैंने टेस्ट किया।
- सिर्फ उनके पेज देखकर कोई निश्चित राय नहीं बनती, लेकिन एडिटिंग मॉडल अभी तक official तरीके से रिलीज़ नहीं हुआ लगता। GitHub issue comment लिंक देखें।
- मेरी राय में यह निश्चित रूप से gpt-image-1 से कहीं ज्यादा काम कर सकता है। इसमें style transfer, object add/remove, text editing, pose manipulation के साथ-साथ object detection, semantic segmentation, depth/edge estimation, super-resolution और NVS (novel view synthesis) यानी बेस इमेज से नया viewpoint बनाकर नया फ्रेम generate करने की क्षमता भी है। सच में फीचर-भरमार मॉडल। शुरुआती परिणामों में gpt-image-1 अभी भी थोड़ी बेहतर sharpness और clarity दिखाता है। honestly, लगता है कि शायद OpenAI कहीं पोस्ट-प्रोसेसिंग में simple unsharp mask जैसी चीज़ लगा रहा हो। हल्के ब्लर वाले क्षेत्रों में भी अजीब तरह की uniform sharpness दिखी, और कभी-कभी थोड़ा ज्यादा ही लगता है। फिर भी कुल मिलाकर यह मॉडल लगभग बराबर के लेवल पर दिखता है। सच कहूँ तो मुझे लगा था कि इस साल सिर्फ OpenAI की unique image generation tech ही top पर रहेगी, लेकिन इतना आगे निकलना सच में चौंकाने वाला है। वैसे Flux Krea को रिलीज़ हुए अभी सिर्फ 4 दिन हुए हैं! अगर यह मॉडल gpt-image-1 के पास-पास की क्वालिटी देता है, तो यह सच में बड़ा बदलाव होगा।
- मेरी समझ से इसकी 40GB VRAM जरूरत शायद ही शायद इस चर्चा को थोड़ा ठंडा कर रही है। LLM मॉडल्स में कई GPU पर distributed deployment का सिस्टम काफी mature हो चुका है, पर इमेज मॉडल GGUF format use करते हुए भी अभी तक इसी दिशा में तेजी नहीं दिखी—समझ नहीं आता क्यों। जब इमेज मॉडल और बड़े होंगे, शायद distributed रनिंग और ज्यादा सामान्य हो जाए।
- अभी सिर्फ कुछ घंटे हुए हैं और demo में लगातार errors आ रहे हैं, इसलिए लगता है users को इसे ठीक से explore करने के लिए थोड़ा और समय चाहिए। quantized GGUF और अलग-अलग Comfy workflows का आना भी बहुत important होगा, क्योंकि ज्यादातर users इसे local पर ही चलाना चाहेंगे। size बाकी मॉडलों की तुलना में काफी बड़ा है। मज़ेदार बात यह है कि सबसे बड़ा मुकाबला शायद Flux से नहीं, Alibaba मॉडल्स के बीच का होगा। उदाहरण के लिए Wan 2.2 अभी से ही इमेज जनरेशन में बहुत लोकप्रिय है, इसलिए जिज्ञासा यह है कि Qwen-Image ने Wan 2.2 के मुकाबले वास्तविक रूप से कितना बड़ा jump दिया। नए इमेज मॉडलों का असली सार्वजनिक मूल्यांकन सामान्यतः लॉन्च के लगभग 1 हफ्ते बाद सबसे अच्छा होता है—तभी users खुद बहुत testing करके third-party perspective से pros/cons sort करते हैं। इस मॉडल से भी बड़ी उम्मीदें हैं।
अच्छा रिलीज़ है! मैंने इसे GenAI Showdown साइट पर जोड़ दिया। कुल मिलाकर लगभग 40% स्कोर वाला काफ़ी अच्छा मॉडल, और खास बात यह कि consumer GPU पर चलने वाला एक SOTA मॉडल भी है (quantized version में तो और भी आसान)। हाँ, txt2img prompts को सही तरीके से follow करने में यह OpenAI के gpt-image-1 से साफ़ तौर पर पीछे है—यह तथ्य है। लेकिन जैसा कि इस thread में भी कहा गया है, इस मॉडल की बड़ी strength इसका edit आदि कई काम कर पाना है। इसे genai showdown पर भी देखा जा सकता है।
- FYI, Imagen 3 और 4 अलग-अलग मॉडल्स हैं, इसलिए इन्हें एक साथ compare करना ठीक नहीं।
ऐसे काम जो बार-बार करने वालों के लिए शायद obvious हो, लेकिन मुझे जानना है कि इसे run करने के लिए hardware spec कितना चाहिए। मैंने Linux में 16GB GPU और 64GB RAM वाली machine पर रन करके देखा। इसी PC पर SD ठीक चली। लेकिन Qwen-image में या तो GPU या CPU दोनों पर memory insufficient error आया। शायद यह अभी काफी कम है—क्या सिर्फ दोगुना बढ़ाने से चलेगा? या कई गुना RAM चाहिए? या सच में crazy hardware की जरूरत है?
- ऐसे काम जो often करने वालों को शायद normal लगे, पर सच कहें तो ऐसा नहीं। VLM/LLM में VRAM usage गणना लगभग जादू के नज़दीक है। ऑनलाइन लगभग 10 calculators मिलती हैं, पर सही वाला शायद कोई नहीं। quantization, KV caching, activation, layer count—कई variables काम करते हैं। बहुत ही annoying हिस्सा। खैर, इस मॉडल के केस में 40GB से ज्यादा VRAM चाहिए। सामान्य सिस्टम RAM (Apple Silicon का unified RAM अलग केस में) पर्याप्त नहीं होगा। Apple Silicon पर भी memory bandwidth lower होने की वजह से inference speed GPU/TPU की तुलना में काफी slow हो जाती है।
- मुझे लगता है मॉडल फाइल साइज़ के करीब ही होगा। transformers फोल्डर देखें तो करीब 9 फाइलें ~5GB की हैं; लगभग 45GB GPU VRAM चाहिए मानें। सामान्यतः एक quantized lightweight version (quality थोड़ा गिरती है) जल्द आने वाली लगती है।
- Qwen-Image फुल मॉडल के लिए कम से कम 24GB VRAM चाहिये। हाँ, 4-bit quantized version AutoGPTQ जैसी library से करीब 8GB VRAM में भी चल सकता है।
- 4-bit quantized version शायद कुछ दिन और लगेगा; parameters 20B हैं।
- production inference setup में यह 1xH100 पर अच्छी तरह चलता है।
बाकी इमेज जनरेशन मॉडलों से अलग, यह 4o image gen की तरह पूरी image को अनावश्यकly बदलता नहीं। 4o में सिर्फ कपड़े बदलने पर face बदल जाना common था, जबकि यह मॉडल शायद सिर्फ वही हिस्से छूता है जहाँ edit की जरूरत है—जैसे AI के artificial artifacts वहीं डालता है।
- यही कारण था कि Flux Kontext बड़ा हिट हुआ था—बिना manual masking के सीधे img2img inpainting की ताकत मिलना बहुत बड़ी चीज़ थी। एडिटिंग से संबंधित ब्लॉग देखें।
- 4o में भी यदि सिर्फ वही भाग चुनें जिसे edit करना है, तो बाकी हिस्सा वैसा ही रहता है।
पिछले कुछ समय से Chinese ओपन सोर्स मॉडल बहुत ही अच्छी क्वालिटी दे रहे हैं। ऐसी खबरें हर बार real hope जगाती हैं।
क्या किसी को पता है कि इन मॉडलों में actual text rendering training कैसे किया गया? मैंने जो models इस्तेमाल किए (OpenAI, Flux सहित) सभी का वही issue था—text natural नहीं दिखा, और image के अंदर shadow या reflection original फोटो से अलग-सी awkward लगती रही। शायद सभी same trick use कर रहे हों।
- टेक्निकल रिपोर्ट के पेज 14 में इसका जिक्र है। उसमें लिखा है कि image पर text overlay करके synthetic data बनाते हैं। लगता है training में वास्तविक light conditions को properly नहीं लिया गया और बस text paste करके train किया गया—garbage in, garbage out। शायद आगे चलकर ज्यादा realistic text compositing method आए और उस पर train किया जाए, तो अधिक natural text outputs वाले मॉडल देखने को मिलें।
पेपर के सेक्शन 3.2 के Data Filtering part को भी देखना चाहिए। मूल शोध पत्र PDF देखें।
- रोचक यह है कि अंग्रेज़ी और Chinese के अलावा किसी दूसरी भाषा का mention या उदाहरण नहीं दिखा।
सीधे इसको host करके इस्तेमाल करते वक्त acceptable आउटपुट देने वाली minimum graphics card spec क्या होनी चाहिए, यह जानना है।
कैनवास छोटा है।
सेंसरशिप कितनी सख़्त है, यह जानना है।
- हर नए मॉडल पर community की top curiosity यही होती है—और सच में कोई भी org इंसानी nature की uncomfortable reality का सामना करना नहीं चाहता। साथ ही US society और कंपनियों में भी अजीब सी over-caution और purity-driven mindset दिखती है।

Qwen-Image: नेटिव टेक्स्ट रेंडरिंग वाला इमेज़ निर्माण मॉडल

परिचय और मुख्य विशेषताएँ

मुख्य फीचर्स

प्रदर्शन और बेंचमार्क

डेमो उदाहरण

चीनी टेक्स्ट प्रस्तुति

जटिल चीनी टेक्स्ट का समानांतर प्रदर्शन

अंग्रेजी टेक्स्ट और मल्टीलाइन

जटिल अंग्रेजी इन्फोग्राफिक

छोटे और लंबे टेक्स्ट

बहुभाषी मिश्रण

पोस्टर निर्माण

Korean PPT उदाहरण

सामान्य इमेज जनरेशन और एडिटिंग

निष्कर्ष

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News टिप्पणी