Qwen VLo - दुनिया को 'समझने' से 'वर्णित' करने तक

(qwenlm.github.io)

1 पॉइंट द्वारा GN⁺ 2025-06-29 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Qwen VLo एक एकीकृत multimodal understanding और generation model है, जो image understanding के साथ-साथ उच्च-गुणवत्ता image generation भी प्रदान करता है
उपयोगकर्ता natural language में creative commands दे सकते हैं, और style transformation, background change आदि सहित विभिन्न images को सीधे generate और edit कर सकते हैं
कई भाषाओं का समर्थन होने से दुनिया भर के उपयोगकर्ता बिना language barrier के इसे आसानी से इस्तेमाल कर सकते हैं
यह images को लगातार सुधारने और optimize करने वाले progressive generation approach को अपनाता है, जिससे बेहतर visual quality और उच्च controllability मिलती है
यह अभी preview चरण में है, इसलिए कुछ features की instability हो सकती है, लेकिन इसमें लगातार सुधार जारी है

परिचय

multimodal large models की प्रगति लगातार तकनीक की सीमाओं का विस्तार कर रही है
QwenVL से शुरू होकर Qwen2.5 VL तक image content understanding को मजबूत किया गया, और अब Qwen VLo understanding और generation दोनों को समेटने वाले नए multimodal model के रूप में सामने आया है
Qwen VLo दुनिया को "समझने" से आगे बढ़कर, उस समझ के आधार पर detailed image "generate" भी कर सकता है
यह model perception और creation के बीच की सीमा को व्यावहारिक रूप से जोड़ता है
फिलहाल यह preview version के रूप में Qwen Chat में उपलब्ध है, जहाँ "प्यारी बिल्ली की तस्वीर बनाओ" जैसे commands से image बनाई जा सकती है, और image upload करने के बाद "बिल्ली को टोपी पहनाओ" जैसी edits भी की जा सकती हैं

रचनात्मक generation प्रक्रिया

Qwen VLo की image generation दिखाने वाले demo video में देखा जा सकता है कि यह model progressive generation method का उपयोग करता है
यह image को ऊपर-बाएँ से नीचे-दाएँ दिशा में धीरे-धीरे बनाता है, और predictions को लगातार refine करके consistent और harmonious results हासिल करता है
यह generation mechanism visual quality बढ़ाता है और उपयोगकर्ताओं को रचनात्मक प्रक्रिया पर अधिक flexible और fine-grained control देता है

समझ से रचनात्मकता तक: बेहतर multimodal generation capabilities

Qwen VLo के मुख्य सुधार

सटीक content understanding और reproduction
- मौजूदा multimodal models में generation के दौरान semantic mismatch की समस्या होती थी, जैसे कार को गलत पहचानना या उसकी संरचना खो देना
- Qwen VLo की detail capture करने की क्षमता बेहतर हुई है और यह उच्च semantic consistency बनाए रखता है
- उदाहरण के लिए, अगर कार की photo का रंग बदलने के लिए कहा जाए, तो यह वास्तविक car model और उसकी structure को बनाए रखते हुए केवल रंग को स्वाभाविक रूप से बदलता है, जिससे परिणाम अधिक realistic होता है
open-ended command-based editing support
- उपयोगकर्ता "इस चित्र को Van Gogh style में बदलो", "इसे 19वीं सदी की photo जैसा बनाओ", "साफ़ आसमान जोड़ो" जैसे स्वतंत्र रचनात्मक commands natural language में दे सकते हैं
- style transformation, scene reconstruction, detailed editing के साथ-साथ deep learning के पारंपरिक vision tasks जैसे depth map, segmentation, edge estimation भी साधारण commands से किए जा सकते हैं
- complex commands, जैसे object modification + text editing + background change, भी एक बार में किए जा सकते हैं
multilingual command support
- Qwen VLo चीनी, अंग्रेज़ी आदि कई भाषाओं में निर्देशों का समर्थन करता है
- यह बिना language barrier के वैश्विक उपयोग को आसान बनाता है

डेमो उपयोग के उदाहरण

Qwen VLo एक human artist की तरह समझ के आधार पर कल्पना को वास्तविक रूप देता है। इसमें background replacement, subject addition, style conversion, open-ended command-आधारित large-scale editing, और detection/segmentation response संभव है।

खास तौर पर, understanding-based regeneration feature के जरिए यह कॉमिक → real-life, किसी खास व्यक्ति → गुब्बारा जैसी व्यापक creative style transformations को support करता है।

model की उन्नत image और command parsing क्षमता की मदद से complex commands को एक साथ execute किया जा सकता है, जैसे poster creation, कई objects का combination आदि, यानी कई-step tasks को एक बार में पूरा करना

इसके अलावा, Qwen VLo detection, segmentation, edge detection जैसी मौजूदा जानकारी पर annotation/marking features भी support करता है।

multi-image input processing की सुविधा भी तैयार की जा रही है (आधिकारिक रिलीज़ में आने वाली है)
text + image input के साथ-साथ text → image generation (general images, Chinese-English mixed posters आदि) भी support करता है
बहुत लंबे horizontal/vertical ratio formats (अधिकतम 4:1, 1:3 आदि) में image generation support (आधिकारिक रिलीज़ में आने वाला)
model अपने द्वारा generated images को फिर से understand/analyze करके कुत्ते और बिल्ली की नस्ल पहचानने जैसे काम भी कर सकता है

उपयोग कैसे करें

Qwen VLo dynamic resolution learning और generation का उपयोग करता है, इसलिए input और output image resolution तथा aspect ratio को स्वतंत्र रूप से इस्तेमाल किया जा सकता है। तय format से बाहर निकलकर इच्छित size की images, जैसे poster, illustration, web banner, SNS cover आदि, बनाए जा सकते हैं।

generation mechanism: ऊपर-बाएँ → नीचे-दाएँ progressive generation
लंबे text वाले ads, comic panels आदि जैसे fine control की ज़रूरत वाले tasks में process को real time में सूक्ष्म रूप से adjust किया जा सकता है

सीमाएँ

Qwen VLo अभी preview stage में है, इसलिए इसमें कुछ कमियाँ हैं। generation के दौरान accuracy की कमी, original से mismatch, commands का पालन न करना, image understanding में instability जैसी समस्याएँ आ सकती हैं। इसमें लगातार सुधार और stabilization updates जारी हैं।

अगला चरण

जैसे-जैसे multimodal large models bidirectional text-vision input/output क्षमताएँ प्राप्त कर रहे हैं, अभिव्यक्ति और interaction के नए तरीके खुल रहे हैं
आगे चलकर models केवल text responses ही नहीं, बल्कि diagram, guide lines, highlights आदि visual content के माध्यम से भी ideas communicate कर पाएँगे

उन्नत generation capabilities का उपयोग model की अपनी understanding को verify और improve करने में भी किया जाएगा
उदाहरण के लिए, segmentation map, detection map जैसे intermediate results को सीधे generate करके model अपनी understanding को साबित और बेहतर कर सकता है
इस तरह की research direction पर लगातार काम जारी है

1 टिप्पणियां

GN⁺ 2025-06-29

Hacker News राय

यह बात खलती है कि Qwen ने open weights जारी नहीं किए। अब तक Qwen की सबसे बड़ी ताकतों में से एक उसकी open weights रणनीति रही है। काश कोई ऐसा सचमुच का open weights मॉडल होता जो 4o की automatic image generation से मुकाबला कर सकता। ऐसे कई दिलचस्प research directions हैं जो सिर्फ weights तक direct access होने पर ही संभव हैं। अगर development cost की वसूली समस्या है, तो BFL के Flux Kontext Dev रिलीज़ मॉडल को देखना चाहिए। शोधकर्ताओं और व्यक्तियों के लिए weights मुफ्त में जारी किए जाएँ, और startups उचित कीमत पर commercial license खरीदें — ऐसा तरीका भी हो सकता है
- Qwen की images देखकर साफ लगता है कि उन्हें OpenAI के outputs पर train किया गया है। images में हल्की नारंगी आभा देखकर भी यह समझ आता है (उदाहरण1, उदाहरण2, उदाहरण3). यह भी जानना है कि क्या इन्होंने अपना data जुटाने की कोशिश भी की थी। आखिरकार OAI को वैसे ही follow करते हुए भी इसे API के पीछे छिपा दिया गया। OAI की तरह सिर्फ closed ही नहीं, performance भी कमज़ोर है। ऐसी strategy समझना मुश्किल लगता है
- अगर open weights पर ज़ोर देते हुए भी शोधकर्ताओं/व्यक्तियों के लिए अलग weights और startups के लिए commercial license खरीदने का सुझाव दिया जाए, तो यह सचमुच के open weights से काफ़ी दूर लगता है। जैसे 'open source' में मनचाहे उपयोग की आज़ादी होनी चाहिए, वैसे ही तभी उसका असली अर्थ बनता है। वरना 'open' शब्द अपना अर्थ खो सकता है
- मुझे नहीं लगता कि कई करोड़ डॉलर के investment, GPU cost, और engineers की salary सिर्फ image generation fees से वसूल की जा सकती है
- ऐसा माहौल लग रहा है मानो चीन से आए open weights का दौर अचानक खत्म हो गया हो। Alibaba ने Qwen का public release रोक दिया, Tencent ने Hunyuan की रिलीज़ रोक दी, और Bytedance ने Seedream बंद कर दिया। पश्चिमी models पर training लेना अब भी जारी है। बल्कि मेरा मानना है कि 100% open करके infrastructure और services से revenue कमाने की strategy ज़्यादा समझदारी भरी है
image को language model तक भेजने से पहले 256 tokens में compress किया जाता है। उदाहरण के लिए, hat जोड़ने को कहने पर पूरा चेहरा फिर से draw कर दिया जाता है। individual objects अलग से store नहीं होते, और bear character भी अस्थायी रूप से ही मौजूद रहता है। सब कुछ एक fused latent space में store होता है, और नई conditions के तहत दोबारा sample किया जाता है। prompt में थोड़ा सा बदलाव भी पूरी image बदल देता है। यानी हर बार scene को नए सिरे से बनाया जाता है, जो कई तरह के use cases के लिए अच्छा लग सकता है
- Flux Kontext में multimodal model की तरह details काफ़ी अच्छी तरह बनी रहती हैं, जो मुझे पसंद है। GPT-Image-1 में 'Ghibli style में बदलो' जैसे overall style change के लिए तो ठीक है, लेकिन photorealistic image में चश्मा जोड़ने जैसे fine-grained edits में details अच्छी तरह नहीं बचतीं
bear image editing examples देखते हुए लगा कि माँगी गई चीज़ से कहीं ज़्यादा हिस्से बदल जा रहे हैं। सिर्फ background बदलने को कहा, लेकिन bear भी काफ़ी बदल गया। bear को balloon में बदलने को कहा तो background के paving blocks गायब हो गए या watermelon seeds हट गए जैसे अजीब बदलाव भी आ गए। समझ नहीं आता कि यह बेहतर prompt writing से हल होने वाली समस्या है या model architecture की सीमा
- दोनों ही। prompt optimization से result कुछ बेहतर हो सकता है, लेकिन मूल कारण model structure और training method, यानी architecture और methodology की सीमाएँ हैं
pelican के bicycle चलाने वाली image try की, और accordion image भी generate की। fingers या keys के काले हिस्सों जैसी बारीक चीज़ों में यह कमज़ोर है। generation speed काफ़ी तेज़ है उदाहरण लिंक
- लगता है Simon test का मुख्य बिंदु कि वह SVG format में है, यह बात छूट गई। bicycle चलाते pelican की image तो Stable Diffusion 2/3 के बाद से आसान task रही है। चुनौती pixel image में नहीं, बल्कि SVG में logical reasoning और accuracy की ज़रूरत होने में है
editing, style transfer वगैरह image modification examples में हल्की पीली tint दिखती है। GPT Image 1 में भी यह दिखती है, लेकिन Flux Kontext में नहीं थी। वजह जानने की जिज्ञासा है
सारी images में uncanny valley जैसा अहसास है। colors और shadows दोनों अटपटे लगते हैं
- outputs कुल मिलाकर काफ़ी भद्दे लगते हैं। अगर research न हो तो ऐसी images का कोई practical use case सोचना मुश्किल है
एक machine learning researcher और physics degree रखने वाले व्यक्ति के रूप में, ऐसे models के लिए 'समझ' और 'व्याख्या' जैसे शब्द इस्तेमाल करना मुझे असहज लगता है। इससे वास्तविक मदद कम मिलती है और उल्टा भ्रम बढ़ता है। physics में mathematics का इस्तेमाल precision के लिए होता है, और coding भी बेहद specific होती है। हम अपने जीवन में अनगिनत details से प्रभावित होते हैं, लेकिन model ऐसी सूक्ष्मताओं को पकड़ नहीं पाता। Asimov का "Relativity of Wrong"(लिंक) ज़रूर पढ़ना चाहिए। अगर सच में कहना है कि इसने 'समझा' है, तो model को discovery/inference/concept redefinition जैसी ऐसी चीज़ें पैदा करनी चाहिए जो उसने पहले नहीं सुनी हों। इंसानों में counterfactual thinking(लिंक) स्वाभाविक होती है, लेकिन आधुनिक ML models में नहीं। OP image में उँगलियों की संख्या की गलती, या keyboard के key layout की गड़बड़ी, इसके प्रतिनिधि उदाहरण हैं। ऊपर-ऊपर से चीज़ें विश्वसनीय लगती हैं, लेकिन जितना देर तक देखते जाओ, उतनी ही अजीब लगने लगती हैं — यही typical uncanny valley है
- जो लोग वास्तव में कुछ बना रहे होते हैं, उनके लिए ऐसी बहसें थका देने वाली लगती हैं। input और output के concept को आसानी से समझा दिया गया, इतना ही अपने आप में काफ़ी मूल्यवान है। release document पढ़ने पर समझ आता है कि Qwen पहले VLM के रूप में 'understanding/identification/perception' की भूमिका निभाता था और अब उसकी capability 'generation/description/drawing' तक बढ़ी है। इससे आगे किसी crisis narrative या ज़रूरत से ज़्यादा अर्थ निकालने की ज़रूरत नहीं है
automatic speech reading feature को बंद कैसे करें, यह जानना है। website पर जाने पर यह बस standby में रहे और सिर्फ मेरी direct interaction पर ही चले, ऐसा चाहता हूँ। Firefox में video fullscreen पर autoplay हुआ और फिर अचानक पढ़ना शुरू हो गया (iOS environment)
- Settings > Site settings > Block audio and video autoplay. Android Firefox में यह feature उपलब्ध है। iOS या desktop में भी मिलते-जुलते options हैं, और notification permission requests को भी पूरी तरह block किया जा सकता है
4o-style image generation architecture पर कोई technical report है क्या, यह जानना है। इसी तरह images generate करने वाले दूसरे models के बारे में भी विस्तार से जानना चाहता हूँ
निजी तौर पर मुझे लगता है कि machine learning 'समझ' की तुलना में 'वर्णन' में कहीं ज़्यादा आगे बढ़ी है
- यह मानने का आधार क्या है कि इंसान दुनिया को बेहतर समझते हैं? इंसान दुनिया के प्रति बहुत भावनात्मक प्रतिक्रियाएँ दिखाते हैं, लेकिन भावना अपने आप में समझ नहीं देती। 'समझना' भी वास्तव में बहुत subjective कसौटी है