- Qwen3-VL, vision-language multimodal model की नवीनतम पीढ़ी है, जो टेक्स्ट समझ और जनरेशन, वीडियो रिकग्निशन, spatial reasoning, और long-context understanding सहित सभी क्षेत्रों में बेहतर प्रदर्शन देती है
- प्रमुख मॉडल Qwen3-VL-235B-A22B को Instruct और Thinking संस्करणों में जारी किया गया है, और दोनों ने क्रमशः visual recognition और multimodal reasoning में state-of-the-art परिणाम दर्ज किए हैं
- यह मॉडल agent capabilities, visual coding, 2D/3D spatial reasoning, long-form और long-duration video understanding जैसी विविध वास्तविक उपयोग क्षमताओं को मजबूत करता है
- 32 भाषाओं का OCR, complex document understanding, multi-image और video processing तक समर्थन दायरा बढ़ाकर इसे रोज़मर्रा और पेशेवर दोनों तरह के उपयोग के लिए उपयुक्त बनाया गया है
- इससे open source community को सर्वोच्च स्तर की multimodal foundation मिलती है, और उम्मीद है कि यह आगे real-world problem solving और AI agent विकास को तेज़ करेगा
Qwen3-VL परिचय
- Qwen3-VL, QwenTeam द्वारा विकसित नवीनतम multimodal AI model है, जिसकी विशेषता यह है कि यह image, text, table, document, formula, graph जैसी विविध data formats को व्यापक रूप से प्रोसेस और समझ सकता है
प्रमुख विशेषताएँ
- Visual agent capabilities: GUI पहचान, बटन क्लिक, tool calling आदि करके computer और mobile environment में automation tasks संभव
- बेहतर text performance: शुरुआती चरण से text और visual का संयुक्त प्रशिक्षण, जिससे single language model स्तर की मजबूत text processing क्षमता हासिल
- Visual coding: design image को HTML, CSS, JavaScript code में बदलना, यानी ‘जैसा दिखे वैसा coding’
- Spatial understanding: 2D absolute coordinates से relative coordinates तक विस्तार, 3D grounding का भी समर्थन, जिससे robotics और autonomous driving की नींव बनती है
- Long-context और long-duration video processing: 256K tokens का बेसिक समर्थन, 10 लाख tokens तक विस्तार संभव, और 2 घंटे के वीडियो को भी सटीक रूप से याद और रिट्रीव कर सकता है
- Reasoning optimization (Thinking version): math और STEM problems को हल करने में मजबूत, और MathVision, MMMU, MathVista जैसे benchmarks में शीर्ष प्रदर्शन
प्रदर्शन मूल्यांकन
- Instruct version: Gemini 2.5 Pro, GPT-5 जैसे प्रमुख closed-source models से बेहतर visual recognition performance
- Thinking version: math और science multimodal reasoning में विश्व-स्तरीय प्रदर्शन, खासकर MathVision में Gemini 2.5 Pro से आगे
- Text-centric tasks: Qwen3-235B-A22B-2507 के समकक्ष प्रदर्शन
- Long-duration video test: 10 लाख token input पर भी 99.5% accuracy के साथ उच्च स्थिरता साबित
- Multilingual OCR: 39 भाषाओं में से 32 भाषाओं में 70% से अधिक accuracy हासिल
आर्किटेक्चर सुधार
- Interleaved-MRoPE: time, height और width dimensions को interleave करके long-duration video understanding performance बेहतर
- DeepStack: ViT multi-layer feature fusion के जरिए precise text-image alignment performance में सुधार
- Text-timestamp alignment: frame-level time information और visual content का सटीक मिलान, जिससे event और action detection accuracy बेहतर होती है
मॉडल की क्षमताएँ
- Smartphone और PC control agent: app launch, button click, form filling automation
- Image-based reasoning: tool calling के साथ जटिल analysis संभव
- Frontend development support: sketch → web page conversion, UI debugging
- 2D/3D object detection: सैकड़ों detection boxes बनाना और depth estimation
- Universal recognition: celebrity, brand, plant, animal, animation character पहचान
- Creative support: image-based storytelling, copywriting, video script generation
- STEM problem solving: step-by-step reasoning, causal analysis, science problem solving
- Complex instruction following: multi-step conditions और structured requests भी प्रोसेस कर सकता है
- Document understanding: लंबे PDF, web layout interpretation, और QwenVL Markdown format support
- Multi-image conversation: कई images की तुलना और आपसी संबंध बनाए रखते हुए context कायम रखना
- Video understanding: long-duration videos में event detection से लेकर code generation तक समर्थन
निष्कर्ष
- Qwen3-VL, closed-source models से आगे निकलने वाला open source multimodal model है, जो recognition से reasoning और execution तक व्यापक प्रगति दिखाता है
- यह सिर्फ़ साधारण visual recognition model नहीं, बल्कि world understanding, reasoning, और action तक विस्तारित मॉडल के रूप में स्थापित होता है, और वास्तविक वातावरण में agent उपयोग के लिए आधार प्रदान करता है
2 टिप्पणियां
छह महीने भी नहीं हुए थे, और gemini के प्रचार वीडियो में दिखी दौड़ प्रतियोगिता का विजेता कौन था, और उसने किसे पीछे छोड़ा, यह जान लेना ही मुझे काफ़ी प्रभावशाली लगा था
> 2 घंटे के वीडियो को भी सटीक रूप से याद रखकर खोजा जा सकता है
यह असल में ठीक-ठीक क्या याद रखता है, इसे लेकर मैं सच में बहुत जिज्ञासु हूँ।
Hacker News राय
मैंने कल भी इसका ज़िक्र किया था, लेकिन हाल ही में मुझे construction project के invoices की सैकड़ों low-quality images प्रोसेस करनी थीं। पहले मैं PIL/opencv, pytesseract, और OpenAI तक इस्तेमाल करने वाली script चला रहा था, लेकिन failures बहुत ज़्यादा थे। आज मैंने कुछ बेहद खराब क्वालिटी वाले invoices को Qwen से चलाकर देखा, और उसने बिना किसी दिक्कत के सारी ज़रूरी जानकारी निकाल दी। इससे भी ज़्यादा हैरानी की बात यह थी कि उसने tesseract सुधारने में काम आने वाली bound box जानकारी भी दी
चीन वही कर रहा है जो उसने manufacturing में किया था: core technology लेकर cost/efficiency में 10x optimization को बार-बार दोहराना। सच में प्रभावशाली है। benchmarks में यह पहले से मशहूर model है, लेकिन आज तो यह open source SOTA contender जैसा लगा। यहाँ तक कि आज उन्होंने एक closed 1 trillion parameter model भी जारी किया जो lm arena में 3rd पर है, और 80GB model 17th पर, जबकि gpt-oss 120b 52nd पर है
संबंधित लिंक
Qwen3-VL Plus
Qwen3-VL-235B
qwen-plus-2025-09-11
qwen3-235b-a22b-instruct-2507
DeepStack शोध-पत्र
और ‘चीनी’ कहकर सबको एक साथ समेटने के बजाय, मुझे लगता है कि credit Qwen team को ही मिलना चाहिए। दुनिया के हर देश में बेहतरीन labs भी हैं और औसत labs भी
अगर आप San Francisco में हैं, तो Qwen team के पहले official US event में हिस्सा लेने का मौका न चूकें। Qwen Lab के vice president SF teach week में सीधे presentation देंगे
इवेंट लिंक
Qwen team के सदस्यों से सीधे बात करने का यह एक दुर्लभ मौका है
इस बार Qwen की असली बात यह है कि proprietary (closed) models से आगे निकलने वाली multimodal performance को SOTA स्तर पर दिखाने के बाद भी उन्होंने model weights open कर दिए। मेरी शुरुआती testing में तो यह बात सही लग रही है, और मैं आगे भी test करता रहूँगा। सच में प्रभावशाली
व्यावहारिक रूप से देखें तो Qwen3-VL 235B parameter model (FP16) के लिए कम-से-कम 512GB RAM चाहिए होगी। और reasonable context window तक cover करने के लिए शायद इससे भी ज़्यादा। अगर CPU पर नहीं चलाना है, तो 10,000 डॉलर के budget के भीतर घर पर इसे चलाने का कोई तरीका है क्या, यह जानना चाहता हूँ। अगर CPU-only ही एकमात्र विकल्प हो, तो क्या vLLM + कई systems को network (10/25/100Gbit) से जोड़ना सबसे अच्छा तरीका है, या कोई और बेहतर option है
इसे ज़रूरी नहीं कि FP16 में ही चलाया जाए। ज़्यादातर मामलों में q8 तक quantize करने पर quality loss लगभग नहीं होता, और q4 या उससे नीचे भी कम गिरावट के साथ चल सकता है। q8 पर भी 235GB RAM चाहिए, इसलिए RTX 5090 (32GB VRAM) के हिसाब से 8 cards लगेंगे, और कीमत भी कम नहीं होगी। motherboard, CPU, और 8GPU distribution को भी अलग से देखना होगा। पुराने RTX 3090 या P40 वाले mining servers का used market देखा जा सकता है, लेकिन consumer GPUs के साथ 10,000 डॉलर से कम में बनाना वास्तविक रूप से मुश्किल है।
NVLink के बिना model को कई computers में बाँटकर चलाने पर speed बहुत गिर जाती है, इसलिए व्यवहार में single machine की सिफारिश की जाती है। CPU performance भी बुरी नहीं है। memory bandwidth अहम है, इसलिए ज़्यादा DDR5 memory channels वाले server या workstation CPU (उदाहरण: AMD Ryzen Threadripper 7965WX, 8-channel DDR5, 5200 MT/s support, लगभग 2500 डॉलर) उपयुक्त हैं।
आख़िर में, फिर से यह सोचने की सलाह दूँगा कि क्या इसे सच में घर पर चलाने की ज़रूरत है। उद्देश्य पर निर्भर करता है, लेकिन hardware पर लगाया गया 10,000 डॉलर कुछ ही सालों में तेज़ी से मूल्य खो सकता है। cloud में 10,000 डॉलर के credits काफ़ी लंबे समय तक चल सकते हैं
multimodal SOTA को open weights में जारी करने वाले Qwen की वजह से developer के तौर पर मेरा मन Qwen की ओर झुक रहा है। कम-से-कम मेरा तो झुक ही चुका है
Qwen team की उदारता के लिए आभारी हूँ। मैं पहले से ही ‘Thinking’ model के साथ कई internal boring tasks automate करने वाले शानदार workflows बना कर इस्तेमाल कर रहा हूँ
Qwen thinking model
अब इस release के साथ मैं खाने की photos, user photos आदि को classify और caption करने जैसे नए workflows भी लागू करूँगा। बहुत बढ़िया
Qwen team से जुड़े models संदर्भ के लिए
मुझे पूरा यक़ीन है कि इस announcement में मैंने अब तक की सबसे ज़्यादा benchmark numbers देखी हैं। यह सिर्फ cheat-code जैसी चुनिंदा metrics दिखाने वाली प्रस्तुति नहीं थी, इसलिए इसकी सराहना करनी चाहिए
दुर्भाग्य से Qwen3-VL भी अभी तक ‘extra limbs’ test में fail होता है। मैंने Photoshop से ऐसे animals की photos डालीं जिनमें अतिरिक्त limbs थीं (जैसे पेट पर पैर वाला कुत्ता, या दो जोड़ी आगे के पैरों वाली बिल्ली), लेकिन बाकी सभी models की तरह यह भी ज़ोर देकर कहता रहा कि limbs की संख्या सामान्य है। यहाँ तक कि when मैंने कहा कि ‘लगता है पेट पर पैर है’, तब भी यह कहता रहा कि मैं भ्रम में हूँ और सब सामान्य है। Qwen ने तो यह बताने के बाद भी कि image edited है, जवाब दिया कि 4 limbs ही सही हैं
घड़ी dataset
D20 dice example
निष्कर्ष यही है कि extra limbs जैसे मामलों में भी जब तक 1 million example data नहीं बनाया जाता, सही जवाब नहीं मिलेगा, और दूसरे problems के लिए भी बार-बार नए datasets बनाने की समस्या दोहराई जाएगी