Qwen3-VL मॉडल जारी - और तेज़ नज़र, और गहरी सोच, और व्यापक एक्ज़िक्यूशन

(qwen.ai)

6 पॉइंट द्वारा GN⁺ 2025-09-26 | 2 टिप्पणियां | WhatsApp पर शेयर करें

Qwen3-VL, vision-language multimodal model की नवीनतम पीढ़ी है, जो टेक्स्ट समझ और जनरेशन, वीडियो रिकग्निशन, spatial reasoning, और long-context understanding सहित सभी क्षेत्रों में बेहतर प्रदर्शन देती है
प्रमुख मॉडल Qwen3-VL-235B-A22B को Instruct और Thinking संस्करणों में जारी किया गया है, और दोनों ने क्रमशः visual recognition और multimodal reasoning में state-of-the-art परिणाम दर्ज किए हैं
यह मॉडल agent capabilities, visual coding, 2D/3D spatial reasoning, long-form और long-duration video understanding जैसी विविध वास्तविक उपयोग क्षमताओं को मजबूत करता है
32 भाषाओं का OCR, complex document understanding, multi-image और video processing तक समर्थन दायरा बढ़ाकर इसे रोज़मर्रा और पेशेवर दोनों तरह के उपयोग के लिए उपयुक्त बनाया गया है
इससे open source community को सर्वोच्च स्तर की multimodal foundation मिलती है, और उम्मीद है कि यह आगे real-world problem solving और AI agent विकास को तेज़ करेगा

Qwen3-VL परिचय

Qwen3-VL, QwenTeam द्वारा विकसित नवीनतम multimodal AI model है, जिसकी विशेषता यह है कि यह image, text, table, document, formula, graph जैसी विविध data formats को व्यापक रूप से प्रोसेस और समझ सकता है

प्रमुख विशेषताएँ

Visual agent capabilities: GUI पहचान, बटन क्लिक, tool calling आदि करके computer और mobile environment में automation tasks संभव
बेहतर text performance: शुरुआती चरण से text और visual का संयुक्त प्रशिक्षण, जिससे single language model स्तर की मजबूत text processing क्षमता हासिल
Visual coding: design image को HTML, CSS, JavaScript code में बदलना, यानी ‘जैसा दिखे वैसा coding’
Spatial understanding: 2D absolute coordinates से relative coordinates तक विस्तार, 3D grounding का भी समर्थन, जिससे robotics और autonomous driving की नींव बनती है
Long-context और long-duration video processing: 256K tokens का बेसिक समर्थन, 10 लाख tokens तक विस्तार संभव, और 2 घंटे के वीडियो को भी सटीक रूप से याद और रिट्रीव कर सकता है
Reasoning optimization (Thinking version): math और STEM problems को हल करने में मजबूत, और MathVision, MMMU, MathVista जैसे benchmarks में शीर्ष प्रदर्शन

प्रदर्शन मूल्यांकन

Instruct version: Gemini 2.5 Pro, GPT-5 जैसे प्रमुख closed-source models से बेहतर visual recognition performance
Thinking version: math और science multimodal reasoning में विश्व-स्तरीय प्रदर्शन, खासकर MathVision में Gemini 2.5 Pro से आगे
Text-centric tasks: Qwen3-235B-A22B-2507 के समकक्ष प्रदर्शन
Long-duration video test: 10 लाख token input पर भी 99.5% accuracy के साथ उच्च स्थिरता साबित
Multilingual OCR: 39 भाषाओं में से 32 भाषाओं में 70% से अधिक accuracy हासिल

आर्किटेक्चर सुधार

Interleaved-MRoPE: time, height और width dimensions को interleave करके long-duration video understanding performance बेहतर
DeepStack: ViT multi-layer feature fusion के जरिए precise text-image alignment performance में सुधार
Text-timestamp alignment: frame-level time information और visual content का सटीक मिलान, जिससे event और action detection accuracy बेहतर होती है

मॉडल की क्षमताएँ

Smartphone और PC control agent: app launch, button click, form filling automation
Image-based reasoning: tool calling के साथ जटिल analysis संभव
Frontend development support: sketch → web page conversion, UI debugging
2D/3D object detection: सैकड़ों detection boxes बनाना और depth estimation
Universal recognition: celebrity, brand, plant, animal, animation character पहचान
Creative support: image-based storytelling, copywriting, video script generation
STEM problem solving: step-by-step reasoning, causal analysis, science problem solving
Complex instruction following: multi-step conditions और structured requests भी प्रोसेस कर सकता है
Document understanding: लंबे PDF, web layout interpretation, और QwenVL Markdown format support
Multi-image conversation: कई images की तुलना और आपसी संबंध बनाए रखते हुए context कायम रखना
Video understanding: long-duration videos में event detection से लेकर code generation तक समर्थन

निष्कर्ष

Qwen3-VL, closed-source models से आगे निकलने वाला open source multimodal model है, जो recognition से reasoning और execution तक व्यापक प्रगति दिखाता है
यह सिर्फ़ साधारण visual recognition model नहीं, बल्कि world understanding, reasoning, और action तक विस्तारित मॉडल के रूप में स्थापित होता है, और वास्तविक वातावरण में agent उपयोग के लिए आधार प्रदान करता है

2 टिप्पणियां

crawler 2025-09-26

छह महीने भी नहीं हुए थे, और gemini के प्रचार वीडियो में दिखी दौड़ प्रतियोगिता का विजेता कौन था, और उसने किसे पीछे छोड़ा, यह जान लेना ही मुझे काफ़ी प्रभावशाली लगा था

> 2 घंटे के वीडियो को भी सटीक रूप से याद रखकर खोजा जा सकता है

यह असल में ठीक-ठीक क्या याद रखता है, इसे लेकर मैं सच में बहुत जिज्ञासु हूँ।

GN⁺ 2025-09-26

Hacker News राय

मैंने कल भी इसका ज़िक्र किया था, लेकिन हाल ही में मुझे construction project के invoices की सैकड़ों low-quality images प्रोसेस करनी थीं। पहले मैं PIL/opencv, pytesseract, और OpenAI तक इस्तेमाल करने वाली script चला रहा था, लेकिन failures बहुत ज़्यादा थे। आज मैंने कुछ बेहद खराब क्वालिटी वाले invoices को Qwen से चलाकर देखा, और उसने बिना किसी दिक्कत के सारी ज़रूरी जानकारी निकाल दी। इससे भी ज़्यादा हैरानी की बात यह थी कि उसने tesseract सुधारने में काम आने वाली bound box जानकारी भी दी
- अगर किसी को ऐसा ही काम करना हो, तो Microsoft का Printed Text Recognition API भी recommend करूँगा
- जानना चाहता हूँ कि आपने Qwen क्यों चुना। Mistral के पास OCR के लिए specifically marketed एक specialized model भी है, और जब मैंने test किया तो पुरानी अंग्रेज़ी किताबों (80s·90s) पर यह काफ़ी अच्छा चला
- मुझे ऐसे models को 80s के Apple ][ game screenshots पढ़ने पर test करना पसंद है। यह बहुत low-resolution और high-density domain है, जहाँ ज़्यादातर open source models संघर्ष करते हैं
- मैंने भी कभी satellite map images में VLLM model से land boundary के bound box estimate करने की कोशिश की थी, लेकिन कोई नतीजा नहीं मिला। बेहतर result पाने के लिए कोई tips हों तो जानना चाहूँगा
- मैंने भी scan layout detect करके OCR performance बढ़ाने की कोशिश की थी, लेकिन अंत में fine-tuned Qwen 2.5 VLM 7B बेहतर निकला। मेरा मानना है कि fine-tuning ही जवाब है
चीन वही कर रहा है जो उसने manufacturing में किया था: core technology लेकर cost/efficiency में 10x optimization को बार-बार दोहराना। सच में प्रभावशाली है। benchmarks में यह पहले से मशहूर model है, लेकिन आज तो यह open source SOTA contender जैसा लगा। यहाँ तक कि आज उन्होंने एक closed 1 trillion parameter model भी जारी किया जो lm arena में 3rd पर है, और 80GB model 17th पर, जबकि gpt-oss 120b 52nd पर है
संबंधित लिंक
- description, product names, और version distinctions लगातार अस्पष्ट हैं। Qwen3-VL Plus (नया model) और Qwen3-VL 235B (दूसरा model), नाम मिलते-जुलते होने के बावजूद पूरी तरह अलग models हैं, लेकिन जानकारी इतनी धुंधली है कि समझ नहीं आता कौन बेहतर है। Qwen-Plus-2025-09-11 और qwen3-235b-a22b-instruct-2507 को देखकर भी naming से फर्क साफ़ नहीं होता। इस मामले में यह OpenAI से भी कम स्पष्ट है
  Qwen3-VL Plus
  Qwen3-VL-235B
  qwen-plus-2025-09-11
  qwen3-235b-a22b-instruct-2507
- यह कहना कि वे ‘सिर्फ optimization’ कर रहे हैं, तथ्यात्मक रूप से सही नहीं है। Qwen team ने DeepStack जैसे नए ideas भी दिए हैं
  DeepStack शोध-पत्र
  और ‘चीनी’ कहकर सबको एक साथ समेटने के बजाय, मुझे लगता है कि credit Qwen team को ही मिलना चाहिए। दुनिया के हर देश में बेहतरीन labs भी हैं और औसत labs भी
- दिलचस्प बात यह है कि Kimi K2 जैसे models अमेरिकी models की तुलना में कहीं ज़्यादा natural text generate करते हुए लगते हैं। benchmark scores शायद SOTA तक न पहुँचें, लेकिन वास्तविक इस्तेमाल का अनुभव अलग है
- अमेरिका भी पहले इसी तरह के optimization पर focus करता था, लेकिन पिछले 10~15 सालों में माहौल ऐसा हो गया है कि बस resources बढ़ाते जाओ और optimization को नज़रअंदाज़ करो। जैसे progressive web apps के लिए ज़्यादा RAM, ज़्यादा powerful CPU, या और बिजली। मूल समस्या यह लगती है कि university के algorithms classes में सीखी चीज़ें practical काम में लागू नहीं की जातीं। दूसरी ओर चीन इसे सच में लागू कर रहा है, और इससे अमेरिका कुछ हास्यास्पद दिखने लगा है
अगर आप San Francisco में हैं, तो Qwen team के पहले official US event में हिस्सा लेने का मौका न चूकें। Qwen Lab के vice president SF teach week में सीधे presentation देंगे
इवेंट लिंक
Qwen team के सदस्यों से सीधे बात करने का यह एक दुर्लभ मौका है
- registration तो पहले ही भर चुका है ;-(
- आजकल के दौर में visa issues की वजह से US entry ही 50:50 हो सकती है, इसलिए उम्मीद है वे सुरक्षित पहुँचें
इस बार Qwen की असली बात यह है कि proprietary (closed) models से आगे निकलने वाली multimodal performance को SOTA स्तर पर दिखाने के बाद भी उन्होंने model weights open कर दिए। मेरी शुरुआती testing में तो यह बात सही लग रही है, और मैं आगे भी test करता रहूँगा। सच में प्रभावशाली
- ज़्यादातर multimodal input implementations की performance कमज़ोर होती है। Qwen भी मौजूदा commercial solutions से बहुत आगे है, ऐसा कहना मुश्किल है, लेकिन कम-से-कम इस तरह results सार्वजनिक करना ही स्वागतयोग्य है। इस स्तर पर अच्छी तरह काम करने वाला multimodal input model बनाना बिल्कुल आसान नहीं है
- सच कहूँ तो मुझे लगता है कि open source models, size की परवाह किए बिना, हमेशा यह दावा करने की प्रवृत्ति रखते हैं कि वे ‘commercial SOTA के बराबर’ हैं
व्यावहारिक रूप से देखें तो Qwen3-VL 235B parameter model (FP16) के लिए कम-से-कम 512GB RAM चाहिए होगी। और reasonable context window तक cover करने के लिए शायद इससे भी ज़्यादा। अगर CPU पर नहीं चलाना है, तो 10,000 डॉलर के budget के भीतर घर पर इसे चलाने का कोई तरीका है क्या, यह जानना चाहता हूँ। अगर CPU-only ही एकमात्र विकल्प हो, तो क्या vLLM + कई systems को network (10/25/100Gbit) से जोड़ना सबसे अच्छा तरीका है, या कोई और बेहतर option है
- 512GB unified memory वाला Apple Mac Studio लगभग 10,000 डॉलर का है। अगर घर पर इतनी power चाहिए और budget में गुंजाइश है, तो यह सबसे सरल रास्ता है।
  इसे ज़रूरी नहीं कि FP16 में ही चलाया जाए। ज़्यादातर मामलों में q8 तक quantize करने पर quality loss लगभग नहीं होता, और q4 या उससे नीचे भी कम गिरावट के साथ चल सकता है। q8 पर भी 235GB RAM चाहिए, इसलिए RTX 5090 (32GB VRAM) के हिसाब से 8 cards लगेंगे, और कीमत भी कम नहीं होगी। motherboard, CPU, और 8GPU distribution को भी अलग से देखना होगा। पुराने RTX 3090 या P40 वाले mining servers का used market देखा जा सकता है, लेकिन consumer GPUs के साथ 10,000 डॉलर से कम में बनाना वास्तविक रूप से मुश्किल है।
  NVLink के बिना model को कई computers में बाँटकर चलाने पर speed बहुत गिर जाती है, इसलिए व्यवहार में single machine की सिफारिश की जाती है। CPU performance भी बुरी नहीं है। memory bandwidth अहम है, इसलिए ज़्यादा DDR5 memory channels वाले server या workstation CPU (उदाहरण: AMD Ryzen Threadripper 7965WX, 8-channel DDR5, 5200 MT/s support, लगभग 2500 डॉलर) उपयुक्त हैं।
  आख़िर में, फिर से यह सोचने की सलाह दूँगा कि क्या इसे सच में घर पर चलाने की ज़रूरत है। उद्देश्य पर निर्भर करता है, लेकिन hardware पर लगाया गया 10,000 डॉलर कुछ ही सालों में तेज़ी से मूल्य खो सकता है। cloud में 10,000 डॉलर के credits काफ़ी लंबे समय तक चल सकते हैं
- CPU के अलावा दूसरे तरीकों में आमतौर पर बिजली का अतिरिक्त इंतज़ाम करना पड़ता है, और अगर अलग-अलग electrical circuits पर 2~3kW खपत करने वाली कई machines चलानी हों तो अतिरिक्त लागत बहुत भारी हो जाती है
multimodal SOTA को open weights में जारी करने वाले Qwen की वजह से developer के तौर पर मेरा मन Qwen की ओर झुक रहा है। कम-से-कम मेरा तो झुक ही चुका है
- मुझे तो लगता है कि मुकाबला अब लगभग खत्म हो चुका है। आजकल अमेरिका से आने वाले papers के top author lists देखें तो Chinese-origin नामों की भरमार है
- यह बात भी है कि वे profit कमाने के लिए काम नहीं कर रहे, इसलिए वे उसी नियमों वाला खेल नहीं खेल रहे
- मैं खुद भी सोचता हूँ कि वे दिल जीतने के लिए इतनी मेहनत क्यों कर रहे हैं
Qwen team की उदारता के लिए आभारी हूँ। मैं पहले से ही ‘Thinking’ model के साथ कई internal boring tasks automate करने वाले शानदार workflows बना कर इस्तेमाल कर रहा हूँ
Qwen thinking model
अब इस release के साथ मैं खाने की photos, user photos आदि को classify और caption करने जैसे नए workflows भी लागू करूँगा। बहुत बढ़िया
Qwen team से जुड़े models संदर्भ के लिए
- Qwen3-VL-235B-A22B-Thinking
- Qwen3-VL-235B-A22B-Instruct
मुझे पूरा यक़ीन है कि इस announcement में मैंने अब तक की सबसे ज़्यादा benchmark numbers देखी हैं। यह सिर्फ cheat-code जैसी चुनिंदा metrics दिखाने वाली प्रस्तुति नहीं थी, इसलिए इसकी सराहना करनी चाहिए
- जिन क्षेत्रों में benchmarks पहले ही saturated हो चुके हैं, वहाँ अब numbers दिखाते रहना शायद मायने नहीं रखता
दुर्भाग्य से Qwen3-VL भी अभी तक ‘extra limbs’ test में fail होता है। मैंने Photoshop से ऐसे animals की photos डालीं जिनमें अतिरिक्त limbs थीं (जैसे पेट पर पैर वाला कुत्ता, या दो जोड़ी आगे के पैरों वाली बिल्ली), लेकिन बाकी सभी models की तरह यह भी ज़ोर देकर कहता रहा कि limbs की संख्या सामान्य है। यहाँ तक कि when मैंने कहा कि ‘लगता है पेट पर पैर है’, तब भी यह कहता रहा कि मैं भ्रम में हूँ और सब सामान्य है। Qwen ने तो यह बताने के बाद भी कि image edited है, जवाब दिया कि 4 limbs ही सही हैं
- सभी VLMs की तरह यह edge cases में कमज़ोर है। analog clock पढ़ना भी पहले सिर्फ उसी case में pass हुआ था जहाँ 1 million edited synthetic images डालकर इसे specially train किया गया था
  घड़ी dataset
  D20 dice example
  निष्कर्ष यही है कि extra limbs जैसे मामलों में भी जब तक 1 million example data नहीं बनाया जाता, सही जवाब नहीं मिलेगा, और दूसरे problems के लिए भी बार-बार नए datasets बनाने की समस्या दोहराई जाएगी
- अजीब species के limbs की गिनती करने के लिए यह निश्चित ही उपयुक्त model नहीं है। लेकिन जिन विषयों की training data में भरमार है, वहाँ यह कमतर न लगे
- क्या किसी ने Qwen model की image editing command feature इस्तेमाल करके limbs की संख्या छेड़े बिना किसी और हिस्से को बदलने को कहा है? जानना चाहता हूँ कि क्या वह फिर भी नतीजे में limbs की संख्या को ‘सामान्य’ बनाने की कोशिश करता है