Qwen के नए विज़ुअल रीजनिंग मॉडल QvQ की समीक्षा
(simonwillison.net)- Alibaba Qwen टीम ने नया विज़ुअल रीजनिंग मॉडल QvQ-72B-Preview जारी किया
- इमेज और prompt को इनपुट लेकर यह विस्तृत रीजनिंग करता है
- शुरुआत में इसे Apache 2.0 के रूप में मार्क किया गया था, लेकिन अब इसे Qwen License में बदल दिया गया है
- पहले के मॉडल QwQ से फर्क
- QwQ टेक्स्ट-आधारित रीजनिंग पर फोकस था और इसे "विचार की सीमाओं को प्रतिबिंबित करने" वाले mechanism के साथ डिज़ाइन किया गया था
- QvQ में इसमें विज़ुअल इनपुट जोड़कर इमेज-आधारित गहरी analysis की जाती है
QvQ उपयोग केस और टेस्ट
- Hugging Face Spaces पर QvQ मॉडल उपलब्ध है
- इमेज और एकल prompt डालने पर यह बहुत लंबा response देता है, अतिरिक्त prompt डालना संभव नहीं है
- यह इनपुट इमेज का क्रमवार विश्लेषण करते हुए reasoning प्रक्रिया समझाता है
- टेस्ट परिणाम
- पेलिकन गिनना: "Count the pelicans" prompt का इस्तेमाल करके फोटो में पेलिकन की संख्या गिनी गई
- कुल 4 पेलिकन सही गिने गए और आंशिक रूप से दिख रहे पक्षियों को अलग रखा गया
- इसने दोस्ताना और बातचीत जैसी शैली में reasoning समझाई
- ARC-AGI पहेली: जटिल समस्या हल करने की कोशिश की, लेकिन सटीक परिणाम निकालने में सफल नहीं हुआ
- इसने cellular automaton जैसा अनोखा approach सुझाया
- डायनासोर (ड्रैगन) की ऊँचाई अनुमान: तुलना के लिए कोई reference object बिना ड्रैगन की ऊँचाई अनुमानने का प्रयास किया
- लगभग 8~9 फीट की ऊँचाई का अनुमान देकर इसमें परिष्कृत अवलोकन शक्ति दिखाई
- पेलिकन गिनना: "Count the pelicans" prompt का इस्तेमाल करके फोटो में पेलिकन की संख्या गिनी गई
QvQ मॉडल रन करने का तरीका
-
होस्टिंग वातावरण
- Hugging Face Spaces पर GPU मॉडल weights के साथ टेस्ट संभव है
- qwen-vl-utils Python package का उपयोग करके रन किया गया
-
लोकल रन
- Prince Canuma ने Apple MLX framework के लिए मॉडल को convert कर mlx-vlm package के जरिए रन करने योग्य बनाया है
- macOS M2 64GB RAM सेटिंग पर 4-bit quantized version सफलतापूर्वक रन हुआ
- रन कमांड:
uv run --with 'numpy<2.0' --with mlx-vlm python \ -m mlx_vlm.generate \ --model mlx-community/QVQ-72B-Preview-4bit \ --max-tokens 10000 \ --temp 0.0 \ --prompt "describe this" \ --image pelicans-on-bicycles-veo2.jpg
- रन कमांड:
QvQ लाइसेंस बदलाव
- QvQ लाइसेंस Apache 2.0 से बदलकर Qwen License कर दिया गया है
- यह शायद शुरूआती गलती को ठीक करने के लिए किया गया बदलाव लगता है
- QwQ मॉडल अभी भी Apache 2.0 लाइसेंस पर है
- दोनों मॉडलों के बीच अलग लाइसेंस नीति दिखाई देती है
निष्कर्ष
- QvQ इमेज और टेक्स्ट को combine करने वाला एक मजबूत विज़ुअल रीजनिंग मॉडल है, जो कई प्रयोगों में दिलचस्प परिणाम देता है
- आगे के अपडेट और अतिरिक्त उपयोग संभावनाओं की प्रतीक्षा की जा रही है
1 टिप्पणियां
Hacker News टिप्पणी
लेखक ने बताया कि M2 64GB लैपटॉप पर QVQ-72B-Preview-4bit मॉडल चलाकर इमेज का विश्लेषण कैसे किया
uv run --with 'numpy<2.0' --with mlx-vlm python -m mlx_vlm.generate --model mlx-community/QVQ-72B-Preview-4bit --max-tokens 10000 --temp 0.0 --prompt "describe this" --image pelicans-on-bicycles-veo2.jpgकमांड का इस्तेमाल कियायह मॉडल काफी मनोरंजक है
शब्द खोज (word-search) पहेली को परीक्षण के तौर पर इस्तेमाल किया गया, लेकिन QvQ मॉडल इसमें असफल रहा
मशहूर "टैंक मैन" फोटो देने पर खाली जवाब मिला
टिप्पणीकर्ता के मुताबिक, इमेज देखकर 'think out loud' शैली के प्रश्नों वाला डेटा सेट PixMo कहलाता है
Q* मॉडल ओपन सोर्स है या नहीं, इस बारे में पूछा गया
जब पेलिकन की फोटो में गिनती पूछी गई, तो जवाब देने का स्टाइल दिलचस्प था
QvQ-72B-Preview मॉडल के लाइसेंस को लेकर चर्चा हुई
QvQ मॉडल सेलिब्रिटी, कुत्ते और The New Yorker कार्टून जैसी तस्वीरों को समझने में बहुत अच्छा दिखा
गणितीय समीकरण वाली इमेज प्रोसेस करने की क्षमता भी मौजूद है