Qwen के नए विज़ुअल रीजनिंग मॉडल QvQ की समीक्षा

(simonwillison.net)

5 पॉइंट द्वारा GN⁺ 2024-12-26 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Alibaba Qwen टीम ने नया विज़ुअल रीजनिंग मॉडल QvQ-72B-Preview जारी किया
- इमेज और prompt को इनपुट लेकर यह विस्तृत रीजनिंग करता है
- शुरुआत में इसे Apache 2.0 के रूप में मार्क किया गया था, लेकिन अब इसे Qwen License में बदल दिया गया है
पहले के मॉडल QwQ से फर्क
- QwQ टेक्स्ट-आधारित रीजनिंग पर फोकस था और इसे "विचार की सीमाओं को प्रतिबिंबित करने" वाले mechanism के साथ डिज़ाइन किया गया था
- QvQ में इसमें विज़ुअल इनपुट जोड़कर इमेज-आधारित गहरी analysis की जाती है

QvQ उपयोग केस और टेस्ट

Hugging Face Spaces पर QvQ मॉडल उपलब्ध है
- इमेज और एकल prompt डालने पर यह बहुत लंबा response देता है, अतिरिक्त prompt डालना संभव नहीं है
- यह इनपुट इमेज का क्रमवार विश्लेषण करते हुए reasoning प्रक्रिया समझाता है
टेस्ट परिणाम
- पेलिकन गिनना: "Count the pelicans" prompt का इस्तेमाल करके फोटो में पेलिकन की संख्या गिनी गई
  - कुल 4 पेलिकन सही गिने गए और आंशिक रूप से दिख रहे पक्षियों को अलग रखा गया
  - इसने दोस्ताना और बातचीत जैसी शैली में reasoning समझाई
- ARC-AGI पहेली: जटिल समस्या हल करने की कोशिश की, लेकिन सटीक परिणाम निकालने में सफल नहीं हुआ
  - इसने cellular automaton जैसा अनोखा approach सुझाया
- डायनासोर (ड्रैगन) की ऊँचाई अनुमान: तुलना के लिए कोई reference object बिना ड्रैगन की ऊँचाई अनुमानने का प्रयास किया
  - लगभग 8~9 फीट की ऊँचाई का अनुमान देकर इसमें परिष्कृत अवलोकन शक्ति दिखाई

QvQ मॉडल रन करने का तरीका

होस्टिंग वातावरण
- Hugging Face Spaces पर GPU मॉडल weights के साथ टेस्ट संभव है
- qwen-vl-utils Python package का उपयोग करके रन किया गया
लोकल रन
- Prince Canuma ने Apple MLX framework के लिए मॉडल को convert कर mlx-vlm package के जरिए रन करने योग्य बनाया है
- macOS M2 64GB RAM सेटिंग पर 4-bit quantized version सफलतापूर्वक रन हुआ
  - रन कमांड:
```
uv run --with 'numpy<2.0' --with mlx-vlm python \
  -m mlx_vlm.generate \
  --model mlx-community/QVQ-72B-Preview-4bit \
  --max-tokens 10000 \
  --temp 0.0 \
  --prompt "describe this" \
  --image pelicans-on-bicycles-veo2.jpg  
```

QvQ लाइसेंस बदलाव

QvQ लाइसेंस Apache 2.0 से बदलकर Qwen License कर दिया गया है
- यह शायद शुरूआती गलती को ठीक करने के लिए किया गया बदलाव लगता है
QwQ मॉडल अभी भी Apache 2.0 लाइसेंस पर है
- दोनों मॉडलों के बीच अलग लाइसेंस नीति दिखाई देती है

निष्कर्ष

QvQ इमेज और टेक्स्ट को combine करने वाला एक मजबूत विज़ुअल रीजनिंग मॉडल है, जो कई प्रयोगों में दिलचस्प परिणाम देता है
आगे के अपडेट और अतिरिक्त उपयोग संभावनाओं की प्रतीक्षा की जा रही है

1 टिप्पणियां

GN⁺ 2024-12-26

Hacker News टिप्पणी

लेखक ने बताया कि M2 64GB लैपटॉप पर QVQ-72B-Preview-4bit मॉडल चलाकर इमेज का विश्लेषण कैसे किया
- उन्होंने uv run --with 'numpy<2.0' --with mlx-vlm python -m mlx_vlm.generate --model mlx-community/QVQ-72B-Preview-4bit --max-tokens 10000 --temp 0.0 --prompt "describe this" --image pelicans-on-bicycles-veo2.jpg कमांड का इस्तेमाल किया
- परिणाम लिंक पर देखे जा सकते हैं
यह मॉडल काफी मनोरंजक है
- यदि आप इमेज अपलोड करके "इस इमेज को देखकर बताओ कि क्या सोचना चाहिए" जैसे प्रश्न पूछते हैं, तो काफ़ी रोचक परिणाम मिलते हैं
- उदाहरण के लिए, सैंडविच की तस्वीर देखकर यह बहुत बारीकी से वर्णन करता है और उसके स्वाद की कल्पना करवा देता है
शब्द खोज (word-search) पहेली को परीक्षण के तौर पर इस्तेमाल किया गया, लेकिन QvQ मॉडल इसमें असफल रहा
- AI Studio के Gemini रिलीज़ ने शुरुआत में भी यही गलती की थी, लेकिन कुछ प्रयासों के बाद शब्द खोजने में सफल हो गया
- समस्या सीधे हल करने को कहने की बजाय एक प्रोग्राम बना देना बेहतर परिणाम देता है
मशहूर "टैंक मैन" फोटो देने पर खाली जवाब मिला
टिप्पणीकर्ता के मुताबिक, इमेज देखकर 'think out loud' शैली के प्रश्नों वाला डेटा सेट PixMo कहलाता है
- इससे संकेत मिलता है कि QvQ शायद इसी तरह ट्रेन हुआ हो
Q* मॉडल ओपन सोर्स है या नहीं, इस बारे में पूछा गया
- जब प्राधिकरण के प्रति व्यवहार पर सलाह माँगी गई, तो इसने मजबूत आज्ञाकारिता (compliance) की सलाह दी
जब पेलिकन की फोटो में गिनती पूछी गई, तो जवाब देने का स्टाइल दिलचस्प था
- यह GPT-4 से अलग, ज्यादा अनौपचारिक अंदाज़ देता है
QvQ-72B-Preview मॉडल के लाइसेंस को लेकर चर्चा हुई
- Apache 2.0 और Qwen लाइसेंस के बीच भ्रम की स्थिति थी
QvQ मॉडल सेलिब्रिटी, कुत्ते और The New Yorker कार्टून जैसी तस्वीरों को समझने में बहुत अच्छा दिखा
गणितीय समीकरण वाली इमेज प्रोसेस करने की क्षमता भी मौजूद है

Qwen के नए विज़ुअल रीजनिंग मॉडल QvQ की समीक्षा

QvQ उपयोग केस और टेस्ट

QvQ मॉडल रन करने का तरीका

QvQ लाइसेंस बदलाव

निष्कर्ष

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News टिप्पणी