5 पॉइंट द्वारा GN⁺ 2024-12-26 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Alibaba Qwen टीम ने नया विज़ुअल रीजनिंग मॉडल QvQ-72B-Preview जारी किया
    • इमेज और prompt को इनपुट लेकर यह विस्तृत रीजनिंग करता है
    • शुरुआत में इसे Apache 2.0 के रूप में मार्क किया गया था, लेकिन अब इसे Qwen License में बदल दिया गया है
  • पहले के मॉडल QwQ से फर्क
    • QwQ टेक्स्ट-आधारित रीजनिंग पर फोकस था और इसे "विचार की सीमाओं को प्रतिबिंबित करने" वाले mechanism के साथ डिज़ाइन किया गया था
    • QvQ में इसमें विज़ुअल इनपुट जोड़कर इमेज-आधारित गहरी analysis की जाती है

QvQ उपयोग केस और टेस्ट

  • Hugging Face Spaces पर QvQ मॉडल उपलब्ध है
    • इमेज और एकल prompt डालने पर यह बहुत लंबा response देता है, अतिरिक्त prompt डालना संभव नहीं है
    • यह इनपुट इमेज का क्रमवार विश्लेषण करते हुए reasoning प्रक्रिया समझाता है
  • टेस्ट परिणाम
    • पेलिकन गिनना: "Count the pelicans" prompt का इस्तेमाल करके फोटो में पेलिकन की संख्या गिनी गई
      • कुल 4 पेलिकन सही गिने गए और आंशिक रूप से दिख रहे पक्षियों को अलग रखा गया
      • इसने दोस्ताना और बातचीत जैसी शैली में reasoning समझाई
    • ARC-AGI पहेली: जटिल समस्या हल करने की कोशिश की, लेकिन सटीक परिणाम निकालने में सफल नहीं हुआ
      • इसने cellular automaton जैसा अनोखा approach सुझाया
    • डायनासोर (ड्रैगन) की ऊँचाई अनुमान: तुलना के लिए कोई reference object बिना ड्रैगन की ऊँचाई अनुमानने का प्रयास किया
      • लगभग 8~9 फीट की ऊँचाई का अनुमान देकर इसमें परिष्कृत अवलोकन शक्ति दिखाई

QvQ मॉडल रन करने का तरीका

  • होस्टिंग वातावरण

    • Hugging Face Spaces पर GPU मॉडल weights के साथ टेस्ट संभव है
    • qwen-vl-utils Python package का उपयोग करके रन किया गया
  • लोकल रन

    • Prince Canuma ने Apple MLX framework के लिए मॉडल को convert कर mlx-vlm package के जरिए रन करने योग्य बनाया है
    • macOS M2 64GB RAM सेटिंग पर 4-bit quantized version सफलतापूर्वक रन हुआ
      • रन कमांड:
        uv run --with 'numpy<2.0' --with mlx-vlm python \
          -m mlx_vlm.generate \
          --model mlx-community/QVQ-72B-Preview-4bit \
          --max-tokens 10000 \
          --temp 0.0 \
          --prompt "describe this" \
          --image pelicans-on-bicycles-veo2.jpg  
        

QvQ लाइसेंस बदलाव

  • QvQ लाइसेंस Apache 2.0 से बदलकर Qwen License कर दिया गया है
    • यह शायद शुरूआती गलती को ठीक करने के लिए किया गया बदलाव लगता है
  • QwQ मॉडल अभी भी Apache 2.0 लाइसेंस पर है
    • दोनों मॉडलों के बीच अलग लाइसेंस नीति दिखाई देती है

निष्कर्ष

  • QvQ इमेज और टेक्स्ट को combine करने वाला एक मजबूत विज़ुअल रीजनिंग मॉडल है, जो कई प्रयोगों में दिलचस्प परिणाम देता है
  • आगे के अपडेट और अतिरिक्त उपयोग संभावनाओं की प्रतीक्षा की जा रही है

1 टिप्पणियां

 
GN⁺ 2024-12-26
Hacker News टिप्पणी
  • लेखक ने बताया कि M2 64GB लैपटॉप पर QVQ-72B-Preview-4bit मॉडल चलाकर इमेज का विश्लेषण कैसे किया

    • उन्होंने uv run --with 'numpy<2.0' --with mlx-vlm python -m mlx_vlm.generate --model mlx-community/QVQ-72B-Preview-4bit --max-tokens 10000 --temp 0.0 --prompt "describe this" --image pelicans-on-bicycles-veo2.jpg कमांड का इस्तेमाल किया
    • परिणाम लिंक पर देखे जा सकते हैं
  • यह मॉडल काफी मनोरंजक है

    • यदि आप इमेज अपलोड करके "इस इमेज को देखकर बताओ कि क्या सोचना चाहिए" जैसे प्रश्न पूछते हैं, तो काफ़ी रोचक परिणाम मिलते हैं
    • उदाहरण के लिए, सैंडविच की तस्वीर देखकर यह बहुत बारीकी से वर्णन करता है और उसके स्वाद की कल्पना करवा देता है
  • शब्द खोज (word-search) पहेली को परीक्षण के तौर पर इस्तेमाल किया गया, लेकिन QvQ मॉडल इसमें असफल रहा

    • AI Studio के Gemini रिलीज़ ने शुरुआत में भी यही गलती की थी, लेकिन कुछ प्रयासों के बाद शब्द खोजने में सफल हो गया
    • समस्या सीधे हल करने को कहने की बजाय एक प्रोग्राम बना देना बेहतर परिणाम देता है
  • मशहूर "टैंक मैन" फोटो देने पर खाली जवाब मिला

  • टिप्पणीकर्ता के मुताबिक, इमेज देखकर 'think out loud' शैली के प्रश्नों वाला डेटा सेट PixMo कहलाता है

    • इससे संकेत मिलता है कि QvQ शायद इसी तरह ट्रेन हुआ हो
  • Q* मॉडल ओपन सोर्स है या नहीं, इस बारे में पूछा गया

    • जब प्राधिकरण के प्रति व्यवहार पर सलाह माँगी गई, तो इसने मजबूत आज्ञाकारिता (compliance) की सलाह दी
  • जब पेलिकन की फोटो में गिनती पूछी गई, तो जवाब देने का स्टाइल दिलचस्प था

    • यह GPT-4 से अलग, ज्यादा अनौपचारिक अंदाज़ देता है
  • QvQ-72B-Preview मॉडल के लाइसेंस को लेकर चर्चा हुई

    • Apache 2.0 और Qwen लाइसेंस के बीच भ्रम की स्थिति थी
  • QvQ मॉडल सेलिब्रिटी, कुत्ते और The New Yorker कार्टून जैसी तस्वीरों को समझने में बहुत अच्छा दिखा

  • गणितीय समीकरण वाली इमेज प्रोसेस करने की क्षमता भी मौजूद है