5 पॉइंट द्वारा GN⁺ 2025-03-25 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • जनवरी में लॉन्च की गई Qwen2.5-VL सीरीज़ के आधार पर, reinforcement learning के जरिए मॉडल को optimize किया गया है, और 32B parameters स्केल वाला नया VL मॉडल Qwen2.5-VL-32B-Instruct Apache 2.0 license के तहत open source किया गया है
  • पिछले मॉडल की तुलना में, इस 32B VL मॉडल की विशेषताएँ:
    • मानव पसंद के अनुसार बेहतर ढंग से अनुकूलित responses: output style को समायोजित करके अधिक विस्तृत और बेहतर ढंग से व्यवस्थित उत्तर प्रदान करता है।
    • गणितीय reasoning: जटिल गणित समस्याओं को हल करने की सटीकता में बड़ा सुधार हुआ है।
    • सूक्ष्म image understanding और reasoning: image parsing, content recognition, visual logical reasoning जैसे कार्यों में सटीकता और विस्तृत विश्लेषण को मजबूत किया गया है।

प्रदर्शन

  • समान श्रेणी के नवीनतम मॉडलों के साथ व्यापक benchmarking में, Qwen2.5-VL-32B-Instruct ने Mistral-Small-3.1-24B और Gemma-3-27B-IT जैसे baseline मॉडलों को पीछे छोड़ा, और इससे बड़े Qwen2-VL-72B-Instruct से भी बेहतर प्रदर्शन दिखाया।
  • खास तौर पर MMMU, MMMU-Pro, MathVista जैसे जटिल और multi-step reasoning की मांग करने वाले multimodal कार्यों में इसे महत्वपूर्ण बढ़त मिली।
  • MM-MT-Bench में, जो subjective user experience evaluation पर ज़ोर देता है, इसने Qwen2-VL-72B-Instruct की तुलना में काफ़ी बेहतर प्रदर्शन किया।
  • visual capabilities के साथ-साथ, समान स्केल पर pure text capabilities में भी इसने सर्वोच्च स्तर का प्रदर्शन हासिल किया।

1 टिप्पणियां

 
GN⁺ 2025-03-25
Hacker News राय
  • ओपन सोर्स चीनी मॉडलों की रिलीज़ के लिए आज बड़ा दिन है। DeepSeek-v3-0324 आज MIT लाइसेंस के साथ अपडेट होकर जारी हुआ है (पहले यह कस्टम DeepSeek लाइसेंस के तहत था)
  • मैंने कुछ महीने पहले Llama vision 3.2 इस्तेमाल किया था, और speed व result quality दोनों के मामले में बहुत निराश हुआ था। Hugging Face पर alternatives खोजते हुए मुझे Qwen मिला। accuracy और speed का अंतर बहुत बड़ा था। इमेज का विश्लेषण करके response माँगने पर 4090 पर आधे सेकंड में ज़्यादातर सही जवाब मिल जाते हैं। इससे भी ज़्यादा चौंकाने वाली बात यह है कि जब यह इमेज से entity names निकालता है, तो नाम कटा हुआ होने पर भी पूरा नाम दे देता है (उदाहरण: अगर बैकग्राउंड में "Coca-C" हल्का-सा दिखे, तो यह "Coca-Cola" लौटाता है)। कम-ज्ञात entities या सिर्फ़ कुछ क्षेत्रों में पहचानी जाने वाली entities को भी यह अच्छी तरह संभालता है। Qwen इस्तेमाल करने के बाद से मैं Llama या दूसरे vision models पर वापस नहीं गया हूँ
  • 32B मॉडल इस समय मेरे पसंदीदा मॉडल sizes में से एक है। यह बहुत शक्तिशाली है, फिर भी इतना छोटा है कि single GPU या ठीक-ठाक स्पेक्स वाले Mac notebook (32GB या अधिक) पर चल सके
  • यह मॉडल अब MLX में कई sizes में उपलब्ध है
    • uv का उपयोग करके बिना library install किए इसे चलाया जा सकता है
    • लगभग 18GB का मॉडल डाउनलोड किया और बहुत प्रभावशाली नतीजे मिले
  • शायद यह बेवकूफ़ी भरा सवाल हो, लेकिन मुझे समझ नहीं आता कि OpenAI, Claude आदि की valuation इतनी बड़ी कैसे हो सकती है, जबकि इतने सारे open source models मौजूद हैं। मैं यह नहीं कह रहा कि वे गायब हो जाएँगे या छोटे हो जाएँगे, लेकिन उनकी value इतनी ज़्यादा क्यों है, यह जानने की जिज्ञासा है
  • open weight models इतनी तेज़ी से आ रहे हैं कि उन्हें track करना मुश्किल हो रहा है। सोच रहा हूँ क्या कोई ऐसा व्यक्ति है जो हर मॉडल में इस समय क्या "current" है, इसकी सूची बनाए रखता हो
  • जानना चाहता हूँ कि मॉडल को multimodal बनाने से उसकी text capabilities पर क्या असर पड़ता है। लेख कहता है कि pure text में भी इसका प्रदर्शन अच्छा है, लेकिन वास्तव में कितना असर पड़ता है, इस पर कोई analysis है क्या? कुछ लोग दावा करते हैं कि इससे मॉडल text में और बेहतर हो सकते हैं, लेकिन data के बिना इस पर भरोसा करना कठिन लगता है
  • मैं यह बेहतर समझना चाहता हूँ कि किस size के video card की ज़रूरत होगी। HuggingFace लिंक के अनुसार यह bfloat16 है, इसलिए लगता है कम से कम 64GB चाहिए होगा। क्या -7B मेरे 16GB AMD कार्ड पर चल पाएगा?
  • Qwen को Alibaba Cloud ने बनाया है (ब्लॉग पोस्ट में कहीं भी इसका उल्लेख नहीं है)
  • आज Qwen, कल Google का नया SOTA मॉडल, और अगले हफ़्ते R2 आने वाला है। हम अभी तक limits तक नहीं पहुँचे हैं