- जनवरी में लॉन्च की गई Qwen2.5-VL सीरीज़ के आधार पर, reinforcement learning के जरिए मॉडल को optimize किया गया है, और 32B parameters स्केल वाला नया VL मॉडल Qwen2.5-VL-32B-Instruct Apache 2.0 license के तहत open source किया गया है
- पिछले मॉडल की तुलना में, इस 32B VL मॉडल की विशेषताएँ:
- मानव पसंद के अनुसार बेहतर ढंग से अनुकूलित responses: output style को समायोजित करके अधिक विस्तृत और बेहतर ढंग से व्यवस्थित उत्तर प्रदान करता है।
- गणितीय reasoning: जटिल गणित समस्याओं को हल करने की सटीकता में बड़ा सुधार हुआ है।
- सूक्ष्म image understanding और reasoning: image parsing, content recognition, visual logical reasoning जैसे कार्यों में सटीकता और विस्तृत विश्लेषण को मजबूत किया गया है।
प्रदर्शन
- समान श्रेणी के नवीनतम मॉडलों के साथ व्यापक benchmarking में, Qwen2.5-VL-32B-Instruct ने Mistral-Small-3.1-24B और Gemma-3-27B-IT जैसे baseline मॉडलों को पीछे छोड़ा, और इससे बड़े Qwen2-VL-72B-Instruct से भी बेहतर प्रदर्शन दिखाया।
- खास तौर पर MMMU, MMMU-Pro, MathVista जैसे जटिल और multi-step reasoning की मांग करने वाले multimodal कार्यों में इसे महत्वपूर्ण बढ़त मिली।
- MM-MT-Bench में, जो subjective user experience evaluation पर ज़ोर देता है, इसने Qwen2-VL-72B-Instruct की तुलना में काफ़ी बेहतर प्रदर्शन किया।
- visual capabilities के साथ-साथ, समान स्केल पर pure text capabilities में भी इसने सर्वोच्च स्तर का प्रदर्शन हासिल किया।
1 टिप्पणियां
Hacker News राय