- Alibaba की Qwen रिसर्च टीम ने open source (Apache 2.0 लाइसेंस) LLM सीरीज़ Qwen2.5-Coder की घोषणा की
- दावा किया गया है कि Qwen2.5-Coder-32B-Instruct मॉडल में GPT-4o स्तर की कोडिंग क्षमता है
- 32B मॉडल अपेक्षाकृत छोटा है, इतना कि इसे 64GB MacBook Pro M2 पर भी चलाया जा सकता है
- benchmark प्रदर्शन में इसने GPT-4o और Claude 3.5 Sonnet मॉडलों के बराबर या उनसे अधिक स्कोर दर्ज किए
benchmark प्रदर्शन तुलना
- Qwen2.5-Coder-32B-Instruct मॉडल ने निम्न benchmark में खास प्रदर्शन दिखाया:
- LiveCodeBench, Spider, BIRD-SQL में इसने GPT-4o और Claude 3.5 Sonnet से बेहतर प्रदर्शन किया
- MBPP, Aider, CodeArena में प्रदर्शन थोड़ा पीछे रहा
- HumanEval, McEval में लगभग समान स्तर का प्रदर्शन दिखा
Aider benchmark में प्रदर्शन
- Paul Gauthier के Aider benchmark में भी इसने अच्छे नतीजे दिखाए
- "Whole edit" benchmark में Qwen2.5-Coder-32B-Instruct का प्रदर्शन GPT-4o और 3.5 Haiku के बीच रहा
- स्कोर तुलना:
- 3.5 Sonnet: 84%
- 3.5 Haiku: 75%
- Qwen2.5-Coder 32B: 74%
- GPT-4o: 71%
- Qwen2.5-Coder 14B: 69%
- Qwen2.5-Coder 7B: 58%
- "Diff" benchmark में यह GPT-4o के बराबर रहा, लेकिन Claude 3.5 Haiku से थोड़ा पीछे
Mac पर Qwen2.5-Coder चलाने का परीक्षण
- उपयोगकर्ता ने llm-gguf का उपयोग करके Qwen2.5-Coder-32B-Instruct-GGUF Q8 मॉडल चलाने की कोशिश की, लेकिन GPU का उपयोग न होने के कारण गति धीमी रही
- Ollama और MLX वर्ज़न MacBook पर अच्छी तरह काम करते हैं
- Ollama इंस्टॉल करने का तरीका:
ollama pull qwen2.5-coder:32b कमांड से 20GB आकार की quantized फ़ाइल डाउनलोड की जाती है
- Python function बनाने के अनुरोध पर ssl समस्या को छोड़कर यह सफलतापूर्वक काम करता है
- MLX का उपयोग:
- Apple Silicon के MLX framework का उपयोग करने पर प्रदर्शन बेहतर हुआ
- टर्मिनल में Mandelbrot fractal generation code चलाकर ASCII art के रूप में प्रदर्शित करने में सफलता मिली
- प्रदर्शन मेट्रिक्स:
- token generation speed: 10.016 tokens/sec
- memory usage: अधिकतम 32.685GB
अतिरिक्त परीक्षण: Pelican on a bicycle benchmark
llm -m qwen2.5-coder:32b 'Generate an SVG of a pelican riding a bicycle' अनुरोध चलाया गया
- परिणाम अस्पष्ट आकार वाले pelican और bicycle की SVG image के रूप में आया, लेकिन user experience के लिहाज़ से यह दिलचस्प था
निष्कर्ष और उपयोगकर्ता अनुभव
- 32GB memory usage Mac पर चलाने योग्य स्तर पर है, और इसे अन्य applications बंद किए बिना भी उपयोग किया जा सकता है
- गति और परिणाम की गुणवत्ता के मामले में यह मौजूदा hosted models से प्रतिस्पर्धा कर सकता है
- उपयोगकर्ता के LLM उपयोग का 80% हिस्सा कोड लिखने से जुड़ा है, इसलिए Qwen2.5-Coder एक सार्थक सुधार साबित हो सकता है
1 टिप्पणियां
यह coding user scenario से थोड़ा अलग है, लेकिन यह दिलचस्प है कि Claude का JSON mode कैसे implement किया गया है। कुछ hosted models, JSON output बनाने के लिए कहने पर भी, comments वाली JavaScript या Markdown text बना देते हैं। hosted models को कुछ बार इस्तेमाल करने के मेरे अनुभव में, managed service का उपयोग करने पर results ज़्यादा संतोषजनक थे। लगता है कि hosted model से implement न हो पाने वाली कोई अतिरिक्त चीज़ भी है।