- Qwen3.6-35B-A3B और Claude Opus 4.7 की तुलना में ‘साइकिल चलाते pelican’ की इमेज जनरेट करने पर Qwen ने ज़्यादा परिष्कृत चित्र बनाया
- Qwen मॉडल Alibaba का नवीनतम वर्ज़न है, और Unsloth द्वारा वितरित 20.9GB quantized मॉडल को MacBook Pro M5 पर LM Studio से लोकल चलाया गया
- Claude Opus 4.7 में साइकिल फ्रेम को दिखाने में त्रुटि थी, और
thinking_level: max विकल्प इस्तेमाल करने पर भी गुणवत्ता में लगभग कोई सुधार नहीं हुआ
- ‘pelican benchmark’ मूल रूप से मॉडल तुलना के व्यंग्यात्मक टेस्ट के रूप में शुरू हुआ था, लेकिन इस बार के नतीजे दिखाते हैं कि लोकल LLM कमर्शियल मॉडल से आगे निकल सकता है
- Qwen3.6-35B-A3B ने लोकल वातावरण में चलने वाले बड़े मॉडल की प्रतिस्पर्धात्मक क्षमता का प्रमाण दिया
Qwen3.6-35B-A3B और Claude Opus 4.7 की तुलना पर प्रयोग
- Qwen3.6-35B-A3B और Claude Opus 4.7 इन दो मॉडलों पर ‘साइकिल चलाते pelican’ की इमेज जनरेट करने का तुलनात्मक प्रयोग किया गया
- Qwen मॉडल Alibaba द्वारा जारी नवीनतम वर्ज़न है, और Unsloth द्वारा उपलब्ध 20.9GB quantized मॉडल का उपयोग किया गया
- MacBook Pro M5 पर LM Studio और llm-lmstudio प्लगइन के माध्यम से इसे लोकल चलाया गया
- Claude Opus 4.7 के लिए Anthropic का नवीनतम cloud मॉडल इस्तेमाल किया गया
- नतीजतन Qwen3.6-35B-A3B ने ज़्यादा परिष्कृत pelican इमेज बनाई
- Claude Opus 4.7 में साइकिल फ्रेम को गलत दिखाने की त्रुटि हुई
thinking_level: max विकल्प जोड़कर दोबारा कोशिश की गई, लेकिन गुणवत्ता में लगभग कोई बढ़ोतरी नहीं हुई
- कुछ लोगों ने संदेह जताया कि मॉडल्स को इस ‘pelican benchmark’ के लिए ट्रेन किया गया हो सकता है
- लेखक ने इसे नकारते हुए भी, नतीजों की विश्वसनीयता जांचने के लिए ‘unicycle चलाते flamingo’ का नया टेस्ट अतिरिक्त रूप से किया
- Qwen3.6-35B-A3B ने फिर बेहतर नतीजा दिया, और SVG कोड के भीतर “” कमेंट प्रभावशाली बताए गए
pelican benchmark का अर्थ और सीमाएँ
- ‘pelican bicycle benchmark’ मूल रूप से मॉडल तुलना की बेतुकापन पर व्यंग्य करने वाले मज़ाकिया टेस्ट के रूप में शुरू हुआ था
- लेकिन व्यवहार में pelican चित्र की गुणवत्ता और मॉडल के समग्र प्रदर्शन के बीच कुछ हद तक सहसंबंध देखा गया
- 2024 के अक्टूबर में शुरुआती आउटपुट कमजोर थे, लेकिन बाद में मॉडल्स ने धीरे-धीरे वास्तविक उपयोग लायक स्तर की illustration बनानी शुरू की
- इस प्रयोग में यह सहसंबंध पहली बार टूटता हुआ दिखा
- Qwen मॉडल ने बेहतर नतीजा दिया, लेकिन 21GB quantized वर्ज़न को Anthropic के नवीनतम कमर्शियल मॉडल से अधिक शक्तिशाली मानना मुश्किल है
- फिर भी, अगर ‘साइकिल चलाते pelican का SVG’ बनाना हो, तो फिलहाल लोकल चल सकने वाला Qwen3.6-35B-A3B बेहतर विकल्प है
- कुल मिलाकर यह तुलना लोकल LLM के विकास स्तर और बड़े कमर्शियल मॉडलों के साथ घटते अंतर को दिखाने वाला उदाहरण मानी गई
- खास तौर पर LM Studio वातावरण में बड़े मॉडल चलाने की व्यवहारिकता साबित होना उल्लेखनीय है
अभी कोई टिप्पणी नहीं है.