Qwen3.6-35B-A3B ने Claude Opus 4.7 से बेहतर pelican इमेज बनाई
(simonwillison.net)- Qwen3.6-35B-A3B और Claude Opus 4.7 की तुलना में ‘साइकिल चलाते pelican’ की इमेज जनरेट करने पर Qwen ने ज़्यादा परिष्कृत चित्र बनाया
- Qwen मॉडल Alibaba का नवीनतम वर्ज़न है, और Unsloth द्वारा वितरित 20.9GB quantized मॉडल को MacBook Pro M5 पर LM Studio से लोकल चलाया गया
- Claude Opus 4.7 में साइकिल फ्रेम को दिखाने में त्रुटि थी, और
thinking_level: maxविकल्प इस्तेमाल करने पर भी गुणवत्ता में लगभग कोई सुधार नहीं हुआ - ‘pelican benchmark’ मूल रूप से मॉडल तुलना के व्यंग्यात्मक टेस्ट के रूप में शुरू हुआ था, लेकिन इस बार के नतीजे दिखाते हैं कि लोकल LLM कमर्शियल मॉडल से आगे निकल सकता है
- Qwen3.6-35B-A3B ने लोकल वातावरण में चलने वाले बड़े मॉडल की प्रतिस्पर्धात्मक क्षमता का प्रमाण दिया
Qwen3.6-35B-A3B और Claude Opus 4.7 की तुलना पर प्रयोग
- Qwen3.6-35B-A3B और Claude Opus 4.7 इन दो मॉडलों पर ‘साइकिल चलाते pelican’ की इमेज जनरेट करने का तुलनात्मक प्रयोग किया गया
- Qwen मॉडल Alibaba द्वारा जारी नवीनतम वर्ज़न है, और Unsloth द्वारा उपलब्ध 20.9GB quantized मॉडल का उपयोग किया गया
- MacBook Pro M5 पर LM Studio और llm-lmstudio प्लगइन के माध्यम से इसे लोकल चलाया गया
- Claude Opus 4.7 के लिए Anthropic का नवीनतम cloud मॉडल इस्तेमाल किया गया
- नतीजतन Qwen3.6-35B-A3B ने ज़्यादा परिष्कृत pelican इमेज बनाई
- Claude Opus 4.7 में साइकिल फ्रेम को गलत दिखाने की त्रुटि हुई
thinking_level: maxविकल्प जोड़कर दोबारा कोशिश की गई, लेकिन गुणवत्ता में लगभग कोई बढ़ोतरी नहीं हुई
- कुछ लोगों ने संदेह जताया कि मॉडल्स को इस ‘pelican benchmark’ के लिए ट्रेन किया गया हो सकता है
- लेखक ने इसे नकारते हुए भी, नतीजों की विश्वसनीयता जांचने के लिए ‘unicycle चलाते flamingo’ का नया टेस्ट अतिरिक्त रूप से किया
- Qwen3.6-35B-A3B ने फिर बेहतर नतीजा दिया, और SVG कोड के भीतर “” कमेंट प्रभावशाली बताए गए
pelican benchmark का अर्थ और सीमाएँ
- ‘pelican bicycle benchmark’ मूल रूप से मॉडल तुलना की बेतुकापन पर व्यंग्य करने वाले मज़ाकिया टेस्ट के रूप में शुरू हुआ था
- लेकिन व्यवहार में pelican चित्र की गुणवत्ता और मॉडल के समग्र प्रदर्शन के बीच कुछ हद तक सहसंबंध देखा गया
- 2024 के अक्टूबर में शुरुआती आउटपुट कमजोर थे, लेकिन बाद में मॉडल्स ने धीरे-धीरे वास्तविक उपयोग लायक स्तर की illustration बनानी शुरू की
- इस प्रयोग में यह सहसंबंध पहली बार टूटता हुआ दिखा
- Qwen मॉडल ने बेहतर नतीजा दिया, लेकिन 21GB quantized वर्ज़न को Anthropic के नवीनतम कमर्शियल मॉडल से अधिक शक्तिशाली मानना मुश्किल है
- फिर भी, अगर ‘साइकिल चलाते pelican का SVG’ बनाना हो, तो फिलहाल लोकल चल सकने वाला Qwen3.6-35B-A3B बेहतर विकल्प है
- कुल मिलाकर यह तुलना लोकल LLM के विकास स्तर और बड़े कमर्शियल मॉडलों के साथ घटते अंतर को दिखाने वाला उदाहरण मानी गई
- खास तौर पर LM Studio वातावरण में बड़े मॉडल चलाने की व्यवहारिकता साबित होना उल्लेखनीय है
1 टिप्पणियां
Hacker News की राय
बैकअप टेस्ट से सहमत होना मुश्किल है। Opus flamingo में असली साइकिल के pedal, saddle, spokes और चोंच तक कार्यात्मक रूप से दिखाए गए हैं। यथार्थवाद के लिहाज़ से देखें तो Qwen पूरी तरह भटक जाता है। किसी को Qwen का नतीजा ज़्यादा पसंद आए, यह थोड़ा अजीब लगता है। बल्कि ऐसा लगता है कि Qwen ने Pelican डेटा पर overfitting कर लिया है
कोडिंग परफ़ॉर्मेंस के हिसाब से Qwen 3.6 35b a3b ने Power Ranking के 98 टास्क में से 11 हल किए। इसी आकार के Qwen 3.5 ने 10 किए थे, Qwen 3.5 27b dense ने 26, और Opus ने 95 हल किए। यानी Qwen 3.6 में बहुत ही मामूली सुधार है
‘pelican test’ का मज़ाकिया पहलू समझ आता है, लेकिन अब समझ नहीं आता कि यह टेस्ट साबित क्या करता है। अगर देखना है कि मॉडल distribution से बाहर की स्थिति में कितना अच्छे से ढलता है, तो दूसरे जानवर और दूसरी गतिविधि के संयोजन (जैसे स्केटबोर्ड चलाती व्हेल) के साथ प्रयोग करना ज़्यादा सार्थक होगा
आज Gemini से स्लाइड डायग्राम में बदलाव कराने की कोशिश की, समय बर्बाद हुआ और आखिर छोड़ दिया। एक ही बार में कुछ मज़ेदार बना देना इसे आता है, लेकिन “बस इस हिस्से को थोड़ा बदल दो” जैसी बारीक एडिटिंग लगभग नामुमकिन है। toy और tool के बीच की खाई बहुत तीखे ढंग से महसूस हुई
HN पर “my laptop” कहने का मतलब हमेशा हाई-परफ़ॉर्मेंस MacBook ही लगता है। ज़्यादातर कंप्यूटरों से ज़्यादा ताकतवर
अगर Opus से सीधे पूछो “क्या तुम इमेज जनरेशन अच्छे से करते हो?”, तो वह “नहीं” कहता है। इसे मूल रूप से इमेज जनरेशन के लिए market ही नहीं किया गया था
भाषा में मूल रूप से spatial metaphor बहुत समृद्ध मात्रा में मौजूद होते हैं। जैसे पैसे को “बढ़ता है” कहने के बजाय “ऊपर जाता है” भी कहा जाता है। ऐसी रूपकात्मक संरचना मॉडल की weight space structure में भी झलक सकती है। इसलिए जैसे-जैसे मॉडल जटिल रणनीतियाँ सीखते हैं, वैसे-वैसे ये पैटर्न और गहरे हो सकते हैं। आगे चलकर पुराने और नए मॉडलों की activation geometry की तुलना करने वाला प्रोजेक्ट करना चाहूँगा
Opus और Sonnet में 4.1 वर्ज़न के बाद non-coding कामों की परफ़ॉर्मेंस लगातार गिर रही है
समझ नहीं आता कि ऐसे डेमो क्या साबित करते हैं। LLM उन्हीं कामों में अच्छे होते हैं जिन पर training हुई हो, या उनसे मिलते-जुलते कामों में। SVG जनरेशन मूल रूप से ऐसा काम नहीं था। पहले training data में उदाहरण कम थे, इसलिए यह नहीं हो पाता था; बाद में प्रचार के लिए उदाहरण जोड़ दिए गए तो यह किसी तरह संभव हुआ। लेकिन अब भी यह व्यावहारिक नहीं है। ऐसे सुधार दूसरी क्षमताओं में सुधार में नहीं बदलते। अब जब मॉडल आकार बढ़ना रुक गया है, फोकस खास टास्क ऑप्टिमाइज़ेशन पर है। अगर training में शामिल न किया गया कोई गुप्त टास्क हो, तो उससे सचमुच की generalization performance आँकी जा सकती है, लेकिन यह वैसा टेस्ट नहीं है
मैं एक iguana हूँ और मुझे अपनी साइकिल को कार वॉश पर धुलवाने ले जाना है। सोच रहा हूँ पैदल जाऊँ या बस लूँ