Qwen3.6-35B-A3B ने Claude Opus 4.7 से बेहतर pelican इमेज बनाई

(simonwillison.net)

6 पॉइंट द्वारा GN⁺ 2026-04-17 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Qwen3.6-35B-A3B और Claude Opus 4.7 की तुलना में ‘साइकिल चलाते pelican’ की इमेज जनरेट करने पर Qwen ने ज़्यादा परिष्कृत चित्र बनाया
Qwen मॉडल Alibaba का नवीनतम वर्ज़न है, और Unsloth द्वारा वितरित 20.9GB quantized मॉडल को MacBook Pro M5 पर LM Studio से लोकल चलाया गया
Claude Opus 4.7 में साइकिल फ्रेम को दिखाने में त्रुटि थी, और thinking_level: max विकल्प इस्तेमाल करने पर भी गुणवत्ता में लगभग कोई सुधार नहीं हुआ
‘pelican benchmark’ मूल रूप से मॉडल तुलना के व्यंग्यात्मक टेस्ट के रूप में शुरू हुआ था, लेकिन इस बार के नतीजे दिखाते हैं कि लोकल LLM कमर्शियल मॉडल से आगे निकल सकता है
Qwen3.6-35B-A3B ने लोकल वातावरण में चलने वाले बड़े मॉडल की प्रतिस्पर्धात्मक क्षमता का प्रमाण दिया

Qwen3.6-35B-A3B और Claude Opus 4.7 की तुलना पर प्रयोग

Qwen3.6-35B-A3B और Claude Opus 4.7 इन दो मॉडलों पर ‘साइकिल चलाते pelican’ की इमेज जनरेट करने का तुलनात्मक प्रयोग किया गया
- Qwen मॉडल Alibaba द्वारा जारी नवीनतम वर्ज़न है, और Unsloth द्वारा उपलब्ध 20.9GB quantized मॉडल का उपयोग किया गया
- MacBook Pro M5 पर LM Studio और llm-lmstudio प्लगइन के माध्यम से इसे लोकल चलाया गया
- Claude Opus 4.7 के लिए Anthropic का नवीनतम cloud मॉडल इस्तेमाल किया गया
नतीजतन Qwen3.6-35B-A3B ने ज़्यादा परिष्कृत pelican इमेज बनाई
- Claude Opus 4.7 में साइकिल फ्रेम को गलत दिखाने की त्रुटि हुई
- thinking_level: max विकल्प जोड़कर दोबारा कोशिश की गई, लेकिन गुणवत्ता में लगभग कोई बढ़ोतरी नहीं हुई
कुछ लोगों ने संदेह जताया कि मॉडल्स को इस ‘pelican benchmark’ के लिए ट्रेन किया गया हो सकता है
- लेखक ने इसे नकारते हुए भी, नतीजों की विश्वसनीयता जांचने के लिए ‘unicycle चलाते flamingo’ का नया टेस्ट अतिरिक्त रूप से किया
- Qwen3.6-35B-A3B ने फिर बेहतर नतीजा दिया, और SVG कोड के भीतर “” कमेंट प्रभावशाली बताए गए

pelican benchmark का अर्थ और सीमाएँ

‘pelican bicycle benchmark’ मूल रूप से मॉडल तुलना की बेतुकापन पर व्यंग्य करने वाले मज़ाकिया टेस्ट के रूप में शुरू हुआ था
- लेकिन व्यवहार में pelican चित्र की गुणवत्ता और मॉडल के समग्र प्रदर्शन के बीच कुछ हद तक सहसंबंध देखा गया
- 2024 के अक्टूबर में शुरुआती आउटपुट कमजोर थे, लेकिन बाद में मॉडल्स ने धीरे-धीरे वास्तविक उपयोग लायक स्तर की illustration बनानी शुरू की
इस प्रयोग में यह सहसंबंध पहली बार टूटता हुआ दिखा
- Qwen मॉडल ने बेहतर नतीजा दिया, लेकिन 21GB quantized वर्ज़न को Anthropic के नवीनतम कमर्शियल मॉडल से अधिक शक्तिशाली मानना मुश्किल है
- फिर भी, अगर ‘साइकिल चलाते pelican का SVG’ बनाना हो, तो फिलहाल लोकल चल सकने वाला Qwen3.6-35B-A3B बेहतर विकल्प है
कुल मिलाकर यह तुलना लोकल LLM के विकास स्तर और बड़े कमर्शियल मॉडलों के साथ घटते अंतर को दिखाने वाला उदाहरण मानी गई
- खास तौर पर LM Studio वातावरण में बड़े मॉडल चलाने की व्यवहारिकता साबित होना उल्लेखनीय है

1 टिप्पणियां

GN⁺ 2026-04-17

Hacker News की राय

बैकअप टेस्ट से सहमत होना मुश्किल है। Opus flamingo में असली साइकिल के pedal, saddle, spokes और चोंच तक कार्यात्मक रूप से दिखाए गए हैं। यथार्थवाद के लिहाज़ से देखें तो Qwen पूरी तरह भटक जाता है। किसी को Qwen का नतीजा ज़्यादा पसंद आए, यह थोड़ा अजीब लगता है। बल्कि ऐसा लगता है कि Qwen ने Pelican डेटा पर overfitting कर लिया है
- Qwen का flamingo कलात्मक रूप से कहीं ज़्यादा दिलचस्प है। sunglasses और bow tie पहने एक-आंख वाला flamingo सिगरेट पी रहा है। वहीं Opus एक नीरस और कहीं-कहीं अजीब flamingo बनाता है। बैकग्राउंड का आसमान और ज़मीन भी Qwen की तरफ़ ज़्यादा रोचक हैं। लेकिन भौतिक रूप से विश्वसनीय नतीजे के मामले में Opus कहीं ज़्यादा करीब है
- Qwen कम से कम पूरा साइकिल फ्रेम तो बनाता है। Opus का फ्रेम ऐसा लगता है जैसे आधा टूट जाएगा और उसे steer करना भी मुमकिन नहीं दिखता
- Qwen ने बैकग्राउंड में बारीक डिटेल जोड़ी है, लेकिन pelican खुद टेढ़ी चोंच वाले सारस जैसा दिखता है और उसके पैर भी कटे हुए हैं। लोकल मॉडल के हिसाब से प्रभावशाली है, लेकिन विजेता नहीं
- यह 3B मॉडल है। इतना करीब का नतीजा आना ही हैरान करने वाला है। कलात्मकता पर बहस असली मुद्दा नहीं है
कोडिंग परफ़ॉर्मेंस के हिसाब से Qwen 3.6 35b a3b ने Power Ranking के 98 टास्क में से 11 हल किए। इसी आकार के Qwen 3.5 ने 10 किए थे, Qwen 3.5 27b dense ने 26, और Opus ने 95 हल किए। यानी Qwen 3.6 में बहुत ही मामूली सुधार है
- इस benchmark में Brokk Power Ranking की तरह training data और benchmark data के overlap की समस्या है
- स्पीड निश्चित रूप से तेज़ हुई है। M1 Max पर इमेज कैप्शनिंग में Qwen 3.6 35b a3b 34 tokens प्रति सेकंड देता है, Qwen 3.5 27b 10 tokens देता है, और Qwen 3.5 35b a3b इमेज इनपुट को सपोर्ट नहीं करता
- लोकल inference के छोटे मॉडल की तुलना महंगे frontier model से करना ठीक नहीं है। तुलना समान कीमत वाले मॉडल या Haiku, Flash, GPT Nano जैसे छोटे frontier model से होनी चाहिए
‘pelican test’ का मज़ाकिया पहलू समझ आता है, लेकिन अब समझ नहीं आता कि यह टेस्ट साबित क्या करता है। अगर देखना है कि मॉडल distribution से बाहर की स्थिति में कितना अच्छे से ढलता है, तो दूसरे जानवर और दूसरी गतिविधि के संयोजन (जैसे स्केटबोर्ड चलाती व्हेल) के साथ प्रयोग करना ज़्यादा सार्थक होगा
- इसलिए मैंने unicycle चलाते flamingo को आज़माया। एक पल के लिए लगा कि शायद मॉडल प्रदाता ने pelican के लिए खास training की है, लेकिन flamingo का नतीजा देखकर भरोसा हो गया कि ऐसा नहीं है
- benchmark जितना लोकप्रिय होता है, मॉडल training के दौरान उसे खास तौर पर ट्रीट किए जाने की संभावना उतनी बढ़ती है। “कार चलाता हाथी” या “बिस्तर पर सोता शेर” जैसे prompts से टेस्ट करना चाहूँगा
- पोस्ट पढ़ने पर साफ़ लिखा है कि यह टेस्ट हास्यपूर्ण इरादे से बनाया गया था। इसने बस मॉडल परफ़ॉर्मेंस के रुझान को ढीले तौर पर ट्रैक किया है, और इस बार का नतीजा दिखाता है कि वह रुझान टूट गया
- हो सकता है मॉडल इस टेस्ट को पहचानते हों, लेकिन “स्केटबोर्ड पर kickflip करता कछुआ” जैसी चीज़ पर training नहीं हुई होगी। Jeff Dean के ट्वीट से भी यही लगता है; बल्कि Opus 4.7 का pelican fail होना इसका सबूत है
- यह मज़ाक अब पुराना पड़ चुका है। लेकिन AI इंडस्ट्री के ज़्यादा hype के बीच अब भी लोग इसे गंभीरता से लेते हैं। अच्छा pelican चित्र निकलते ही उसे मॉडल की श्रेष्ठता के सबूत की तरह पेश किया जाता है
आज Gemini से स्लाइड डायग्राम में बदलाव कराने की कोशिश की, समय बर्बाद हुआ और आखिर छोड़ दिया। एक ही बार में कुछ मज़ेदार बना देना इसे आता है, लेकिन “बस इस हिस्से को थोड़ा बदल दो” जैसी बारीक एडिटिंग लगभग नामुमकिन है। toy और tool के बीच की खाई बहुत तीखे ढंग से महसूस हुई
HN पर “my laptop” कहने का मतलब हमेशा हाई-परफ़ॉर्मेंस MacBook ही लगता है। ज़्यादातर कंप्यूटरों से ज़्यादा ताकतवर
अगर Opus से सीधे पूछो “क्या तुम इमेज जनरेशन अच्छे से करते हो?”, तो वह “नहीं” कहता है। इसे मूल रूप से इमेज जनरेशन के लिए market ही नहीं किया गया था
- इन दिनों शक होने लगा है कि कहीं OpenAI HN टिप्पणियों में हेरफेर करके चर्चा की दिशा बदलने की कोशिश तो नहीं कर रहा। कुछ विषयों पर OpenAI के पक्ष में या दूसरे मॉडलों की हद से ज़्यादा आलोचना करने वाली टिप्पणियाँ बार-बार दिखती हैं
- Claude SVG जनरेशन में बहुत सक्षम है। मैं छोटे आइकन बनाने के लिए Claude का अक्सर इस्तेमाल करता हूँ। लेकिन साइकिल चलाते pelican जैसी SVG illustration वास्तविक रूप से बेकार है। pelican साइकिल चला ही नहीं सकता
भाषा में मूल रूप से spatial metaphor बहुत समृद्ध मात्रा में मौजूद होते हैं। जैसे पैसे को “बढ़ता है” कहने के बजाय “ऊपर जाता है” भी कहा जाता है। ऐसी रूपकात्मक संरचना मॉडल की weight space structure में भी झलक सकती है। इसलिए जैसे-जैसे मॉडल जटिल रणनीतियाँ सीखते हैं, वैसे-वैसे ये पैटर्न और गहरे हो सकते हैं। आगे चलकर पुराने और नए मॉडलों की activation geometry की तुलना करने वाला प्रोजेक्ट करना चाहूँगा
Opus और Sonnet में 4.1 वर्ज़न के बाद non-coding कामों की परफ़ॉर्मेंस लगातार गिर रही है
समझ नहीं आता कि ऐसे डेमो क्या साबित करते हैं। LLM उन्हीं कामों में अच्छे होते हैं जिन पर training हुई हो, या उनसे मिलते-जुलते कामों में। SVG जनरेशन मूल रूप से ऐसा काम नहीं था। पहले training data में उदाहरण कम थे, इसलिए यह नहीं हो पाता था; बाद में प्रचार के लिए उदाहरण जोड़ दिए गए तो यह किसी तरह संभव हुआ। लेकिन अब भी यह व्यावहारिक नहीं है। ऐसे सुधार दूसरी क्षमताओं में सुधार में नहीं बदलते। अब जब मॉडल आकार बढ़ना रुक गया है, फोकस खास टास्क ऑप्टिमाइज़ेशन पर है। अगर training में शामिल न किया गया कोई गुप्त टास्क हो, तो उससे सचमुच की generalization performance आँकी जा सकती है, लेकिन यह वैसा टेस्ट नहीं है
- मैंने GPT-5.4, mini, nano मॉडलों के SVG नतीजों की तुलना की थी, काफ़ी दिलचस्प था। संबंधित पोस्ट के निचले हिस्से को देखें
मैं एक iguana हूँ और मुझे अपनी साइकिल को कार वॉश पर धुलवाने ले जाना है। सोच रहा हूँ पैदल जाऊँ या बस लूँ
- किसी ने सुझाव दिया कि pelican को साइकिल थमा दो और उसी से धुलवा लो
- एक सलाह यह भी थी: “वह बहुत दूर है। $PartnerRideshareCo से बुक कर लो”

Qwen3.6-35B-A3B ने Claude Opus 4.7 से बेहतर pelican इमेज बनाई

Qwen3.6-35B-A3B और Claude Opus 4.7 की तुलना पर प्रयोग

pelican benchmark का अर्थ और सीमाएँ

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय