Qwen की दुनिया में कुछ हो रहा है

(simonwillison.net)

5 पॉइंट द्वारा GN⁺ 2026-03-05 | 2 टिप्पणियां | WhatsApp पर शेयर करें

Alibaba की Qwen टीम के प्रमुख शोधकर्ताओं ने बड़ी संख्या में इस्तीफा दे दिया है, जिससे हाल ही में जारी हुई Qwen 3.5 model series का भविष्य अनिश्चित हो गया है
टीम लीडर Lin Junyang ने इस्तीफे की घोषणा की, और इसके बाद कई प्रमुख लोग भी टीम छोड़कर चले गए
हाल ही में जारी Qwen 3.5 model family छोटे models में भी बेहतरीन performance दिखा रही है, इसलिए इस पर और अधिक ध्यान जा रहा है
Qwen टीम के बिखरने की संभावना चीन के open source AI research ecosystem के लिए एक महत्वपूर्ण turning point बन सकती है

Qwen टीम में कर्मियों का बदलाव

Alibaba की Qwen 3.5 model series सार्वजनिक होने के तुरंत बाद, टीम लीडर Lin Junyang ने X (पूर्व Twitter) पर “me stepping down. bye my beloved qwen.” संदेश के साथ अपने इस्तीफे की घोषणा की
- Lin, 2024 के बाद से Qwen के open weight models को जारी कराने वाले प्रमुख शोधकर्ताओं में से एक थे, और Alibaba के सबसे कम उम्र के P10-स्तरीय कर्मियों में शामिल थे
चीनी मीडिया 36Kr की रिपोर्ट के अनुसार, 4 मार्च को दोपहर 1 बजे के आसपास Alibaba के Tongyi Lab ने एक आपातकालीन ऑल-हैंड्स मीटिंग बुलाई, जिसमें CEO Wu Yongming ने खुद Qwen टीम को स्थिति समझाई
- Lin के इस्तीफे की घोषणा 12 घंटे पहले रात 12:11 बजे की गई थी, और बताया गया कि टीम के अंदर भी इससे बड़ा झटका लगा
- Lin ने दोपहर 2 बजे के आसपास WeChat पर यह संदेश छोड़ा: “Qwen के भाइयों, मूल योजना के अनुसार काम जारी रखो. कोई समस्या नहीं है”, लेकिन वापसी करेंगे या नहीं, इस पर कुछ स्पष्ट नहीं कहा
- Qwen टीम के सदस्यों ने 36Kr से कहा कि "प्रतिद्वंद्वियों की तुलना में काफी कम resources के बीच Junyang की leadership ही मौजूदा उपलब्धियों का मुख्य कारण थी"
इस्तीफे की वजह के तौर पर Alibaba के भीतर हुए organizational restructuring में Google Gemini टीम से आए एक नए researcher को Qwen का प्रभारी बनाए जाने की बात कही जा रही है, लेकिन इसकी पुष्टि नहीं हुई है

प्रमुख लोगों का लगातार इस्तीफा

Lin के इस्तीफे के बाद यह पुष्टि हुई कि कई प्रमुख members ने भी साथ में इस्तीफा दिया
- Binyuan Hui: Qwen code development lead, Qwen-Coder series के प्रमुख, agent learning की पूरी प्रक्रिया के प्रभारी, हाल में robotics research में भी शामिल
- Bowen Yu: Qwen post-training lead, Qwen-Instruct series के विकास का नेतृत्व
- Kaixin Li: Qwen 3.5/VL/Coder के प्रमुख contributors में से एक, National University of Singapore से PhD
- इसके अलावा, रिपोर्ट के अनुसार कई युवा शोधकर्ताओं ने भी उसी दिन इस्तीफा दिया
Alibaba CEO का खुद मीटिंग में शामिल होना यह दिखाता है कि कंपनी इस स्थिति की गंभीरता को समझ रही है

Qwen 3.5 model की विशेषताएँ

Qwen 3.5, Alibaba Qwen टीम द्वारा पिछले कुछ हफ्तों में जारी किया गया open weight model family है, और इसका performance बहुत मजबूत है
- 17 फरवरी को जारी Qwen3.5-397B-A17B एक 807GB आकार का बड़ा model है
- इसके बाद 122B, 35B, 27B, 9B, 4B, 2B, 0.8B जैसे कई आकारों के models लगातार जारी किए गए
27B और 35B models को coding में अच्छी प्रतिक्रिया मिली है, जबकि 9B·4B·2B models अपने आकार की तुलना में बेहद efficient हैं
- 27B और 35B models 32GB/64GB Mac पर चलाए जा सकने वाले स्तर के हैं और coding tasks को बेहतरीन ढंग से संभालते हैं
- खास तौर पर 2B model केवल 4.57GB (quantization पर 1.27GB) का है, लेकिन फिर भी inference और multimodal (vision) features दोनों को support करता है

आगे की संभावना

अगर Qwen टीम बिखर जाती है, तो छोटे models में high-quality performance देने वाले research output के रुक जाने की संभावना है
अगर टीम के सदस्य कोई नई research lab बनाते हैं या किसी अन्य संस्थान में शामिल होते हैं, तो आगे के research को लेकर उम्मीद बनी रहती है
फिलहाल स्थिति “अब भी अनिश्चित” है, और यह संभावना भी बाकी है कि Alibaba कुछ लोगों को बनाए रखे

संदर्भित बाहरी स्रोत

यह सामग्री 36Kr.com के चीनी लेख और Lin Junyang की X post आदि पर आधारित है
36Kr, 2010 में स्थापित चीन का एक तकनीकी उद्योग-केंद्रित मीडिया outlet है, और इसके पास विश्वसनीय रिपोर्टिंग का इतिहास है

2 टिप्पणियां

mammal 2026-03-05

Lin Junyang का इस्तीफा वाकई चौंकाने वाला है। मैं Qwen 3.5 35B-A3B अच्छी तरह इस्तेमाल कर रहा हूँ, इसलिए Qwen 4 का इंतज़ार कर रहा था TT

GN⁺ 2026-03-05

Hacker News की राय

उम्मीद है कि डेवलपमेंट में बहुत ज़्यादा रुकावट नहीं आएगी। Simon ने जैसा कहा, Qwen3.5 वाकई प्रभावशाली है
पिछले कुछ दिनों से Qwen3.5-35B-A3B को टेस्ट कर रहा था, और अब तक इस्तेमाल किए गए मॉडलों में इसकी agentic coding क्षमता सबसे बेहतरीन लगी
मैंने इसे Pi harness के साथ Rust और Elixir कोड लिखने को कहा, और इसने खुद टेस्ट बनाए और उनके पास/फेल होने की जांच भी की। यह टेस्ट या compile error loop को अच्छे से संभालते हुए लक्ष्य की तरफ बढ़ता रहा
- GH200 पर 3.5:122b चलाकर देखा, और Rust/React/TS काम में यह Sonnet से थोड़ा कमज़ोर है, लेकिन छोटे दायरे के काम काफ़ी अच्छी तरह कर लेता है
  हालांकि बीच में कभी-कभी “यह ज़्यादा आसान होगा” कहकर निर्देशों को नज़रअंदाज़ करते हुए पूरा supporting code हटा देने की प्रवृत्ति दिखी
- मैंने भी इसे Rust के साथ टेस्ट किया, और कभी-कभी यह infinite loop में फँस जाता था, फिर खुद ही उससे निकल आता था
  planning चरण में इसने deadpool और deadpool-r2d2 चुन लिए और खुद ही उलझ गया। फिर भी कुल मिलाकर कोड ठीक था, बस database layer में थोड़ी मरम्मत की ज़रूरत लगी
  अब तक यह self-hostable models में सबसे स्थिर लगा
- dense 27B मॉडल इस्तेमाल किया तो loop और बेवजह की repetition काफ़ी कम थी
- क्या आप इसे llama.cpp से लोकल चला रहे हैं? डिफ़ॉल्ट chat template के साथ tool calling फेल हो रही थी, लेकिन इस template का इस्तेमाल करने पर यह बहुत बेहतर चला
- आप इसे किस hardware पर चला रहे हैं, यह जानने की उत्सुकता है। क्या रोज़मर्रा की coding में यह frontier models की जगह ले सकता है?
सुना है कि Qwen research team और Alibaba product team के बीच तनाव था। यह भी सुनने में आया कि Alibaba हाल ही में DAU को KPI के रूप में अनिवार्य करना चाह रहा था
कंपनी के नज़रिए से रणनीति बदलना समझ में आता है, लेकिन उन्होंने core researchers को क्यों बाहर किया, यह सवाल है। अभी तो model researchers की कमी का समय नहीं है क्या?
- शायद आगे चलकर Qwen मॉडलों को closed commercial models में बदलने की कोशिश थी, और researchers उसे स्वीकार नहीं कर पाए
समझ नहीं आता कि अमेरिकी लैब्स ऐसे प्रतिभाशाली लोगों पर इतनी बड़ी फंडिंग क्यों नहीं लगा रहीं
- मेरे इलाके (ओहायो) में ICE चीनी लोगों पर कार्रवाई कर रहा है। वैध रूप से रह रहे लोग भी deportation risk महसूस कर रहे हैं
  ऐसे माहौल में अमेरिकी लैब्स कितना भी पैसा लगा लें, प्रतिभा लाना मुश्किल है
- अमेरिका ने कानूनी आप्रवासियों तक को detention risk के दायरे में ला दिया है
- यूरोप को अमेरिका की राजनीतिक अव्यवस्था के लिए तैयारी करते हुए प्रतिस्पर्धी मॉडल विकसित करने चाहिए
- जो लोग पहले ही अमेरिकी पूंजी की ओर खिंच चुके थे, वे जा चुके हैं, और चीन भी पर्याप्त निवेश कर रहा है
  ऊपर से चीनी कंपनियों में decision-making influence भी ज़्यादा मिल सकता है
- समस्या सिर्फ NSF budget कटौती नहीं है। स्वास्थ्य संबंधी मुद्दे, युद्ध का जोखिम, और विदेशी शोधकर्ताओं के लिए अनिश्चितता जैसी बातों से अमेरिका का आकर्षण कम हुआ है
  Trump प्रशासन के समय से ही विदेशी छात्रों का आना कम हुआ था, और अब अमेरिका में PhD करना उल्टा reputational risk जैसा माना जाने लगा है
लोकल मॉडल इस्तेमाल करते समय लोग trial and error को ज़्यादा सहनशीलता से लेते हैं
cloud model टोकन बर्बाद करे तो लागत खलती है, लेकिन लोकल मॉडल loop में जाए तो लगता है “सोच रहा है”
अगर Qwen जैसे मॉडल लोकल coding के लिए काफ़ी उपयोगी हो जाएँ, तो बदलाव तकनीकी से ज़्यादा आर्थिक हो सकता है
- लोकल मॉडल का token waste तो उल्टा स्वागतयोग्य है। मेरे कमरे का GPU mainframe heater का काम भी करता है (स्विट्ज़रलैंड की अस्थिर heating व्यवस्था की मेहरबानी)
32B मॉडल को लोकल में कुछ दिन चलाकर देखा, और इसने agentic coding काफ़ी अच्छी तरह संभाली
अपने आकार के हिसाब से प्रदर्शन शानदार है, लेकिन लंबे निर्देशों में यह लगभग आधे हिस्से को नज़रअंदाज़ कर देता है। इस आकार पर यह स्वीकार करने लायक trade-off है
एक गणितज्ञ के रूप में मैंने Qwen का इस्तेमाल papers के बीच संबंध निकालने और summaries को automate करने में किया
इसने misquotation verification तक किया, और arXiv papers में भी इसका उपयोग हुआ
नतीजे इस पेज पर संकलित हैं
उम्मीद है कि researchers किसी और जगह फिर से open-weight model competition आगे बढ़ाएँगे
सच कहूँ तो लगता था कि ऐसी research को सरकार का समर्थन मिलना चाहिए, लेकिन अभी यह भूमिका चीनी कंपनियाँ निभा रही हैं
Qwen3.5 सच में शानदार है। मैंने 35B version को Ada NextGen 24GB पर easy-llm-cli से चलाया, और यह लगभग Gemini 3 Pro के बराबर लगा
गति भी काफ़ी तेज़ थी
- q4 quant setting पर 175 tg और 7K pp मिल रहे थे, और यह ज़्यादातर cloud providers से अधिक efficient था
आजकल माहौल “AI इंसानों की जगह लेगा” से बदलकर “AI कुछ खास लोगों के बिना ठप पड़ जाता है” जैसा हो गया है। यह वाकई नाटकीय बदलाव है
- Anthropic का uptime 99.9999999% नहीं बल्कि सिर्फ लगभग 90% है। status page देखकर समझ सकते हैं
  अगर AI सच में इंसानों को पूरी तरह replace कर सकता, तो CEOs को इस तरह मनाने की इतनी कोशिश नहीं करनी पड़ती
- “AI कुछ खास लोगों के बिना ठप पड़ जाता है” कहना बढ़ा-चढ़ाकर कहना है। लोग बस Qwen model family के भविष्य को लेकर उत्सुक हैं
- AGI लक्ष्य से विज्ञापन-केन्द्रित short-term strategy की ओर बदलाव ही मौजूदा स्थिति को अच्छी तरह दिखाता है
- Claude खुद native app नहीं बना सकता, और web app भी अस्थिर है, शायद यही वजह थी कि Anthropic ने Bun को अधिग्रहित किया
भूल जाओ, यहाँ Chinatown है