2 पॉइंट द्वारा GN⁺ 2025-07-07 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Huawei पर Qwen और DeepSeek के बड़े AI मॉडलों की नकल करने के बाद उन्हें ‘Pangu’ नाम के अपने उत्पाद के रूप में पेश करने का आंतरिक खुलासा सामने आया
  • Pangu टीम के एक आंतरिक कर्मचारी के अनुसार, कुछ वास्तविक मॉडल सीधे विकसित नहीं किए गए थे, बल्कि बाहरी open source मॉडलों पर आधारित थे और केवल उनका नाम बदला गया था
  • तकनीकी रूप से यह सामने आया कि 135B V2 और Pro MoE 72B जैसे प्रमुख मॉडल Qwen और DeepSeek की संरचना से काफी हद तक मेल खाते हैं
  • अंदरूनी तौर पर, इस तरह की प्रथा ने शोधकर्ताओं के मनोबल में गिरावट और उनके बाहर जाने को बढ़ावा दिया, जबकि प्रशासनिक अक्षमता और अपारदर्शी HR नीतियों ने समस्या को और गंभीर बनाया
  • हालांकि वास्तव में स्वदेशी रूप से विकसित मॉडल (जैसे Pangu V3) भी मौजूद हैं, फिर भी नकल की प्रथा और शोध को उचित मान्यता न देने वाली संस्कृति ने पूरे संगठन के भरोसे को गहरी चोट पहुंचाई
  • व्हिसलब्लोअर ने अपने वास्तविक नाम के साथ सच सामने लाने का फैसला किया और संगठन से आत्ममंथन व बदलाव की अपील की

Pangu की त्रासदी: Huawei Noah Ark Lab के Pangu बड़े मॉडल के दर्दनाक अंदरूनी हालात

व्हिसलब्लोअर का परिचय और कार्यस्थल का माहौल

  • लेखक Huawei Noah Pangu बड़े मॉडल टीम से जुड़ा है, और उसने मुख्य संगठन-प्रोजेक्ट संरचना तथा नेतृत्व संरचना को आंतरिक जानकारी से मिलाकर अपनी पहचान सत्यापित की
  • Pangu प्रोजेक्ट वास्तव में शोध संगठन से अधिक डिलीवरी संगठन जैसा था, जहां बार-बार की deadlines, overwork, और लगातार evaluation व reporting के दबाव का सामना करना पड़ता था
  • काम का दबाव और नौकरशाही बहुत अधिक थी, परिवार से लंबे समय तक दूर रहकर आवास में रहना पड़ता था, और सप्ताहांत में काम करना भी आम बात थी
  • व्यवहार में शोध की स्वायत्तता और रचनात्मकता से अधिक, प्रत्येक product line (Cloud, ICT आदि) की delivery timeline और performance-केंद्रित corporate culture हावी थी

जागी हुई रातें, कुचला गया सृजनबोध

  • Qwen मॉडल plagiarism विवाद के बाद, कुछ शोधकर्ताओं ने एक साथ शर्म, गुस्सा और असहायता महसूस की
  • स्वयं खुलासा करने वाले व्यक्ति को विशाल कंपनी और उसके आंतरिक नेटवर्क से प्रतिशोध का डर था, लेकिन वह अब और तथ्यों को छिपाने तथा बाहरी दुनिया के सामने झूठा प्रचार बर्दाश्त नहीं कर सका और उसने अंतःकरण के आधार पर सच बोलने का निर्णय लिया

तकनीकी कठिनाइयाँ और नकल की शुरुआत

  • शुरुआती Pangu मॉडल ने Huawei Ascend NPU आधारित वातावरण में स्वयं प्रशिक्षण का प्रयास किया, लेकिन tokenizer efficiency और model performance की कमजोरी जैसी गंभीर कठिनाइयों का सामना किया
  • यह प्रतिस्पर्धियों (Alibaba, Zhipu) के GPU आधारित मॉडलों से पीछे रह गया, और उसका स्वयं का 230B dense मॉडल प्रशिक्षण विफल रहा
  • इसके बाद, small model lab ने इसे “स्व-विकसित” के रूप में पेश किया, लेकिन वास्तव में उसने Qwen-1.5 (110B) मॉडल को क्लोन कर थोड़ा संशोधित किया हुआ 135B V2 बनाकर उपलब्ध कराया, और अंदरूनी स्तर पर भी code व structure की समानता सामने आई
  • प्रमुख नेतृत्व और प्रबंधन इस वास्तविकता को जानते हुए भी, बाहरी उपलब्धियों और performance pressure के कारण इसे अनदेखा करते रहे

वास्तविक तकनीकी उपलब्धि: Pangu V3

  • लंबे संघर्ष के बाद, टीम ने शुरुआत से पूरी तरह स्व-विकसित Pangu V3 (135B Ultra) मॉडल को Ascend पर स्वतंत्र रूप से train किया
  • tokenizer unification, loss curve stabilization जैसी कई तकनीकी चुनौतियों को पार करते हुए, टीम ने प्रतिस्पर्धियों के समान स्तर का performance हासिल किया
  • यह उपलब्धि plagiarism नहीं बल्कि स्वतंत्र बड़े मॉडल विकास का प्रमाण थी, और शोधकर्ताओं के गर्व का स्रोत बनी

कार्य-विभाजन के पीछे अनदेखी मेहनत

  • small model lab लगातार data, code और outputs लेकर आसानी से मॉडलों को बदलकर/तैनात करता रहा, जबकि उपलब्धियां और rewards मुख्यतः उसी संगठन को मिलते रहे
  • इसके कारण समर्पित शोधकर्ताओं ने या तो संगठन छोड़ दिया या इसे अपने तकनीकी करियर पर दाग की तरह देखा

224B MoE/718B क्लोन जैसी दूसरी plagiarism घटनाएँ

  • नए 718B MoE मॉडल के विकास के दौरान भी, DeepSeekv3 को लगभग जस का तस क्लोन कर Pangu Pro MoE 72B नाम से जारी किया गया
  • अंदरूनी स्तर पर लोग इस प्रथा से परिचित थे, लेकिन अपनी-अपनी जीविका और सच उजागर करने के डर के कारण इस पर चुप्पी साधे रहे

अव्यवस्थित प्रशासनिक प्रबंधन

  • वास्तविक शोधकर्ताओं पर कड़े process, model lineage और audit systems लागू किए गए, जिससे विकास की गति धीमी हो गई
  • लेकिन क्लोन किए गए मॉडलों के मामले में “ऊपर से हो जाए तो सब पास” वाला दोहरा मापदंड गहराई से मौजूद रहा

खुलासे की वजह और इस्तीफे का फैसला

  • HonestAGI घटना के बाद, कंपनी स्तर पर crisis management और आंतरिक concealment की कोशिशें शुरू हुईं
  • खुलासा करने वाले ने कहा कि वह अब “fake reports” और आंतरिक मिलीभगत का हिस्सा नहीं बन सकता, और उसने टीम सूची व रिपोर्टों से अपना नाम हटाने तथा स्वेच्छा से इस्तीफा देने की मंशा जताई

अंतिम अपील और साथियों के प्रति लगाव

  • उसके सहयोगी पहले ही ByteDance, DeepSeek, Tencent, Kuaishou जैसी अन्य कंपनियों में जा चुके हैं, जो Huawei से प्रतिभा पलायन की गंभीरता को दिखाता है
  • उसने जोर देकर कहा कि अगर innovation, उपयुक्त माहौल, और कम राजनीतिक बाधाएँ होतीं, तो विश्व-स्तरीय बड़े मॉडल और chip development भी संभव था
  • उसने यह भी व्यक्त किया कि वह इस सामग्री की सत्यता और आगे के खुलासों के कारण अपने तथा अपने परिवार की सुरक्षा को खतरे में डालने की संभावना तक स्वीकार करने को तैयार है

अतिरिक्त परिस्थिति संबंधी विवरण

  • 135B V2 क्लोन मामले में, small model lab ने rewards और incentives जैसे लाभ तो ले लिए, जबकि downstream support और maintenance का बोझ मूल विकास टीम (4th brigade) पर डाल दिया गया
  • Pangu technical report के author credits में भी, मॉडल विकास में वास्तविक और महत्वपूर्ण योगदान देने वाले लोगों को बाहर रखा गया, जबकि small model lab के गैर-योगदानकर्ताओं को शामिल किया गया, जो अनुचित अकादमिक प्रथाओं के व्यापक होने को दर्शाता है

1 टिप्पणियां

 
GN⁺ 2025-07-07
Hacker News राय
  • यह मानने वाला दृष्टिकोण है कि मूल पोस्ट का लेखक कुछ हद तक भोला नज़रिया दिखाता है। Ascend टीम शुरुआत में (पहली पीढ़ी के 910A NPU के आधार पर) Nvidia की तुलना में प्रदर्शन में पीछे थी, और यह स्वाभाविक परिणाम था। प्रबंधन ने तुरंत व्यावसायीकरण योग्य GPU-आधारित विकल्प का पीछा करने वाली टीम का समर्थन किया, और आंतरिक राजनीति के कारण यही दिशा मजबूत हो गई। Ascend टीम ने अंततः तकनीकी समस्याएँ हल कर लीं, लेकिन अनुचित व्यवहार, नौकरशाही पक्षपात और मान्यता की कमी जैसी वजहों से कई सदस्य burnout का शिकार हुए या दूसरी चीनी AI कंपनियों में चले गए। HW (संभवतः Huawei) लंबे समय से top-tier प्रतिभा को खपा देने वाली रणनीति और संस्कृति रखता रहा है; 90 के दशक में भी PRC की telecom कंपनियों ने Nortel, Siemens, Lucent से प्रतिभा खींची थी, लेकिन पश्चिमी कार्यस्थल संस्कृति के आदी चीनी मूल के लोग वास्तविक चीनी कंपनी संस्कृति में ढलने में कठिनाई के कारण burnout का शिकार हुए। इसके बावजूद HW ने आक्रामक work culture के दम पर अंततः उद्योग पर प्रभुत्व स्थापित किया। अब प्रतिबंधों के बाद वह एक रणनीतिक कंपनी बन चुकी है, इसलिए semiconductors, घरेलू chips और AI के कारण उसका मूल्य बहुत बढ़ गया है। मौजूदा अंतरराष्ट्रीय माहौल में HW ऐसी स्थिति में है जहाँ वह market dominance के लिए कुछ भी कर सकती है। इस resignation letter से लगता है कि HW ने आखिरकार पर्याप्त प्रतिभा झोंककर Ascend को कामचलाऊ स्तर तक पहुँचा दिया है, और आगे Nvidia से मुकाबला करने लायक बनाने के लिए भी प्रतिभा लगाती रह सकती है। लेखक ही नहीं, अधिकांश कामकाजी लोगों की सहज धारणा होती है कि कर्मचारियों को उचित मुआवज़ा और अच्छा कार्य वातावरण मिलना चाहिए। लेकिन HW ने पिछले 30 वर्षों में बहुत से तेज़-तर्रार लोगों (देशभक्तों सहित) को बहुत ऊँची तनख्वाह देकर समस्याएँ सुलझाने में झोंक दिया, और लोगों को टूटने की हद तक धकेलते हुए जीत हासिल की है
  • LLM की संरचना कॉपीराइट के साथ बिल्कुल संगत नहीं है। अगर आप पहले ही किसी और का डेटा बिना एक पैसा दिए ट्रेनिंग के लिए इस्तेमाल कर सकते हैं, तो फिर कॉपी भी स्वतंत्र रूप से की जा सकती है—यह तर्क है। अंततः इसे कॉपी करने की वापसी मार जैसा देखा जा रहा है
    • भोले स्तर पर तो यह असंगत है, लेकिन लगता है वकील किसी न किसी तरह इसे कानूनी बनाने का रास्ता निकाल लेंगे
  • पहले map publishers नकली गलियाँ डालते थे ताकि copyright infringement आसानी से पकड़ा जा सके। सोचने वाली बात है कि क्या LLM पर भी ऐसा तरीका लागू किया जा सकता है
    • Malwarebytes में काम करते समय IOBit पर DB चोरी करने का संदेह था। साफ़ सबूत मौजूद थे, लेकिन आम लोगों को भी बात आसानी से समझाने के लिए एक ऐसा नया प्रोग्राम बनाया गया जो केवल एक ही मशीन पर मौजूद था, और उसका signature DB में जोड़ दिया गया। वह प्रोग्राम वास्तव में फैल नहीं सकने वाला non-malicious नमूना था, और जब सामने वाले ने उसे अपनी DB में जोड़ लिया, तो उसे ब्लॉग पर सार्वजनिक किया गया और बड़ा असर हुआ। संबंधित मामला: IOBit चोरी घटना
    • एक प्रसिद्ध तरीका यह भी है कि computer chips में जानबूझकर सूक्ष्म और हानिरहित defect या anomaly डाली जाए। चीन में बने कई उत्पाद TI जैसी दूसरी कंपनियों के reverse engineering परिणाम होते हैं, इसलिए उनमें ऐसे defect मिलते हैं। यहाँ तक कि चीन के भीतर भी कंपनियाँ एक-दूसरे के साथ ऐसा करती हैं। इसे सब लोग लगभग एक जैसा जुगाड़ू शॉर्टकट मानते हैं
    • OML 1.0: Fingerprinting नाम के एक प्रोजेक्ट का उदाहरण देखा गया है। यह LLM स्वामित्व की पहचान और unauthorized उपयोग रोकने के लिए मॉडल में fingerprint डालने का टूल है
    • YouTuber Jay Foreman ने नकली गलियों वाले maps पर वीडियो बनाया था
    • मूल चीनी आरोप-पत्र में यह भी लिखा था: Honestagi के विश्लेषण से यह देखकर आश्चर्य हुआ कि इतना लंबा अतिरिक्त fine-tuning झेलने के बाद भी मॉडल में बहुत अधिक समानता दिखी। इस मॉडल के parameters को "धोने" में जितना compute लगाया गया, वह उसी स्तर का नया मॉडल बनाने के लिए काफ़ी था। एक सहकर्मी के अनुसार, Qwen के watermark को मिटाने के लिए दूषित data से जानबूझकर ट्रेनिंग कराने जैसी कई कोशिशें भी की गईं। यह तरीका आगे चलकर model lineage research के क्षेत्र में अभूतपूर्व उदाहरण के रूप में बचेगा और भविष्य में नई research methodology की जाँच के लिए मिसाल बन सकता है
  • Apple ने Qwen2.5-Coder-7B पर आधारित, लेकिन अपने विचार जोड़कर एक LLM पेश किया। मुख्य बदलाव यह है कि इसे Apple के अपने code examples से custom training दी गई, और temperature बढ़ाने पर यह कई code blocks को क्रम की परवाह किए बिना generate कर सकता है। संबंधित लेख: Apple LLM से जुड़ी खबर HN चर्चा
  • इसे चीनी शैली की efficiency-प्राथमिकता वाला नज़रिया माना गया। राय यह है कि पश्चिम पुराने copyright laws में फँसा हुआ है
  • यह बहुत मानवीय और ईमानदार रिपोर्ट है। इसमें बड़े निगम के भीतर की अव्यवस्था और वह संरचना दिखती है जिसमें प्रबंधन बेईमान टीमों के पक्ष में अधिक दबाव डालता है। लेखक कंपनी छोड़ चुका है, और उसे अच्छा इंसान बताया गया है
    • दरअसल इस रिपोर्ट को हाल में चीन में लगातार सामने आ रहे दूसरे resignation letters के संदर्भ में पढ़ना चाहिए। हाल ही में 15 साल के Alibaba veteran की विदाई पोस्ट ने भी आलोचना की थी कि बड़ी कंपनियों की culture decay ही competitiveness में गिरावट और नए उत्पादों की विफलता का कारण है। रिपोर्ट के मुख्य बिंदु ये हैं: 1. Huawei की क्षमताओं को लेकर राष्ट्रीय स्तर का झूठ 2. भुगतान करने वाले ग्राहकों के प्रति झूठ 3. KPI-आसक्त management system के तहत performance metrics में हेरफेर का व्यावहारिक रूप से सहन या प्रोत्साहित किया जाना (और यही लेखक के आदर्शों व भरोसे के टूटने का केंद्र है)
  • "शनिवार मूल रूप से काम का दिन था, लेकिन कभी-कभी दोपहर की tea time या यहाँ तक कि झींगे का व्यंजन भी मिल जाता था"—इस वाक्य में कुछ काव्यात्मकता महसूस होती है। जिज्ञासा है कि ऐसी स्थिति में crayfish परोसने का कोई विशेष कारण था क्या
    • अनुमान यह है कि "शनिवार को काम होता था, पर कभी-कभी snacks मिल जाते थे, और crayfish शायद उतना ही लोकप्रिय भोजन हो सकता है, या फिर यह अनुवाद की गलती भी हो सकती है"
  • "हम 'चौथी फील्ड आर्मी' प्रोजेक्ट के अधीन हैं, core language LLM चौथी ब्रिगेड है, और Wang Yunhe का small model group 16वीं ब्रिगेड है"—इस संगठनात्मक विवरण को देखकर हैरानी हुई। सवाल है कि क्या यह सचमुच कम्युनिस्ट पार्टी की सेना से जुड़ा संगठन है
    • वास्तविक Fourth Field Army 1955 के बाद अस्तित्व में नहीं रही, इसलिए संभव है कि यह LLM project codename के रूप में इस्तेमाल किया गया नाम हो
    • Huawei की सैन्य-शैली corporate culture का भी ज़िक्र है। नए कर्मचारियों का orientation भी सेना के प्रशिक्षण समापन समारोह जैसा चलाया जाता है। संदर्भ: Huawei की सैन्य शैली संस्कृति
  • असली base model वास्तव में किसने बनाया, इस पर सवाल उठाया गया है
  • अतीत में Huawei Lab का एक सदस्य वास्तव में model training में बाधा डालते हुए पकड़ा गया था और उसे निकाल दिया गया था; कुछ लोगों को शक है कि वही इस आरोप-पत्र का पक्षकार हो सकता है
    • संभवतः यहाँ जिस मामले का ज़िक्र है, वह ByteDance के उस intern का है जिसे AI models में malicious code डालने के कारण निकाल दिया गया था। संबंधित लेख: bytedance-intern-fired