Huawei ने Ascend GPU पर प्रशिक्षित open-weight मॉडल जारी किया

(arxiv.org)

2 पॉइंट द्वारा GN⁺ 2025-07-03 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Pangu Pro MoE ने Huawei Ascend NPU वातावरण के लिए ऑप्टिमाइज़ की गई Mixture of Grouped Experts(MoGE) आर्किटेक्चर को अपनाया है, जो distributed environment में expert-स्तरीय load imbalance की समस्या को प्रभावी ढंग से हल करती है
यह मॉडल कुल 72 billion parameters के पैमाने पर डिज़ाइन किया गया है, जबकि हर token के लिए सिर्फ 16 billion parameters सक्रिय होते हैं, जिससे compute efficiency और scalability काफी बढ़ती है
MoGE आर्किटेक्चर अलग-अलग expert groups में समान वितरण और selection rules लागू करके सभी devices पर पूर्ण load balancing हासिल करता है, जिससे inference और training speed बेहतर होती है
परफॉर्मेंस मूल्यांकन में Pangu Pro MoE ने GLM-Z1-32B, Qwen3-32B जैसे प्रमुख open-source models को पीछे छोड़ा और Ascend 300I Duo/800I A2 प्लेटफ़ॉर्म पर शीर्ष-स्तरीय inference efficiency और cost-to-performance दिखाया
pre-training, fine-tuning और reinforcement learning के जरिए इसने उच्च-गुणवत्ता वाले datasets के आधार पर विभिन्न domains में मजबूत reasoning और generalization क्षमता हासिल की

अवलोकन

हाल के बड़े language models (LLM) में Mixture of Experts(MoE) तरीका अपनाने का चलन बढ़ा है, जिससे compute cost बढ़ाए बिना model parameters और training capacity बढ़ाई जा सकती है
MoE संरचना हर input token के लिए केवल कुछ experts को सक्रिय करके computation घटाती है, लेकिन व्यवहार में कुछ experts बार-बार चुने जाते हैं, जिससे expert load imbalance की समस्या पैदा होती है
यह समस्या तब पूरे system की efficiency घटा देती है जब मॉडल कई devices में distributed हो
मौजूदा load-balancing heuristic techniques केवल आंशिक सुधार देती हैं और यह कोई मूलभूत समाधान नहीं हैं

Mixture of Grouped Experts(MoGE) आर्किटेक्चर परिचय

MoGE experts को एक समान आकार के groups में बाँटता है, और हर token के लिए हर group से तय संख्या में experts को अनिवार्य रूप से सक्रिय करने वाली group-balanced routing strategy लागू करता है
इससे काम सभी devices में समान रूप से बाँटा जाता है, और Imbalance Score(IS) को डिज़ाइन के स्तर पर 0 रखा जाता है, यानी हमेशा पूर्ण load balance मिलता है
हर token के लिए सभी experts के शुरुआती scores को global Softmax router से निकाला जाता है, फिर हर group से केवल Top-K′ experts चुने जाते हैं, और न चुने गए experts के scores 0 हो जाते हैं
यह संरचना खासकर distributed environment में बड़े models (दसियों से सैकड़ों billion parameters) के लिए inference/training speed और resource utilization को अधिकतम करती है

Pangu Pro MoE मॉडल और Ascend प्लेटफ़ॉर्म ऑप्टिमाइज़ेशन

Huawei ने Ascend 300I Duo, 800I A2 NPU प्लेटफ़ॉर्म के लिए ऑप्टिमाइज़ किया गया Pangu Pro MoE (कुल 71.9 billion parameters, प्रति token 16.5 billion active) विकसित किया
व्यापक system simulation के आधार पर model structure और hardware(HW) parallelization configuration जैसे tensor/expert/pipeline/virtual pipeline parallelism सहित विभिन्न hardware parameters को ट्यून कर performance अधिकतम की गई
custom operation kernels (MulAttention, SwiftGMM आदि) को Ascend की विशेषताओं के अनुसार ऑप्टिमाइज़ किया गया, जिससे memory access, communication और computation overhead कम हुआ, operator bottlenecks हटे और bandwidth utilization बेहतर हुआ
batch size और performance optimization simulations के परिणामों में इसने constraints के भीतर सर्वोत्तम Throughput, न्यूनतम Latency और बेहतर communication efficiency दिखाई

pre-training और training data डिज़ाइन

डेटा संरचना

proprietary tokenizer के आधार पर 1.3 quadrillion (13 trillion) tokens वाला बड़ा high-quality dataset बनाया गया, जिसे web, books, code, STEM, industry, reasoning और synthetic data जैसे कई sources से एकत्र किया गया
tokenizer ने domain balance पर ज़ोर देने वाली strategy अपनाई, जिससे specialized domains तक का प्रतिनिधित्व सुनिश्चित हुआ

training चरण और रणनीति

Pre-training तीन चरणों (general, reasoning, annealing) में किया गया, और हर चरण में training target और data curriculum को समायोजित किया गया
- general चरण: अलग-अलग क्षेत्रों का सामान्य ज्ञान और language ability सीखना
- reasoning चरण: STEM, coding और complex logic problems जैसे data का अनुपात अधिकतम करना
- annealing चरण: high-difficulty data और instruction-style data से अतिरिक्त tuning
हर चरण में sequence length, data difficulty, batch size, learning rate आदि को धीरे-धीरे समायोजित करके model की generalization और specialization क्षमता बढ़ाई गई

डेटा मूल्यांकन

Pangu की अपनी series models का उपयोग करके model-based multi-domain evaluation system चलाया गया, जो हर dataset को cleanliness, fluency, educational value और richness जैसे scores देता है, और इन्हें data sampling तथा selection strategy में शामिल किया जाता है
कुल 188 categories के लिए सूक्ष्म labeling की गई, ताकि data distribution और characteristics को नियंत्रित किया जा सके

pre-training environment और optimization

Pangu Pro MoE को Huawei Ascend 800T A2 पर train और evaluate किया गया; यह chip FP16 256TFlops, INT8 512TOPS efficiency और 310W की ultra-low power के साथ उच्च AI performance और cost efficiency देती है
single-epoch training, AdamW optimizer, 3-stage cosine learning-rate schedule, large-batch configuration जैसी सेटिंग्स के जरिए मजबूत generalization और target tasks के लिए specialization हासिल की गई

post-training (आगे की fine-tuning और reinforcement learning)

Supervised Fine-tuning(SFT)

SFT data को 'reasoning' और 'non-reasoning' दो sets में बाँटा गया, और reasoning का अनुपात 3:1 रखा गया, ताकि math/code/logical reasoning जैसे complex tasks पर फोकस किया जा सके
2-stage progressive optimization strategy (सरल निर्देशों से जटिल reasoning तक) के जरिए model की step-by-step reasoning और सामान्य language processing क्षमता का संतुलित विकास किया गया
SFT के दौरान checkpoint merging strategy भी जोड़ी गई, जिससे अलग-अलग चरणों के मध्यवर्ती models को प्रभावी रूप से मिलाकर robustness और generalization बढ़ाई गई

reinforcement learning(RL)

reward-based RL चरण में Group Relative Policy Optimization(GRPO) algorithm और reward signal न होने वाले samples को अनदेखा करने वाली Zero-Advantage-Mask technique को साथ लागू किया गया, जिससे policy exploration और effective learning को समर्थन मिला
accuracy, preference, auxiliary reward जैसी multi-layer reward system अपनाई गई; math और coding tasks के लिए automated evaluation system, और open-domain tasks के लिए अलग LLM-based judge (Preference Model) का उपयोग किया गया
curriculum data mixing के जरिए data complexity distribution को dynamically समायोजित किया गया, जिससे model growth को लगातार प्रोत्साहन मिला

system और infrastructure optimization

Ascend NPU training system

Hierarchical & Hybrid Parallelism strategy, EP All-to-All communication, Adaptive Pipeline Overlap, operator fusion जैसी उन्नत तकनीकों का सक्रिय उपयोग किया गया
model FLOPs utilization(MFU) में 35% सुधार और pipeline/virtual pipeline parallelism के जरिए चरण-दर-चरण computation व communication load को संतुलित कर scalability और throughput दोनों को मजबूत किया गया
custom kernels, HBM bandwidth utilization को अधिकतम करना, अनावश्यक communication और memory overhead हटाना जैसे उपायों से model training और inference के हर चरण में performance को अधिकतम किया गया
inference system ने भी Attention, Expert आदि modules के लिए flexible parallel configuration(H2P strategy) और custom operator optimization के जरिए hardware structure के अनुसार सर्वोत्तम Throughput और Latency हासिल की

प्रदर्शन और benchmark

Pangu Pro MoE ने Ascend environment में 1148~1528 token/s(प्रति कार्ड)* की inference performance दिखाई, जो समान parameter वर्ग के open dense 32B, 72B models की तुलना में बहुत मजबूत परिणाम है
cost-to-performance के मामले में भी Ascend 300I Duo आधारित सेटअप पर उत्कृष्ट efficiency हासिल की गई
विभिन्न external benchmarks (decision-making, logic, coding, document understanding आदि) में इसने GLM-Z1-32B, Qwen3-32B, Gemma3-27B जैसे बड़े public models से बेहतर performance दी
प्रयोगों से यह sub-100B parameter class में शीर्ष-स्तरीय LLM साबित हुआ

निष्कर्ष और संकेत

Pangu Pro MoE बड़े distributed model training/inference में expert-group balancing design के जरिए load imbalance समस्या को मूल स्तर पर हल करता है
Ascend-विशिष्ट platform optimization और data quality maximization जैसे व्यापक प्रयासों के जरिए इसने cost, speed और generalization performance का उच्च-स्तरीय संतुलन हासिल किया है
यह architecture और methodology आगे बड़े distributed LLM ecosystem और विभिन्न industrial applications के लिए महत्वपूर्ण संदर्भ और benchmark बन सकते हैं

1 टिप्पणियां

GN⁺ 2025-07-03

Hacker News की राय

इस आर्किटेक्चर घोषणा को लेकर असली उत्साह की वजह यह है कि सस्ते GPU के साथ छोटे डेवलपर्स भी बड़ी कंपनियों से मुकाबला कर सकते हैं। आखिरकार यह संकेत देता है कि crowdsourcing आधारित open AI development तकनीकी रूप से संभव हो सकता है। वास्तव में चीन इस पर रिसर्च कर रहा है और monolithic models के बराबर प्रतिस्पर्धी स्तर हासिल करने का लक्ष्य रखता है। अमेरिका के sanctions को लेकर शुरुआत में संदेह था, लेकिन अगर यह तार्किक रूप से पूरी तरह संभव हो जाता है तो यह सच में बड़ी उपलब्धि होगी
- मेरा मानना है कि sanctions (बिना व्यंग्य के) कई मायनों में दुनिया को बेहतर दिशा में ले जा सकते हैं। जैसे computing diversification, manufacturing decentralization आदि कई सुधारों को बढ़ावा देना
- Deepseek-R1 पहले ही GPT 4.1 के काफ़ी समान स्तर पर है। यह open-weight, open-source रूप में उपलब्ध है, और inference code भी open source के रूप में जारी किया गया है
- SETI@Home जैसी peer-to-peer open GPU training network में मेरी भी दिलचस्पी है
- crowdsourcing open AI तकनीकी रूप से संभव है या नहीं, इस सवाल के जवाब में पहले से संभव होने के उदाहरण के रूप में PrimeIntellect.ai का Intellect-2 लिंक साझा किया गया
- यह दिलचस्प प्रगति लगती है। लेकिन यह अच्छी बात है या नहीं, यह इस पर निर्भर करता है कि AI technology मानव अस्तित्व के लिए existential threat बनती है या नहीं। यह बढ़ा-चढ़ाकर कहा हुआ लग सकता है, लेकिन इस पर बहुत गंभीरता से सोचने वाले लोग वास्तव में काफ़ी हैं
लाइसेंस EU के भीतर उपयोग और इंस्टॉलेशन पर रोक लगाता है, इसलिए जिज्ञासा है कि क्या ऐसा लाइसेंस लिखा जा सकता है जिसमें कहा जाए, "यह प्रतिबंध केवल सुरक्षा के लिए है, वास्तव में इसे लागू नहीं किया जाएगा।" शायद ऐसे शब्दों को ‘isolating clause’ कहा जा सकता है, लेकिन यक़ीन नहीं कि कोई न्यायाधीश इसे कानूनी workaround मानेगा। यह कुछ-कुछ वैसा ही संदर्भ लगता है जैसा Meta ने llama weights जारी करते समय किया था। मेरा मानना है कि European AI Act का मूल उद्देश्य AI के ठोस उपयोगों को नियंत्रित करना है, और केवल weights व architecture का वितरण शायद इसमें शामिल न हो। वितरण पर रोक वास्तव में यूरोपियों को ज़्यादा विकल्प और प्रतिस्पर्धा देने के बजाय उलटा असर डालेगी, इसलिए जिज्ञासा है कि क्या यह सचमुच कानूनी रूप से प्रतिबंधित है। दूसरी ओर, open weights इंस्टॉल करने पर backdoor जैसी सुरक्षा समस्या भी हो सकती है, यानी ऐसी vulnerability जिसमें कुछ खास prompts के ज़रिए सिस्टम को manipulate किया जा सके। मुझे याद है कि एक संबंधित paper में '0?,#2!' जैसे symbols के संयोजन से LLM को ऐसी स्थिति में ले जाने का उदाहरण था जहाँ कोई उसकी छिपी जानकारी पढ़ सकता था, यानी prompt injection। यह भी जानना है कि क्या ऐसे हमलों को fine-tuning या Lora से रोका या कमज़ोर किया जा सकता है, या defense के लिए कोई उपयोगी Python library है। सवाल यह है कि डाउनलोड करके, इंस्टॉल करके, फिर fine-tuning या LoRA से संशोधित करने पर क्या सुरक्षा मिल सकती है
- Huawei को EU नागरिकों के व्यवहार को नियंत्रित करने का अधिकार नहीं है, और वास्तव में ऐसी पाबंदी डालने की ज़रूरत भी नहीं थी। EU नागरिक के रूप में क़ानून को खुद समझना और जोखिम भरे models से बचना ही आत्म-सुरक्षा का रास्ता है
- सुरक्षा के लिहाज़ से LLM द्वारा बनाया गया कोई भी code कभी भरोसे के लायक नहीं मानना चाहिए; उसकी समीक्षा ज़रूर होनी चाहिए
- ‘isolating clause’ जैसी शर्त के उदाहरण के तौर पर Alliance for Open Media के codec license का ज़िक्र किया गया। वह codec royalty-free है, लेकिन license terms के अनुसार अगर कोई format के उपयोग को लेकर कानूनी मुक़दमा करता है, तो उसका उपयोग अधिकार वापस लिया जा सकता है
weights gitcode से मिल सकते हैं
- लेकिन license के अनुसार EU के भीतर access, download, install, run, distribute, integrate, modify और अन्य सभी उपयोग स्पष्ट रूप से रोके गए हैं। संबंधित license लिंक यहाँ है
- ‘open source’ शब्द की जगह ‘open weight’ जैसी अधिक सटीक अभिव्यक्ति का उपयोग अच्छा लगा। लेकिन सवाल है कि open weight वास्तव में कितना दिलचस्प है। क्या इससे model के bias (या bias न होने) को समझा जा सकता है? क्या इसका उपयोग प्रतिस्पर्धी models को train करने में हो सकता है? open source और open weight के अंतर, फ़ायदे-नुकसान को समझना चाहता हूँ, और LLM युग में ‘weights ही source हैं’ यह बात कितनी सही है, यह भी सीखना चाहता हूँ
अगर मौजूदा LLM scalability की सीमा, यानी scaling wall, से टकरा रहे हैं और आगे efficiency ही असली प्रतिस्पर्धा का क्षेत्र बनने वाली है, तो क्या specific use cases पर केंद्रित छोटे models का बाज़ार बनेगा? उदाहरण के लिए, Gemini के साथ images से structured data निकालने में flash model बहुत प्रभावी है। जिज्ञासा है कि NUC और AMD APU जैसे छोटे devices पर सिर्फ़ खास काम के लिए उपयोगी lightweight models बनाने में कितना प्रयास लगेगा। या फिर specific use cases के लिए mini external GPU stick जैसे devices आने की संभावना भी दिलचस्प है। व्यावसायिक रूप से यह बहुत बड़ा बाज़ार न भी हो, फिर भी काफ़ी शानदार होगा
- 'specific use cases पर केंद्रित छोटे models' का विषय HN पर पहले से महत्वपूर्ण चर्चा का मुद्दा है: "Small language models are the future of agentic AI"
- named entity extraction के लिए model खोजते समय dslim/bert-base-NER model के बारे में पता चला। इसमें 108 million parameters हैं
- इस दिशा को पहले से ही ‘model distillation’ कहा जाता है, जहाँ बड़ा LLM labels बनाता है और dedicated छोटा model 1000 गुना सस्ते inference के साथ काम करता है
- इससे वह दौर याद आता है जब लोग USB port में ASIC लगाकर Bitcoin mining किया करते थे
मेरा मानना है कि sanctions सिर्फ़ अस्थायी उपाय हैं। आदर्श रूप से उनका मकसद घरेलू क्षमता निर्माण के लिए समय खरीदना होता है, लेकिन उलटा अमेरिका के भीतर research funding cuts और विदेशी students व researchers के प्रवेश पर रोक से अमेरिकी क्षमता कमज़ोर होगी, जबकि चीन growth trajectory पर चढ़ जाएगा
यह खबर कुछ दिनों पुरानी है। Tencent के hybrid AI model को open source करने की खबर के लिए TechInAsia देखें, और GitHub लिंक भी साझा किया गया
Sic transit gloria nvidii (Nvidia की महिमा भी यूँ ही क्षणभंगुर है)
- भाषावैज्ञानिक पृष्ठभूमि के हिसाब से: 'invidia' लैटिन में ‘ईर्ष्या’ का अर्थ देता है
- 5 साल की लैटिन पढ़ाई आज काम आई
- एक छोटी सुधार: singular genitive nvidiae होना चाहिए। i, o-declension ending है
- Sic transit gloria nvidiae ही सही रूप है
- आज पढ़ी गई चीज़ों में यह सबसे बढ़िया थी, ब्रावो
मेरा एक चीनी दोस्त है। वह 6 साल पहले चीन की एक HW startup में founding engineer के रूप में शामिल हुआ था। फिर sanctions आ गए। हाल की मुलाक़ात में उसने कहा कि sanctions उसकी ज़िंदगी की सबसे अच्छी घटना थी। चीन की स्थानीय कंपनियों ने पश्चिमी देशों से आने वाले products ख़रीदना लगभग बंद कर दिया, और उसकी कंपनी बहुत बढ़ी। अब sanctions को सभी ‘स्वाभाविक’ मानते हैं, इसलिए नतीजा सिर्फ़ self-reliance और growth पर फ़ोकस है
- उद्योग के हिसाब से प्रभाव अलग-अलग हैं। sanctions से पहले, छोटे EDA software vendors, Synopsys जैसी बड़ी EDA कंपनियों के मुक़ाबले बहुत बड़े technology gap के बावजूद मुश्किल से टिके हुए थे। अब risk avoidance की मांग के कारण उन्हें बड़ी संख्या में नए ग्राहक मिल रहे हैं। इसे ‘hormesis’ कहा जाता है
sanctions के बाद इसका मतलब क्या है, यह जानने की जिज्ञासा है। Huawei smartphones को sanctions से बड़ा झटका लगा था, तो क्या अब अपनी GPU के ज़रिए Huawei वापसी का मौका पा रहा है? ऐसे GPU का performance पश्चिम के नवीनतम GPU से तुलना में कैसा है? क्या अब इसका मतलब है कि Huawei के पास इस GPU को commercialize करने की क्षमता भी है
- Huawei सोचे से कहीं ज़्यादा विशाल कंपनी है। यह सिर्फ़ 5G base stations ही नहीं, बल्कि phones, electric vehicles और कई क्षेत्रों में बहुत बड़ी है
- “वापसी का मौका” वाली बात पर, Huawei के smartphone sales चीन में पहले ही Apple को पीछे छोड़ चुके हैं। विस्तृत market share data लिंक
- hardware के लिहाज़ से Huawei पूरी तरह प्रतिस्पर्धी phones बना सकता है। लेकिन Google Play Store के बिना लोगों को इसे खरीदने का तर्क समझाना कठिन है
- Huawei की समग्र स्थिति समझाने वाला YouTube वीडियो लिंक देखने की सिफ़ारिश की गई
TSMC और Nvidia के मुक़ाबले, node size के स्तर पर Huawei और चीन के बीच प्रतिस्पर्धा बनना दुनिया के लिए ज़रूरी है
- अगर geopolitics को अलग रख दें तो यह बहुत अच्छा scenario है। लेकिन AI technology दोधारी तलवार है, और consumer क्षेत्र की प्रतिस्पर्धा जल्दी ही arms race में बदल सकती है। चीन की manufacturing capacity, labor cost आदि को देखते हुए अंततः चीन के जीतने की संभावना ज़्यादा है। हालाँकि, इसे संभव बनाने के लिए पहले ASML की समानांतर उत्पादन क्षमता चाहिए, जो निकट भविष्य में यथार्थवादी नहीं लगती
- अगर अमेरिका chip export controls हटा भी दे, तो भी ऐसा लगता है कि चीन सरकार उलटे import restrictions लगा सकती है। Nvidia/TSMC/Apple/Google के सामने वास्तविक competitor खड़ा करने से जो लाभ मिलेगा, वह कहीं अधिक बड़ा है

Huawei ने Ascend GPU पर प्रशिक्षित open-weight मॉडल जारी किया

अवलोकन

Mixture of Grouped Experts(MoGE) आर्किटेक्चर परिचय

Pangu Pro MoE मॉडल और Ascend प्लेटफ़ॉर्म ऑप्टिमाइज़ेशन

pre-training और training data डिज़ाइन

डेटा संरचना

training चरण और रणनीति

डेटा मूल्यांकन

pre-training environment और optimization

post-training (आगे की fine-tuning और reinforcement learning)

Supervised Fine-tuning(SFT)

reinforcement learning(RL)

system और infrastructure optimization

Ascend NPU training system

प्रदर्शन और benchmark

निष्कर्ष और संकेत

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय