- Pangu Pro MoE ने Huawei Ascend NPU वातावरण के लिए ऑप्टिमाइज़ की गई Mixture of Grouped Experts(MoGE) आर्किटेक्चर को अपनाया है, जो distributed environment में expert-स्तरीय load imbalance की समस्या को प्रभावी ढंग से हल करती है
- यह मॉडल कुल 72 billion parameters के पैमाने पर डिज़ाइन किया गया है, जबकि हर token के लिए सिर्फ 16 billion parameters सक्रिय होते हैं, जिससे compute efficiency और scalability काफी बढ़ती है
- MoGE आर्किटेक्चर अलग-अलग expert groups में समान वितरण और selection rules लागू करके सभी devices पर पूर्ण load balancing हासिल करता है, जिससे inference और training speed बेहतर होती है
- परफॉर्मेंस मूल्यांकन में Pangu Pro MoE ने GLM-Z1-32B, Qwen3-32B जैसे प्रमुख open-source models को पीछे छोड़ा और Ascend 300I Duo/800I A2 प्लेटफ़ॉर्म पर शीर्ष-स्तरीय inference efficiency और cost-to-performance दिखाया
- pre-training, fine-tuning और reinforcement learning के जरिए इसने उच्च-गुणवत्ता वाले datasets के आधार पर विभिन्न domains में मजबूत reasoning और generalization क्षमता हासिल की
अवलोकन
- हाल के बड़े language models (LLM) में Mixture of Experts(MoE) तरीका अपनाने का चलन बढ़ा है, जिससे compute cost बढ़ाए बिना model parameters और training capacity बढ़ाई जा सकती है
- MoE संरचना हर input token के लिए केवल कुछ experts को सक्रिय करके computation घटाती है, लेकिन व्यवहार में कुछ experts बार-बार चुने जाते हैं, जिससे expert load imbalance की समस्या पैदा होती है
- यह समस्या तब पूरे system की efficiency घटा देती है जब मॉडल कई devices में distributed हो
- मौजूदा load-balancing heuristic techniques केवल आंशिक सुधार देती हैं और यह कोई मूलभूत समाधान नहीं हैं
Mixture of Grouped Experts(MoGE) आर्किटेक्चर परिचय
- MoGE experts को एक समान आकार के groups में बाँटता है, और हर token के लिए हर group से तय संख्या में experts को अनिवार्य रूप से सक्रिय करने वाली group-balanced routing strategy लागू करता है
- इससे काम सभी devices में समान रूप से बाँटा जाता है, और Imbalance Score(IS) को डिज़ाइन के स्तर पर 0 रखा जाता है, यानी हमेशा पूर्ण load balance मिलता है
- हर token के लिए सभी experts के शुरुआती scores को global Softmax router से निकाला जाता है, फिर हर group से केवल Top-K′ experts चुने जाते हैं, और न चुने गए experts के scores 0 हो जाते हैं
- यह संरचना खासकर distributed environment में बड़े models (दसियों से सैकड़ों billion parameters) के लिए inference/training speed और resource utilization को अधिकतम करती है
Pangu Pro MoE मॉडल और Ascend प्लेटफ़ॉर्म ऑप्टिमाइज़ेशन
- Huawei ने Ascend 300I Duo, 800I A2 NPU प्लेटफ़ॉर्म के लिए ऑप्टिमाइज़ किया गया Pangu Pro MoE (कुल 71.9 billion parameters, प्रति token 16.5 billion active) विकसित किया
- व्यापक system simulation के आधार पर model structure और hardware(HW) parallelization configuration जैसे tensor/expert/pipeline/virtual pipeline parallelism सहित विभिन्न hardware parameters को ट्यून कर performance अधिकतम की गई
- custom operation kernels (
MulAttention, SwiftGMM आदि) को Ascend की विशेषताओं के अनुसार ऑप्टिमाइज़ किया गया, जिससे memory access, communication और computation overhead कम हुआ, operator bottlenecks हटे और bandwidth utilization बेहतर हुआ
- batch size और performance optimization simulations के परिणामों में इसने constraints के भीतर सर्वोत्तम Throughput, न्यूनतम Latency और बेहतर communication efficiency दिखाई
pre-training और training data डिज़ाइन
डेटा संरचना
- proprietary tokenizer के आधार पर 1.3 quadrillion (13 trillion) tokens वाला बड़ा high-quality dataset बनाया गया, जिसे web, books, code, STEM, industry, reasoning और synthetic data जैसे कई sources से एकत्र किया गया
- tokenizer ने domain balance पर ज़ोर देने वाली strategy अपनाई, जिससे specialized domains तक का प्रतिनिधित्व सुनिश्चित हुआ
training चरण और रणनीति
- Pre-training तीन चरणों (general, reasoning, annealing) में किया गया, और हर चरण में training target और data curriculum को समायोजित किया गया
- general चरण: अलग-अलग क्षेत्रों का सामान्य ज्ञान और language ability सीखना
- reasoning चरण: STEM, coding और complex logic problems जैसे data का अनुपात अधिकतम करना
- annealing चरण: high-difficulty data और instruction-style data से अतिरिक्त tuning
- हर चरण में sequence length, data difficulty, batch size, learning rate आदि को धीरे-धीरे समायोजित करके model की generalization और specialization क्षमता बढ़ाई गई
डेटा मूल्यांकन
- Pangu की अपनी series models का उपयोग करके model-based multi-domain evaluation system चलाया गया, जो हर dataset को cleanliness, fluency, educational value और richness जैसे scores देता है, और इन्हें data sampling तथा selection strategy में शामिल किया जाता है
- कुल 188 categories के लिए सूक्ष्म labeling की गई, ताकि data distribution और characteristics को नियंत्रित किया जा सके
pre-training environment और optimization
- Pangu Pro MoE को Huawei Ascend 800T A2 पर train और evaluate किया गया; यह chip FP16 256TFlops, INT8 512TOPS efficiency और 310W की ultra-low power के साथ उच्च AI performance और cost efficiency देती है
- single-epoch training, AdamW optimizer, 3-stage cosine learning-rate schedule, large-batch configuration जैसी सेटिंग्स के जरिए मजबूत generalization और target tasks के लिए specialization हासिल की गई
post-training (आगे की fine-tuning और reinforcement learning)
Supervised Fine-tuning(SFT)
- SFT data को 'reasoning' और 'non-reasoning' दो sets में बाँटा गया, और reasoning का अनुपात 3:1 रखा गया, ताकि math/code/logical reasoning जैसे complex tasks पर फोकस किया जा सके
- 2-stage progressive optimization strategy (सरल निर्देशों से जटिल reasoning तक) के जरिए model की step-by-step reasoning और सामान्य language processing क्षमता का संतुलित विकास किया गया
- SFT के दौरान checkpoint merging strategy भी जोड़ी गई, जिससे अलग-अलग चरणों के मध्यवर्ती models को प्रभावी रूप से मिलाकर robustness और generalization बढ़ाई गई
reinforcement learning(RL)
- reward-based RL चरण में Group Relative Policy Optimization(GRPO) algorithm और reward signal न होने वाले samples को अनदेखा करने वाली Zero-Advantage-Mask technique को साथ लागू किया गया, जिससे policy exploration और effective learning को समर्थन मिला
- accuracy, preference, auxiliary reward जैसी multi-layer reward system अपनाई गई; math और coding tasks के लिए automated evaluation system, और open-domain tasks के लिए अलग LLM-based judge (Preference Model) का उपयोग किया गया
- curriculum data mixing के जरिए data complexity distribution को dynamically समायोजित किया गया, जिससे model growth को लगातार प्रोत्साहन मिला
system और infrastructure optimization
Ascend NPU training system
- Hierarchical & Hybrid Parallelism strategy, EP All-to-All communication, Adaptive Pipeline Overlap, operator fusion जैसी उन्नत तकनीकों का सक्रिय उपयोग किया गया
- model FLOPs utilization(MFU) में 35% सुधार और pipeline/virtual pipeline parallelism के जरिए चरण-दर-चरण computation व communication load को संतुलित कर scalability और throughput दोनों को मजबूत किया गया
- custom kernels, HBM bandwidth utilization को अधिकतम करना, अनावश्यक communication और memory overhead हटाना जैसे उपायों से model training और inference के हर चरण में performance को अधिकतम किया गया
- inference system ने भी Attention, Expert आदि modules के लिए flexible parallel configuration(H2P strategy) और custom operator optimization के जरिए hardware structure के अनुसार सर्वोत्तम Throughput और Latency हासिल की
प्रदर्शन और benchmark
- Pangu Pro MoE ने Ascend environment में 1148~1528 token/s(प्रति कार्ड)* की inference performance दिखाई, जो समान parameter वर्ग के open dense 32B, 72B models की तुलना में बहुत मजबूत परिणाम है
- cost-to-performance के मामले में भी Ascend 300I Duo आधारित सेटअप पर उत्कृष्ट efficiency हासिल की गई
- विभिन्न external benchmarks (decision-making, logic, coding, document understanding आदि) में इसने GLM-Z1-32B, Qwen3-32B, Gemma3-27B जैसे बड़े public models से बेहतर performance दी
- प्रयोगों से यह sub-100B parameter class में शीर्ष-स्तरीय LLM साबित हुआ
निष्कर्ष और संकेत
- Pangu Pro MoE बड़े distributed model training/inference में expert-group balancing design के जरिए load imbalance समस्या को मूल स्तर पर हल करता है
- Ascend-विशिष्ट platform optimization और data quality maximization जैसे व्यापक प्रयासों के जरिए इसने cost, speed और generalization performance का उच्च-स्तरीय संतुलन हासिल किया है
- यह architecture और methodology आगे बड़े distributed LLM ecosystem और विभिन्न industrial applications के लिए महत्वपूर्ण संदर्भ और benchmark बन सकते हैं
1 टिप्पणियां
Hacker News की राय
इस आर्किटेक्चर घोषणा को लेकर असली उत्साह की वजह यह है कि सस्ते GPU के साथ छोटे डेवलपर्स भी बड़ी कंपनियों से मुकाबला कर सकते हैं। आखिरकार यह संकेत देता है कि crowdsourcing आधारित open AI development तकनीकी रूप से संभव हो सकता है। वास्तव में चीन इस पर रिसर्च कर रहा है और monolithic models के बराबर प्रतिस्पर्धी स्तर हासिल करने का लक्ष्य रखता है। अमेरिका के sanctions को लेकर शुरुआत में संदेह था, लेकिन अगर यह तार्किक रूप से पूरी तरह संभव हो जाता है तो यह सच में बड़ी उपलब्धि होगी
लाइसेंस EU के भीतर उपयोग और इंस्टॉलेशन पर रोक लगाता है, इसलिए जिज्ञासा है कि क्या ऐसा लाइसेंस लिखा जा सकता है जिसमें कहा जाए, "यह प्रतिबंध केवल सुरक्षा के लिए है, वास्तव में इसे लागू नहीं किया जाएगा।" शायद ऐसे शब्दों को ‘isolating clause’ कहा जा सकता है, लेकिन यक़ीन नहीं कि कोई न्यायाधीश इसे कानूनी workaround मानेगा। यह कुछ-कुछ वैसा ही संदर्भ लगता है जैसा Meta ने llama weights जारी करते समय किया था। मेरा मानना है कि European AI Act का मूल उद्देश्य AI के ठोस उपयोगों को नियंत्रित करना है, और केवल weights व architecture का वितरण शायद इसमें शामिल न हो। वितरण पर रोक वास्तव में यूरोपियों को ज़्यादा विकल्प और प्रतिस्पर्धा देने के बजाय उलटा असर डालेगी, इसलिए जिज्ञासा है कि क्या यह सचमुच कानूनी रूप से प्रतिबंधित है। दूसरी ओर, open weights इंस्टॉल करने पर backdoor जैसी सुरक्षा समस्या भी हो सकती है, यानी ऐसी vulnerability जिसमें कुछ खास prompts के ज़रिए सिस्टम को manipulate किया जा सके। मुझे याद है कि एक संबंधित paper में '0?,#2!' जैसे symbols के संयोजन से LLM को ऐसी स्थिति में ले जाने का उदाहरण था जहाँ कोई उसकी छिपी जानकारी पढ़ सकता था, यानी prompt injection। यह भी जानना है कि क्या ऐसे हमलों को fine-tuning या Lora से रोका या कमज़ोर किया जा सकता है, या defense के लिए कोई उपयोगी Python library है। सवाल यह है कि डाउनलोड करके, इंस्टॉल करके, फिर fine-tuning या LoRA से संशोधित करने पर क्या सुरक्षा मिल सकती है
weights gitcode से मिल सकते हैं
अगर मौजूदा LLM scalability की सीमा, यानी scaling wall, से टकरा रहे हैं और आगे efficiency ही असली प्रतिस्पर्धा का क्षेत्र बनने वाली है, तो क्या specific use cases पर केंद्रित छोटे models का बाज़ार बनेगा? उदाहरण के लिए, Gemini के साथ images से structured data निकालने में flash model बहुत प्रभावी है। जिज्ञासा है कि NUC और AMD APU जैसे छोटे devices पर सिर्फ़ खास काम के लिए उपयोगी lightweight models बनाने में कितना प्रयास लगेगा। या फिर specific use cases के लिए mini external GPU stick जैसे devices आने की संभावना भी दिलचस्प है। व्यावसायिक रूप से यह बहुत बड़ा बाज़ार न भी हो, फिर भी काफ़ी शानदार होगा
मेरा मानना है कि sanctions सिर्फ़ अस्थायी उपाय हैं। आदर्श रूप से उनका मकसद घरेलू क्षमता निर्माण के लिए समय खरीदना होता है, लेकिन उलटा अमेरिका के भीतर research funding cuts और विदेशी students व researchers के प्रवेश पर रोक से अमेरिकी क्षमता कमज़ोर होगी, जबकि चीन growth trajectory पर चढ़ जाएगा
यह खबर कुछ दिनों पुरानी है। Tencent के hybrid AI model को open source करने की खबर के लिए TechInAsia देखें, और GitHub लिंक भी साझा किया गया
Sic transit gloria nvidii (Nvidia की महिमा भी यूँ ही क्षणभंगुर है)
मेरा एक चीनी दोस्त है। वह 6 साल पहले चीन की एक HW startup में founding engineer के रूप में शामिल हुआ था। फिर sanctions आ गए। हाल की मुलाक़ात में उसने कहा कि sanctions उसकी ज़िंदगी की सबसे अच्छी घटना थी। चीन की स्थानीय कंपनियों ने पश्चिमी देशों से आने वाले products ख़रीदना लगभग बंद कर दिया, और उसकी कंपनी बहुत बढ़ी। अब sanctions को सभी ‘स्वाभाविक’ मानते हैं, इसलिए नतीजा सिर्फ़ self-reliance और growth पर फ़ोकस है
sanctions के बाद इसका मतलब क्या है, यह जानने की जिज्ञासा है। Huawei smartphones को sanctions से बड़ा झटका लगा था, तो क्या अब अपनी GPU के ज़रिए Huawei वापसी का मौका पा रहा है? ऐसे GPU का performance पश्चिम के नवीनतम GPU से तुलना में कैसा है? क्या अब इसका मतलब है कि Huawei के पास इस GPU को commercialize करने की क्षमता भी है
TSMC और Nvidia के मुक़ाबले, node size के स्तर पर Huawei और चीन के बीच प्रतिस्पर्धा बनना दुनिया के लिए ज़रूरी है