Mixture of Experts(MoE) क्या है — DeepSeek 1.6 ट्रिलियन parameters होने के बावजूद सस्ता कैसे चलता है
(app-place-tech.com)Mixture of Experts(MoE) क्या है — DeepSeek 1.6 ट्रिलियन parameters होने के बावजूद सस्ता कैसे चलता है
यह MoE आर्किटेक्चर के ज़रिए समझाता है कि DeepSeek V4, 1.6 ट्रिलियन parameters होने के बावजूद GPT-5.5 की कीमत के 10वें हिस्से पर सेवा क्यों दे सकता है।
MoE कई expert submodels और यह तय करने वाले router (gating network) से मिलकर बना होता है कि किस expert का उपयोग किया जाए। इसकी मुख्य बात यह है कि हर token पर पूरे parameters में से केवल कुछ हिस्से को चुनिंदा रूप से सक्रिय किया जाता है। पारंपरिक dense model में input कुछ भी हो, सभी parameters गणना में भाग लेते हैं, लेकिन MoE में router सबसे उपयुक्त कुछ experts चुनकर ही प्रोसेस करता है।
DeepSeek V4-Pro के आधार पर, कुल 1.6 ट्रिलियन parameters में से प्रति token केवल 49 बिलियन (लगभग 3%) ही सक्रिय होते हैं। यानी 1.6 ट्रिलियन स्तर का ज्ञान रखते हुए भी वास्तविक inference cost लगभग 49 बिलियन स्तर के model जैसी रहती है। सामान्यतः MoE, समान आकार के dense model की तुलना में price-performance को 3–5 गुना बेहतर बनाता है।
इसके कुछ नुकसान भी हैं। गणना sparse तरीके से होती है, लेकिन सभी experts के parameters को memory में लोड रखना पड़ता है, इसलिए VRAM की आवश्यकता अधिक होती है। साथ ही training के दौरान कुछ खास experts पर लोड केंद्रित हो जाने वाली imbalance समस्या को भी अलग से संभालना पड़ता है।
2026 तक GPT-4, Gemini 1.5, Mixtral, DeepSeek series जैसे अधिकांश प्रमुख frontier models MoE-आधारित हैं। AI model प्रतिस्पर्धा का केंद्र केवल आकार से हटकर cost-performance की ओर जाने के साथ, MoE व्यावहारिक रूप से standard architecture बन चुका है।
4 टिप्पणियां
2026 में GPT-4, Gemini 1.5? यह तो खुल्लमखुल्ला AI-slop लेख है।
नवीनतम मॉडलों के मामले में आंतरिक implementation के तरीके विस्तार से नहीं बताए जाते, इसलिए लगता है कि शोध के चरण में पहले के मॉडल सामने आए, और GPT-5 के बाद आए मॉडलों ने भी संभवतः MoE संरचना को अपनाया है। ऐसा इसलिए है क्योंकि open source parallel models MoE संरचना पर आधारित हैं। हाल के closed models के मामले में architecture सार्वजनिक नहीं किया जाता, इसलिए यह कोई आधिकारिक रूप से पुष्टि किया गया निष्कर्ष नहीं है।
क्या इसका मतलब है कि MoE का उपयोग करने वाले प्रमुख frontier models में GPT-5.5 MoE का इस्तेमाल नहीं करता?
49B भी काफ़ी बड़ा है।