6 पॉइंट द्वारा nextvine 2026-04-27 | 4 टिप्पणियां | WhatsApp पर शेयर करें

Mixture of Experts(MoE) क्या है — DeepSeek 1.6 ट्रिलियन parameters होने के बावजूद सस्ता कैसे चलता है

यह MoE आर्किटेक्चर के ज़रिए समझाता है कि DeepSeek V4, 1.6 ट्रिलियन parameters होने के बावजूद GPT-5.5 की कीमत के 10वें हिस्से पर सेवा क्यों दे सकता है।

MoE कई expert submodels और यह तय करने वाले router (gating network) से मिलकर बना होता है कि किस expert का उपयोग किया जाए। इसकी मुख्य बात यह है कि हर token पर पूरे parameters में से केवल कुछ हिस्से को चुनिंदा रूप से सक्रिय किया जाता है। पारंपरिक dense model में input कुछ भी हो, सभी parameters गणना में भाग लेते हैं, लेकिन MoE में router सबसे उपयुक्त कुछ experts चुनकर ही प्रोसेस करता है।

विज्ञापन

DeepSeek V4-Pro के आधार पर, कुल 1.6 ट्रिलियन parameters में से प्रति token केवल 49 बिलियन (लगभग 3%) ही सक्रिय होते हैं। यानी 1.6 ट्रिलियन स्तर का ज्ञान रखते हुए भी वास्तविक inference cost लगभग 49 बिलियन स्तर के model जैसी रहती है। सामान्यतः MoE, समान आकार के dense model की तुलना में price-performance को 3–5 गुना बेहतर बनाता है।

इसके कुछ नुकसान भी हैं। गणना sparse तरीके से होती है, लेकिन सभी experts के parameters को memory में लोड रखना पड़ता है, इसलिए VRAM की आवश्यकता अधिक होती है। साथ ही training के दौरान कुछ खास experts पर लोड केंद्रित हो जाने वाली imbalance समस्या को भी अलग से संभालना पड़ता है।

2026 तक GPT-4, Gemini 1.5, Mixtral, DeepSeek series जैसे अधिकांश प्रमुख frontier models MoE-आधारित हैं। AI model प्रतिस्पर्धा का केंद्र केवल आकार से हटकर cost-performance की ओर जाने के साथ, MoE व्यावहारिक रूप से standard architecture बन चुका है।

4 टिप्पणियां

 
slowandsnow 2026-04-28

2026 में GPT-4, Gemini 1.5? यह तो खुल्लमखुल्ला AI-slop लेख है।

 
nextvine 2026-04-28

नवीनतम मॉडलों के मामले में आंतरिक implementation के तरीके विस्तार से नहीं बताए जाते, इसलिए लगता है कि शोध के चरण में पहले के मॉडल सामने आए, और GPT-5 के बाद आए मॉडलों ने भी संभवतः MoE संरचना को अपनाया है। ऐसा इसलिए है क्योंकि open source parallel models MoE संरचना पर आधारित हैं। हाल के closed models के मामले में architecture सार्वजनिक नहीं किया जाता, इसलिए यह कोई आधिकारिक रूप से पुष्टि किया गया निष्कर्ष नहीं है।

 
aqqnucs 2026-04-28

क्या इसका मतलब है कि MoE का उपयोग करने वाले प्रमुख frontier models में GPT-5.5 MoE का इस्तेमाल नहीं करता?

 
picopress 2026-04-27

49B भी काफ़ी बड़ा है।