- अलिबाबा क्लाउड द्वारा विकसित Aegaeon पूलिंग सिस्टम ने GPU उपयोग दक्षता को 9x बढ़ाकर, समान LLM सेवा के लिए आवश्यक NVIDIA GPU की संख्या 82% कम की
- यह सिस्टम किसी मॉडल को स्थिर रूप से 1 GPU पर फिक्स करने के बजाय टोकन-स्तर पर वर्चुअलाइज़ करके साझा पूल में रीयल-टाइम शेड्यूलिंग करता है, जिससे एक ही GPU पर कई मॉडल एक साथ चल सकें
- 72B पैरामीटर आकार के अलग-अलग LLMs को शामिल करने वाले प्रोडक्शन टेस्ट में GPU की संख्या 1,192 → 213 तक कम हुई
- H20 GPU की सीमित उपलब्धता वाले वातावरण में भी स्थिर प्रदर्शन बना रहा, और ServerlessLLM·MuxServe की तुलना में 1.5~9x goodput सुधार दर्ज किया
- शोधपत्र सियोल SOSP 2025 सम्मेलन प्रस्तुति में सार्वजनिक किया गया, और इसे GPU संसाधन की कमी से जूझ रही वैश्विक क्लाउड कंपनियों में बड़ा रुचि केंद्र बनने की संभावना है
Aegaeon पूलिंग सिस्टम और इसका पृष्ठभूमि
- अलिबाबा क्लाउड ने Aegaeon पूलिंग सिस्टम के माध्यम से अपनी Model Studio मार्केटप्लेस में कई महीनों तक चले बैटा टेस्ट में NVIDIA GPU उपयोग को 82% कम करने का परिणाम घोषित किया
- यह परिणाम सियोल में आयोजित 2025 ACM Symposium on Operating Systems (SOSP) में पीयर-रिव्यू के बाद प्रकाशित शोधपत्र के रूप में प्रस्तुत किया गया
- यह तकनीक खास तौर पर चीन में Nvidia H20 जैसे लेटेस्ट GPUs की सीमित आपूर्ति वाले माहौल में क्लाउड सेवा प्रदाता अपने मौजूदा संसाधनों का अधिकतम उपयोग कर सकें, इसके लिए बनाई गई है
Aegaeon: GPU दक्षता अधिकतम करने वाला इनफरेंस-ओनली शेड्यूलर
- Aegaeon मॉडल ट्रेनिंग दक्षता बढ़ाने वाला सिस्टम नहीं, बल्कि इनफरेंस चरण में GPU संसाधनों का अधिकतम उपयोग करने वाला शेड्यूलर है
- पुराने तरीके में प्रति मॉडल 1 GPU निश्चित करना होता था, जबकि Aegaeon में इसे टोकन-स्तर पर विभाजित करके कई मॉडल का एक साथ इस्तेमाल करने के लिए डिज़ाइन किया गया है
- GPU का ‘goodput’ (एफ़ेक्टिव थ्रूपुट) अधिकतम 9x तक बढ़ाकर, अनियमित LLM रिक्वेस्ट पैटर्न में भी स्थिर प्रोसेसिंग रेट हासिल की
टेस्ट परिणाम और बचत प्रभाव
- Peking University और Alibaba इंफ्रा टीम के शोधकर्ता (CTO Zingrun Zhou सहित) द्वारा किए गए कई महीनों के बैटा टेस्ट से प्रदर्शन प्रमाणित हुआ
- टेस्ट अवधि में समान स्तर का LLM इनफरेंस वर्कलोड बनाए रखते हुए 1,192 GPUs को 213 तक घटाया
- अधिकतम 72B पैरामीटर आकार के मॉडल को शामिल करने वाले कई LLMs की समानांतर सेवा वातावरण में भी उच्च दक्षता देखी गई
- टेस्ट अमेरिकी निर्यात नियंत्रण के बाद चीन में क़ानूनी तौर पर खरीदे जा सकने वाले H20 GPUs पर चलाया गया
- South China Morning Post की रिपोर्ट के अनुसार, H20 अभी चीन में मुख्य विकल्प वाला accelerator के रूप में इस्तेमाल हो रहा है
तकनीकी संरचना: दो मुख्य रणनीतियाँ
- 1. मल्टी-मॉडल पैकिंग (Multi-model packing): एक ही GPU पर कई मॉडल साथ में प्लेस करके requests के बीच idle resources को कम करना
- 2. टोकन-स्तर ऑटोस्केलिंग (Token-level autoscaling): पूरे request के बजाय उत्पन्न आउटपुट टोकन की संख्या के हिसाब से रीयल-टाइम कंप्यूटिंग स्केल करना
- इससे unnecessary GPU reservation हटाकर, थ्रूपुट के हिसाब से लागत दक्षता को अधिकतम किया जाता है
- बेंचमार्क परिणामों में ServerlessLLM·MuxServe की तुलना में 1.5~9x सुधार हासिल हुआ
नेटवर्क और स्टैक इंटीग्रेशन
- शोधपत्र में इस्तेमाल किए गए नेटवर्क आर्किटेक्चर (eRDMA आधारित) के विस्तृत विवरण नहीं दिए गए हैं, लेकिन,
- अलिबाबा के पास अपनी eRDMA (Elastic RDMA) नेटवर्क और हाई-डेंसिटी GPU stack होने की जानकारी है
- इसलिए संभावना है कि इस परिणाम का आधार अत्यधिक ऑप्टिमाइज़्ड internal infrastructure integration environment पर निर्भर हो सकता है
संकेत
- GPU की सीमित सप्लाई वाले चीनी मार्केट में मौजूदा chip संसाधनों से अधिकतम efficiency निकलने की रणनीतिक breakthrough के रूप में इसे देखा गया है
- यह approach भविष्य में AWS, Google Cloud, Microsoft Azure आदि हाइपरस्केलर्स के लिए भी इनफरेंस efficiency सुधारने के लिए benchmark model बन सकता है
- GPU हार्डवेयर सीमाओं से आगे, सॉफ्टवेयर-आधारित scheduling और virtualization तकनीक अब AI इंफ्रास्ट्रक्चर competitiveness का नया axis बनती दिख रही है
अभी कोई टिप्पणी नहीं है.