5 पॉइंट द्वारा GN⁺ 2025-10-21 | 5 टिप्पणियां | WhatsApp पर शेयर करें
  • अलिबाबा क्लाउड द्वारा विकसित Aegaeon पूलिंग सिस्टम ने GPU उपयोग दक्षता को 9x बढ़ाकर, समान LLM सेवा के लिए आवश्यक NVIDIA GPU की संख्या 82% कम की
  • यह सिस्टम किसी मॉडल को स्थिर रूप से 1 GPU पर फिक्स करने के बजाय टोकन-स्तर पर वर्चुअलाइज़ करके साझा पूल में रीयल-टाइम शेड्यूलिंग करता है, जिससे एक ही GPU पर कई मॉडल एक साथ चल सकें
  • 72B पैरामीटर आकार के अलग-अलग LLMs को शामिल करने वाले प्रोडक्शन टेस्ट में GPU की संख्या 1,192 → 213 तक कम हुई
  • H20 GPU की सीमित उपलब्धता वाले वातावरण में भी स्थिर प्रदर्शन बना रहा, और ServerlessLLM·MuxServe की तुलना में 1.5~9x goodput सुधार दर्ज किया
  • शोधपत्र सियोल SOSP 2025 सम्मेलन प्रस्तुति में सार्वजनिक किया गया, और इसे GPU संसाधन की कमी से जूझ रही वैश्विक क्लाउड कंपनियों में बड़ा रुचि केंद्र बनने की संभावना है

Aegaeon पूलिंग सिस्टम और इसका पृष्ठभूमि

  • अलिबाबा क्लाउड ने Aegaeon पूलिंग सिस्टम के माध्यम से अपनी Model Studio मार्केटप्लेस में कई महीनों तक चले बैटा टेस्ट में NVIDIA GPU उपयोग को 82% कम करने का परिणाम घोषित किया
  • यह परिणाम सियोल में आयोजित 2025 ACM Symposium on Operating Systems (SOSP) में पीयर-रिव्यू के बाद प्रकाशित शोधपत्र के रूप में प्रस्तुत किया गया
  • यह तकनीक खास तौर पर चीन में Nvidia H20 जैसे लेटेस्ट GPUs की सीमित आपूर्ति वाले माहौल में क्लाउड सेवा प्रदाता अपने मौजूदा संसाधनों का अधिकतम उपयोग कर सकें, इसके लिए बनाई गई है

Aegaeon: GPU दक्षता अधिकतम करने वाला इनफरेंस-ओनली शेड्यूलर

  • Aegaeon मॉडल ट्रेनिंग दक्षता बढ़ाने वाला सिस्टम नहीं, बल्कि इनफरेंस चरण में GPU संसाधनों का अधिकतम उपयोग करने वाला शेड्यूलर है
    • पुराने तरीके में प्रति मॉडल 1 GPU निश्चित करना होता था, जबकि Aegaeon में इसे टोकन-स्तर पर विभाजित करके कई मॉडल का एक साथ इस्तेमाल करने के लिए डिज़ाइन किया गया है
    • GPU का ‘goodput’ (एफ़ेक्टिव थ्रूपुट) अधिकतम 9x तक बढ़ाकर, अनियमित LLM रिक्वेस्ट पैटर्न में भी स्थिर प्रोसेसिंग रेट हासिल की

टेस्ट परिणाम और बचत प्रभाव

  • Peking University और Alibaba इंफ्रा टीम के शोधकर्ता (CTO Zingrun Zhou सहित) द्वारा किए गए कई महीनों के बैटा टेस्ट से प्रदर्शन प्रमाणित हुआ
    • टेस्ट अवधि में समान स्तर का LLM इनफरेंस वर्कलोड बनाए रखते हुए 1,192 GPUs को 213 तक घटाया
    • अधिकतम 72B पैरामीटर आकार के मॉडल को शामिल करने वाले कई LLMs की समानांतर सेवा वातावरण में भी उच्च दक्षता देखी गई
  • टेस्ट अमेरिकी निर्यात नियंत्रण के बाद चीन में क़ानूनी तौर पर खरीदे जा सकने वाले H20 GPUs पर चलाया गया
    • South China Morning Post की रिपोर्ट के अनुसार, H20 अभी चीन में मुख्य विकल्प वाला accelerator के रूप में इस्तेमाल हो रहा है

तकनीकी संरचना: दो मुख्य रणनीतियाँ

  • 1. मल्टी-मॉडल पैकिंग (Multi-model packing): एक ही GPU पर कई मॉडल साथ में प्लेस करके requests के बीच idle resources को कम करना
  • 2. टोकन-स्तर ऑटोस्केलिंग (Token-level autoscaling): पूरे request के बजाय उत्पन्न आउटपुट टोकन की संख्या के हिसाब से रीयल-टाइम कंप्यूटिंग स्केल करना
    • इससे unnecessary GPU reservation हटाकर, थ्रूपुट के हिसाब से लागत दक्षता को अधिकतम किया जाता है
  • बेंचमार्क परिणामों में ServerlessLLM·MuxServe की तुलना में 1.5~9x सुधार हासिल हुआ

नेटवर्क और स्टैक इंटीग्रेशन

  • शोधपत्र में इस्तेमाल किए गए नेटवर्क आर्किटेक्चर (eRDMA आधारित) के विस्तृत विवरण नहीं दिए गए हैं, लेकिन,
    • अलिबाबा के पास अपनी eRDMA (Elastic RDMA) नेटवर्क और हाई-डेंसिटी GPU stack होने की जानकारी है
    • इसलिए संभावना है कि इस परिणाम का आधार अत्यधिक ऑप्टिमाइज़्ड internal infrastructure integration environment पर निर्भर हो सकता है

संकेत

  • GPU की सीमित सप्लाई वाले चीनी मार्केट में मौजूदा chip संसाधनों से अधिकतम efficiency निकलने की रणनीतिक breakthrough के रूप में इसे देखा गया है
  • यह approach भविष्य में AWS, Google Cloud, Microsoft Azure आदि हाइपरस्केलर्स के लिए भी इनफरेंस efficiency सुधारने के लिए benchmark model बन सकता है
  • GPU हार्डवेयर सीमाओं से आगे, सॉफ्टवेयर-आधारित scheduling और virtualization तकनीक अब AI इंफ्रास्ट्रक्चर competitiveness का नया axis बनती दिख रही है

5 टिप्पणियां

 
jjpark78 2025-10-21

लगता है कहीं न कहीं NVIDIA के शेयर गिरने की आहट सुनाई दे रही है...

 
jeongsoop 2025-10-21

आमतौर पर ऐसे मामले में 80% की कमी का मतलब यह नहीं होता कि GPU सिर्फ 1/5 ही खरीदे जाएंगे, बल्कि बात 5 गुना ज़्यादा डेटा प्रोसेस करने की दिशा में बढ़ती है।

 
shakespeares 2025-10-21

क्या वाकई ऐसा होगा? कहीं कोई छिपा हुआ पहलू तो नहीं है?

 
GN⁺ 2025-10-21
Hacker News टिप्पणी
  • Alibaba Cloud ने दावा किया है कि उसने अल्प-लोकप्रिय मॉडल सेवाओं के लिए Nvidia GPU का उपयोग 82% तक कम किया। शोध के अनुसार, Alibaba Cloud Marketplace में कुल रिक्वेस्ट के सिर्फ 1.35% के लिए 17.7% GPU allocate थे, जबकि पहले वही वर्कलोड चलाने के लिए 1192 GPU चाहिए थे; अब वही requests 213 GPU से handle की गईं।
    • यह समझना मेरे लिए थोड़ा कठिन है कि यह practically कैसे चलता है—क्या मॉडल उपयोग न होने पर भी GPU पर loaded होकर wait करते रहते हैं? आम तौर पर तो ऐसे workloads dynamic allocation से चलने चाहिए। मॉडल को बार-बार load करने की frequency कम करना निश्चित ही फायदेमंद है, लेकिन यदि मॉडल+GPU कई मिनट से idle हों तो resources खाली भी किए जा सकते हैं। मैंने AI domain नहीं किया, इसलिए मुझे SLURM के ज़रिए हर बार nodes allocate करके काम करने की आदत है।
    • पेपर की Figure 1(a) के हिसाब से 17.7% मतलब कुल 30,000 GPU का हिस्सा है (यानी 5,310 GPU केवल 1.35% requests को serve कर रहे थे), और यह गणना सिर्फ 47 मॉडलों वाले छोटे exclusive beta सेटअप पर की गई थी। यदि 733 'cold' मॉडलों को मॉडल-काउंट के हिसाब से सरल अनुमान से देखें तो 3,321 GPU लगते, यानी पिछले की तुलना में 37.5% बचत; पूरे 30,000-node cluster पर यह लगभग 6.6% efficiency gain के बराबर है।
    • पहले software और computer engineers समस्या से सीधे भिड़कर खुद creative तरीके से algorithms/solutions बनाते थे; अमेरिका की semiconductor restrictions शायद चीन के इंजीनियरों को भी पुराने Silicon Valley वाले तरीके से खुद innovation करके issues solve करने की तरफ़ ले जा रही हैं।
  • असली मुद्दा यह है कि inference requests सिर्फ कुछ चुने हुए मॉडल—जैसे Alibaba Qwen और DeepSeek—के लिए भारी हैं और बाकी अधिकांश मॉडल सिर्फ intermittent रूप से उपयोग होते हैं, इसलिए कुल GPU संसाधन का 17.7% सिर्फ कुल requests के 1.35% के लिए खर्च होना बेहद inefficient है।
    • बाकी ये अन्य मॉडल शायद काफी छोटे आकार के होंगे।
  • बेहतर लिंक: Tom's Hardware लेख, और पेपर यहाँ देख सकते हैं।
    • ऊपर वाला URL पहले SCMP का लिंक था; उसे इस लिंक से बदल दिया है। पेपर लिंक को मैं पोस्ट के शीर्ष पर भी डालने वाला हूँ।
  • अमेरिका की कोशिश कि चीन की टेक्नोलॉजी प्रगति slow हो जाए शायद उसे उसी लाइन पर आगे बढ़ने से रोकने में सफल हुई, लेकिन विडंबना यह कि इससे चीन शायद किसी अलग रास्ते से innovate करेगा। अगर चीनी कंपनियाँ इस innovation को open source कर दें, तो कुल मिलाकर global efficiency और progress बेहतर हो सकती है, और लंबे समय में शायद अमेरिका के 'civilizational gatekeeping' के लिए ही शुक्रगुज़ार होना पड़े।
    • इतिहास में तकनीकी रोक लगाने पर चीन कुछ सालों में वही tech पकड़ लेता है या बेहतर बना देता है। पश्चिमी नजरिए में अहंकार दिखता है; सच यह है कि कई Western products की development में Chinese scientists और manufacturing का बड़ा योगदान रहा है—वे न होते तो शायद कई चीजें ही नहीं बनतीं। AI शोधकर्ताओं की सूची देखें तो चीनी नाम भी भारी संख्या में मिलेंगे।
    • अमेरिका में anti-immigration sentiment शायद अमेरिकी innovation के लिए सबसे बड़ा blocker बन रहा है। प्रतिभावान लोग बाहर जा रहे हैं। वैश्विक प्रतिभा आकर्षित करने की अमेरिकी बढ़त के बिना, सिर्फ population scale से भी देश पीछे जा सकता है। दुनिया नए leaders ढूंढ रही है; चीन अभी वहाँ नहीं पहुँचा है, पर कुछ साल में संभव है। उसकी कमजोरी शायद ambition का global स्तर पर सीमित होना है, और फोकस ज़्यादातर regional ही रहना—Taiwan और South China Sea तक।
    • अब लगता है कि अमेरिका चीन की progress को सच में रोक नहीं पाएगा। चीन के अंदर ही chip imports पर रोक ने अमेरिकी कदम को काफी हद तक ineffective बना दिया है। इस मुद्दे पर 2025 Nvidia AI chip China import ban पर देखें: CNBC लेख
    • ये सारे संकेत Second World War के बाद जापान में दिखे trend की याद दिलाते हैं—कम संसाधनों से high fuel-efficiency engines और lightweight cars बनाना। अमेरिका या कुछ यूरोपीय markets में ऐसी बाधाएँ नहीं थीं, इसलिए gap बड़ा था और अंततः American cars की competitiveness गिर गई।
    • मैं इसे "boomerang effect" कहने को लेकर पहले ही late महसूस करता हूँ। 2024 में Western labs dominant थे, लेकिन 2025 आते-आते चीन में DeepSeek, Qwen, Kimi, GLM, ERNIE जैसे कई state-of-the-art मॉडल लगातार आ रहे हैं; अब कई Chinese labs शायद अधिक संख्या में नया SOTA रिलीज़ कर रहे हैं, सिर्फ few Western labs नहीं।
  • चीन-आधारित कंपनियों के engineering/research blogs के बारे में जानने की उत्सुकता बढ़ रही है। पहले मैं ज्यादातर Western company blogs पढ़ता था, लेकिन अब FAANG के बाहर के case study को benchmark के तौर पर देखना चाहता हूँ।
  • लगता है कि experiments शायद सिर्फ बहुत छोटे मॉडल सेट पर हुए हैं; सवाल यह है कि बड़े मॉडल पर असली scaling संभव है या नहीं।
    • सच में सभी LLM हैं, इसलिए ये "बहुत छोटे" नहीं कहे जा सकते। अभी मल्टी-रीजन production में कुल 213 H20 GPU cluster पर 1.8–7B वाले 28 मॉडल (TP=1) और 32–72B वाले 19 मॉडल (TP=4) चल रहे हैं।
  • यह virtual GPU system शायद अलग scheduler (job manager) की तरह काम करता दिखता है—data movement से कितनी latency आती है, इसमें रूचि है।
  • क्या यही तरीका अन्य workloads पर भी लागू हो सकता है, यह देखना चाहता हूँ।
  • कुल मिलाकर यही सुनाई देता है कि अब गैर-जरूरी काम—यानी inefficiency—को रोकने की कोशिश है।
  • अगर संसाधन-rich संस्थाएँ चाहें तो pretrained मॉडल को नए hardware पर shift करके 'NVDA tax' यानी Nvidia monopoly-driven खर्च कम कर सकती हैं, लेकिन मेरी नज़र में research और model training अभी भी परिपक्व NVDA ecosystem के बाहर लगभग संभव नहीं हैं।