- Meta ने AI के भविष्य के लिए अपने बड़े निवेश के हिस्से के रूप में 24,576 GPU वाले दो क्लस्टर की घोषणा की
- हार्डवेयर, नेटवर्क, स्टोरेज, डिज़ाइन, परफ़ॉर्मेंस और सॉफ़्टवेयर से जुड़ी जानकारी साझा की
- इस क्लस्टर डिज़ाइन का उपयोग Llama 3 ट्रेनिंग में किया गया
- Meta open compute और open source के प्रति प्रतिबद्ध है
- Grand Teton, OpenRack और PyTorch के आधार पर ऐसे क्लस्टर बनाए जा रहे हैं और पूरे उद्योग में open innovation को लगातार आगे बढ़ाया जा रहा है
- यह घोषणा उसके महत्वाकांक्षी इन्फ्रास्ट्रक्चर रोडमैप का एक चरण है
- 2024 के अंत तक लगभग 600,000 H100 के बराबर कंप्यूट क्षमता वाले पोर्टफ़ोलियो के हिस्से के रूप में 350,000 NVIDIA H100 GPU शामिल करने वाले इन्फ्रास्ट्रक्चर को लगातार बढ़ाने का लक्ष्य है
Meta के विशाल AI क्लस्टरों पर अंतर्दृष्टि
- Meta का दीर्घकालिक विज़न ऐसा artificial general intelligence (AGI) बनाना है जिसे खुला और ज़िम्मेदार तरीके से बनाया जाए ताकि सभी को उसका लाभ मिल सके
- AGI की दिशा में प्रगति नए उत्पाद, ऐप्स में नई AI सुविधाएँ, और नए AI-केंद्रित कंप्यूटिंग डिवाइस बना रही है
- Meta के पास AI इन्फ्रास्ट्रक्चर बनाने का लंबा इतिहास है, और 2022 में उसने पहली बार AI Research SuperCluster (RSC) का विवरण साझा किया था, जिसमें 16,000 NVIDIA A100 GPU थे
आंतरिक संरचना
- नए AI क्लस्टर RSC से मिली सफलताओं और सीख के आधार पर बनाए गए हैं
- शोधकर्ताओं और डेवलपर्स के अनुभव और उत्पादकता पर ज़ोर देते हुए, हाई-परफ़ॉर्मेंस नेटवर्क फ़ैब्रिक की दक्षता और प्रमुख स्टोरेज निर्णयों के माध्यम से बड़े और अधिक जटिल मॉडलों का समर्थन किया गया है
नेटवर्क
- Meta हर दिन AI मॉडल के खरबों रन संभालता है
- बड़े पैमाने की सेवाएँ देने के लिए बेहद उन्नत और लचीले इन्फ्रास्ट्रक्चर की आवश्यकता होती है
- Meta अपने हार्डवेयर, सॉफ़्टवेयर और नेटवर्क फ़ैब्रिक को कस्टम डिज़ाइन करता है ताकि AI शोधकर्ताओं का अनुभव बेहतर हो और डेटा सेंटर का संचालन कुशल बना रहे
कंप्यूटिंग
- दोनों क्लस्टर Meta के अंदर डिज़ाइन किए गए open GPU hardware platform Grand Teton का उपयोग करके बनाए गए हैं
- Grand Teton power, control, compute और fabric interface को एक ही chassis में समाहित करता है, जिससे कुल परफ़ॉर्मेंस, signal integrity और thermal performance बेहतर होती है
स्टोरेज
- AI ट्रेनिंग में स्टोरेज महत्वपूर्ण भूमिका निभाता है, लेकिन यह सबसे कम चर्चा किए जाने वाले पहलुओं में से एक है
- Meta ने अपने 'Tectonic' distributed storage solution के एक संस्करण को flash media के लिए optimize किया है
- अपने विकसित किए गए FUSE(Linux Filesystem in Userspace) API के ज़रिए AI क्लस्टर की data और checkpointing आवश्यकताओं को पूरा किया जाता है
- हज़ारों GPU synchronized तरीके से checkpoints को save और load कर सकते हैं, और data loading के लिए लचीला, high-throughput, exabyte-scale storage उपलब्ध कराया जाता है
- Hammerspace के साथ मिलकर parallel network file system (NFS) deployment को सह-विकसित किया गया
परफ़ॉर्मेंस
- बड़े AI क्लस्टर बनाते समय परफ़ॉर्मेंस और उपयोग में आसानी दोनों को साथ-साथ अधिकतम करना एक महत्वपूर्ण सिद्धांत है
- AI सिस्टम की सीमाओं को आगे बढ़ाते हुए डिज़ाइन की scalability जाँचने का सबसे अच्छा तरीका है सिस्टम को बनाना, optimize करना और वास्तव में उसे test करना
- Meta सिस्टम बनाकर, optimize करके और उसे वास्तविक रूप से test करके अपने डिज़ाइन की scalability की जाँच करता है
- AI workloads को support करने वाले मूल AI framework PyTorch को लगातार आगे बढ़ाया जा रहा है ताकि वह दसियों हज़ार, यहाँ तक कि सैकड़ों हज़ार GPU training के लिए तैयार हो सके
open AI innovation के प्रति प्रतिबद्धता
- Meta AI software और hardware में open innovation के प्रति अपनी प्रतिबद्धता बनाए हुए है
- OCP के संस्थापक सदस्यों में से एक होने के नाते, वह open hardware innovation का समर्थन जारी रखे हुए है और OCP community को Grand Teton और Open Rack जैसे डिज़ाइन उपलब्ध करा रहा है
- साथ ही वह PyTorch का सबसे बड़ा और प्रमुख contributor है, जो ऐसा AI software framework है जिसे उद्योग का बड़ा हिस्सा उपयोग करता है
- open source hardware और software को बड़े पैमाने की समस्याओं को हल करने में मदद करने वाले महत्वपूर्ण उपकरण माना जाता है
Meta के AI इन्फ्रास्ट्रक्चर का भविष्य
- ये दोनों AI training cluster designs, AI के भविष्य के लिए बड़े रोडमैप का हिस्सा हैं
- Meta की योजना है कि 2024 के अंत तक लगभग 600,000 H100 के बराबर कंप्यूट क्षमता वाले पोर्टफ़ोलियो के हिस्से के रूप में 350,000 NVIDIA H100 शामिल करने वाले इन्फ्रास्ट्रक्चर का विस्तार जारी रखा जाए
GN⁺ की राय
- Meta द्वारा घोषित 24k GPU क्लस्टर AI research और development में एक महत्वपूर्ण प्रगति को दर्शाते हैं, खासकर बड़े AI मॉडल training के लिए आवश्यक शक्तिशाली compute resources उपलब्ध कराने के लिहाज़ से
- जैसे-जैसे AI मॉडलों की जटिलता और आकार लगातार बढ़ रहे हैं, ऐसे इन्फ्रास्ट्रक्चर शोधकर्ताओं को अधिक नवोन्मेषी AI solutions विकसित करने की नींव देते हैं
- Meta की open source और open compute के प्रति प्रतिबद्धता पूरे उद्योग में innovation को तेज़ कर सकती है और अन्य संगठनों को इन तकनीकों का उपयोग करके अपने AI solutions विकसित करने में मदद कर सकती है
- हालांकि, ऐसे बड़े क्लस्टरों के साथ भारी ऊर्जा खपत से जुड़े पर्यावरणीय प्रभावों पर भी विचार करना होगा, जो sustainability के लिए एक महत्वपूर्ण मुद्दा हो सकता है
- Meta की यह घोषणा AI तकनीक के भविष्य पर रोचक अंतर्दृष्टि देती है और यह सोचने का अवसर देती है कि AI की प्रगति समाज और उद्योग पर क्या प्रभाव डालेगी
1 टिप्पणियां
Hacker News की राय
float8 का उल्लेख और FLOPs में वृद्धि
dot-com दौर और AI दौर की तुलना
computing power और engineering time का संबंध
pipeline optimization के काम में रुचि
Meta की engineering क्षमता
engineering और infra पर ऐतिहासिक दृष्टिकोण
AI workloads में Meta की प्रतिस्पर्धा की संभावना
H100 GPU की लागत
AI innovation के प्रति Meta का खुला रुख
Meta की दीर्घकालिक vision और AGI