Meta ने Open Compute Project (OCP) Global Summit 2024 में नवीनतम AI हार्डवेयर डिज़ाइन पेश किए
- नए AI प्लेटफ़ॉर्म, अत्याधुनिक open rack डिज़ाइन, उन्नत network fabric और components जैसी नवाचार तकनीकों का शोकेस किया
- डिज़ाइन साझा करके सहयोग को प्रोत्साहित करना और innovation को आगे बढ़ाना इसका उद्देश्य है
Meta में AI modeling innovation और infrastructure का विकास
- Meta ने कई वर्षों से AI modeling innovation के ज़रिए feed और ad systems जैसी क्षमताओं को optimize और बेहतर किया है
- जैसे-जैसे वह नए और अधिक उन्नत AI models विकसित और जारी कर रहा है, वैसे-वैसे नए AI workloads को support करने के लिए infrastructure को आगे बढ़ाने पर भी ध्यान दे रहा है
- उदाहरण के लिए, Llama 3.1 405B model को train करने के लिए पूरे training stack में महत्वपूर्ण optimization किए गए, जिससे इसे 16,000 से अधिक NVIDIA H100 GPU पर चलाना संभव हुआ
- 2023 के दौरान training cluster को 1K से 16K GPU तक तेज़ी से scale किया गया, और अब models को 24K-GPU cluster पर train किया जा रहा है
- उम्मीद है कि AI training के लिए आवश्यक computing की मात्रा आगे भी काफ़ी बढ़ेगी
AI cluster बनाने में networking और bandwidth का महत्व
- GPU के अलावा cluster performance सुनिश्चित करने में networking और bandwidth भी महत्वपूर्ण भूमिका निभाते हैं
- Meta की systems, HPC computing systems को GPU और domain-specific accelerators से जोड़ने वाले high-bandwidth computing network से बनी हैं
- आगे चलकर प्रति accelerator प्रति सेकंड terabyte स्तर की injection bandwidth वृद्धि की उम्मीद है, जो आज के network की तुलना में 10 गुना से अधिक बढ़ोतरी है
- इसे support करने के लिए high-performance, multi-tier, non-blocking network fabric की आवश्यकता है, जिससे AI clusters की क्षमता का पूरा लाभ उठाया जा सके
open hardware के ज़रिए AI scalability सुनिश्चित करना
- इस गति से AI को scale करने के लिए open hardware solutions की ज़रूरत है
- openness के सिद्धांत पर आधारित नई architecture, network fabric और system designs विकसित करना सबसे अधिक प्रभावी और कुशल है
- open hardware में निवेश करके AI की पूरी क्षमता को सामने लाया जा सकता है और AI क्षेत्र में निरंतर innovation को आगे बढ़ाया जा सकता है
AI infrastructure के लिए open architecture "Catalina" का परिचय
- Meta ने OCP community को AI workloads के लिए high-performance rack, Catalina, के आगामी लॉन्च की घोषणा की
- Catalina, NVIDIA Blackwell platform के full-rack-scale solution पर आधारित है और modularity व flexibility पर ज़ोर देता है
- इसे नवीनतम NVIDIA GB200 Grace Blackwell superchip को support करने के लिए डिज़ाइन किया गया है, ताकि आधुनिक AI infrastructure की बढ़ती मांगों को पूरा किया जा सके
- GPU की power requirements बढ़ने के कारण open rack solutions को अधिक power capability support करनी होगी
- Catalina में Orv3 high-power rack (HPR) पेश किया गया है, जो अधिकतम 140kW तक support कर सकता है
- यह solution पूरी तरह liquid-cooled है और कई तरह के components से बना है
- Catalina का modular design racks को विशेष AI workloads के अनुरूप customize करने की सुविधा देता है
Grand Teton platform में AMD accelerator support
- Grand Teton, Meta का अगली पीढ़ी का AI platform है, जिसे memory-bandwidth-bound workloads और compute-bound workloads दोनों की आवश्यकताओं को support करने के लिए डिज़ाइन किया गया है
- अब Grand Teton platform को AMD Instinct MI300X support के लिए विस्तारित किया गया है, और Meta इस नए version को OCP को दान करने की योजना बना रहा है
- Grand Teton, पिछले version की तरह, single monolithic system design पर आधारित है, जिसमें power, control, compute और fabric interfaces पूरी तरह integrated हैं
- यह AMD Instinct MI300x सहित विभिन्न accelerator designs को support करने के साथ-साथ अधिक computing capacity, expanded memory और बढ़ी हुई network bandwidth भी प्रदान करता है
open disaggregated scheduled fabric (DSF)
- AI training clusters की performance को लगातार बेहतर बनाने के लिए open, vendor-neutral networking backend का विकास महत्वपूर्ण भूमिका निभाएगा
- network को disaggregate करने से industry भर के vendors के साथ मिलकर innovative, scalable, flexible और efficient systems डिज़ाइन किए जा सकते हैं
- Meta के अगली पीढ़ी के AI clusters के लिए नया DSF, मौजूदा switches की तुलना में कई फ़ायदे प्रदान करता है
- DSF, open OCP-SAI standard और Meta के अपने network operating system FBOSS द्वारा संचालित है
- यह NVIDIA, Broadcom, AMD जैसे कई vendors के विभिन्न GPU और NICs में endpoints और accelerators के लिए open और standard Ethernet-based RoCE interfaces को support करता है
- DSF के अलावा, Broadcom और Cisco ASIC पर आधारित नया 51T fabric switch भी विकसित और तैनात किया गया है, और Meta अपना नया NIC module FBNIC भी साझा कर रहा है, जिसमें उसका पहला in-house designed network ASIC शामिल है
open innovation को आगे बढ़ाने में Meta और Microsoft का सहयोग
- Meta और Microsoft की OCP के भीतर लंबे समय से partnership रही है, जिसकी शुरुआत 2018 में data center के लिए switch abstraction interface (SAI) के विकास से हुई थी
- दोनों ने open accelerator module (OAM) standard और SSD standardization जैसे प्रमुख initiatives में योगदान दिया है
- फिलहाल दोनों कंपनियों का सहयोग नए disaggregated power rack, Mount Diablo, पर केंद्रित है
- Mount Diablo एक अत्याधुनिक solution है, जिसमें scalable 400VDC units हैं जो efficiency और scalability बढ़ाते हैं और AI infrastructure को काफ़ी आगे ले जाते हैं
AI infrastructure का open future
- Meta open source AI के लिए प्रतिबद्ध है और उसका मानना है कि open source दुनिया भर के लोगों तक AI के लाभ और अवसर पहुँचाएगा
- सहयोग के बिना AI अपनी पूरी क्षमता हासिल नहीं कर पाएगा
- model innovation को आगे बढ़ाने, portability सुनिश्चित करने और AI development में transparency बढ़ाने के लिए open software frameworks की आवश्यकता है
- collective expertise का लाभ उठाने, AI को अधिक accessible बनाने और systems में bias को कम करने के लिए open और standardized models को प्राथमिकता देनी चाहिए
- AI प्रगति के लिए आवश्यक high-performance, cost-effective और adaptable infrastructure प्रदान करने हेतु open AI hardware systems भी ज़रूरी हैं
- जो भी लोग AI hardware systems के भविष्य के विकास में योगदान देना चाहते हैं, उन्हें OCP community में शामिल होने के लिए प्रोत्साहित किया गया है
- AI की infrastructure requirements को मिलकर हल करके हम सभी के लिए open AI के वास्तविक वादे को साकार कर सकते हैं
GN⁺ की राय
- कई GPU और NIC vendors को कवर करने वाली open networking technology के ज़रिए vendor lock-in को कम किया जा सकता है और AI training clusters की scalability व flexibility बढ़ाई जा सकती है
- Meta और Microsoft का सहयोग open AI infrastructure innovation को तेज़ करने में बड़ी भूमिका निभा सकता है। उम्मीद है कि OCP के माध्यम से बनी उनकी लंबी partnership के आधार पर दोनों कंपनियाँ नए standards और solutions के विकास को और गति देंगी
- open source AI के लिए Meta का मज़बूत समर्थन उत्साहजनक है। open source ही AI की क्षमता को लोकतांत्रिक बनाने और समाज भर में AI के अवसरों का विस्तार करने का रास्ता है
- open AI infrastructure बनाते समय transparency, explainability और ethical considerations जैसे मुद्दों पर भी साथ-साथ काम किया जाना चाहिए। तकनीकी प्रगति जितनी महत्वपूर्ण है, उतना ही AI के प्रति सामाजिक भरोसा बनाना भी है
- AI hardware और software ecosystem के साथ-साथ बढ़ने के लिए industry-wide collaboration के अलावा academia, policy makers और अन्य stakeholders की भागीदारी भी आवश्यक है। उम्मीद है कि OCP इसके लिए एक प्रमुख platform बनेगा
1 टिप्पणियां
Hacker News की राय
एक राय है कि OpenAI और Meta AI के बीच की प्रतिस्पर्धा को macOS vs Windows, iOS vs Android जैसी platform प्रतिस्पर्धा के रूप में देखा जा सकता है
Zuckerberg और Facebook को बहुत आलोचना मिलती है, लेकिन वे engineering और open source में बहुत निवेश कर रहे हैं
Meta ने Llama 3.1 405B मॉडल को train करने के लिए 16,000 से अधिक NVIDIA H100 GPU इस्तेमाल किए, जो बड़े पैमाने के निवेश को दर्शाता है
एक राय है कि Meta का open source LLM कई उपयोगकर्ताओं के लिए आकर्षक होगा
यह जिज्ञासा जताई गई है कि क्या Meta, Microsoft और OpenAI NVIDIA से प्रतिस्पर्धा करने के लिए open chip design पर सहयोग कर सकते हैं
यह उल्लेख है कि Meta fusion power plant जैसे energy production site के पास AI data center बना सकता है
यह सवाल उठाया गया है कि क्या Meta, OpenAI के बाद अब NVIDIA को निशाना बना रहा है
यह कहा गया है कि अब "Open" की अवधारणा एक meme बन गई है