4 पॉइंट द्वारा GN⁺ 2024-03-13 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Meta ने AI के भविष्य के लिए अपने बड़े निवेश के हिस्से के रूप में 24,576 GPU वाले दो क्लस्टर की घोषणा की
    • हार्डवेयर, नेटवर्क, स्टोरेज, डिज़ाइन, परफ़ॉर्मेंस और सॉफ़्टवेयर से जुड़ी जानकारी साझा की
    • इस क्लस्टर डिज़ाइन का उपयोग Llama 3 ट्रेनिंग में किया गया
  • Meta open compute और open source के प्रति प्रतिबद्ध है
    • Grand Teton, OpenRack और PyTorch के आधार पर ऐसे क्लस्टर बनाए जा रहे हैं और पूरे उद्योग में open innovation को लगातार आगे बढ़ाया जा रहा है
  • यह घोषणा उसके महत्वाकांक्षी इन्फ्रास्ट्रक्चर रोडमैप का एक चरण है
    • 2024 के अंत तक लगभग 600,000 H100 के बराबर कंप्यूट क्षमता वाले पोर्टफ़ोलियो के हिस्से के रूप में 350,000 NVIDIA H100 GPU शामिल करने वाले इन्फ्रास्ट्रक्चर को लगातार बढ़ाने का लक्ष्य है

Meta के विशाल AI क्लस्टरों पर अंतर्दृष्टि

  • Meta का दीर्घकालिक विज़न ऐसा artificial general intelligence (AGI) बनाना है जिसे खुला और ज़िम्मेदार तरीके से बनाया जाए ताकि सभी को उसका लाभ मिल सके
  • AGI की दिशा में प्रगति नए उत्पाद, ऐप्स में नई AI सुविधाएँ, और नए AI-केंद्रित कंप्यूटिंग डिवाइस बना रही है
  • Meta के पास AI इन्फ्रास्ट्रक्चर बनाने का लंबा इतिहास है, और 2022 में उसने पहली बार AI Research SuperCluster (RSC) का विवरण साझा किया था, जिसमें 16,000 NVIDIA A100 GPU थे

आंतरिक संरचना

  • नए AI क्लस्टर RSC से मिली सफलताओं और सीख के आधार पर बनाए गए हैं
  • शोधकर्ताओं और डेवलपर्स के अनुभव और उत्पादकता पर ज़ोर देते हुए, हाई-परफ़ॉर्मेंस नेटवर्क फ़ैब्रिक की दक्षता और प्रमुख स्टोरेज निर्णयों के माध्यम से बड़े और अधिक जटिल मॉडलों का समर्थन किया गया है

नेटवर्क

  • Meta हर दिन AI मॉडल के खरबों रन संभालता है
  • बड़े पैमाने की सेवाएँ देने के लिए बेहद उन्नत और लचीले इन्फ्रास्ट्रक्चर की आवश्यकता होती है
  • Meta अपने हार्डवेयर, सॉफ़्टवेयर और नेटवर्क फ़ैब्रिक को कस्टम डिज़ाइन करता है ताकि AI शोधकर्ताओं का अनुभव बेहतर हो और डेटा सेंटर का संचालन कुशल बना रहे

कंप्यूटिंग

  • दोनों क्लस्टर Meta के अंदर डिज़ाइन किए गए open GPU hardware platform Grand Teton का उपयोग करके बनाए गए हैं
  • Grand Teton power, control, compute और fabric interface को एक ही chassis में समाहित करता है, जिससे कुल परफ़ॉर्मेंस, signal integrity और thermal performance बेहतर होती है

स्टोरेज

  • AI ट्रेनिंग में स्टोरेज महत्वपूर्ण भूमिका निभाता है, लेकिन यह सबसे कम चर्चा किए जाने वाले पहलुओं में से एक है
  • Meta ने अपने 'Tectonic' distributed storage solution के एक संस्करण को flash media के लिए optimize किया है
    • अपने विकसित किए गए FUSE(Linux Filesystem in Userspace) API के ज़रिए AI क्लस्टर की data और checkpointing आवश्यकताओं को पूरा किया जाता है
    • हज़ारों GPU synchronized तरीके से checkpoints को save और load कर सकते हैं, और data loading के लिए लचीला, high-throughput, exabyte-scale storage उपलब्ध कराया जाता है
  • Hammerspace के साथ मिलकर parallel network file system (NFS) deployment को सह-विकसित किया गया

परफ़ॉर्मेंस

  • बड़े AI क्लस्टर बनाते समय परफ़ॉर्मेंस और उपयोग में आसानी दोनों को साथ-साथ अधिकतम करना एक महत्वपूर्ण सिद्धांत है
  • AI सिस्टम की सीमाओं को आगे बढ़ाते हुए डिज़ाइन की scalability जाँचने का सबसे अच्छा तरीका है सिस्टम को बनाना, optimize करना और वास्तव में उसे test करना
  • Meta सिस्टम बनाकर, optimize करके और उसे वास्तविक रूप से test करके अपने डिज़ाइन की scalability की जाँच करता है
  • AI workloads को support करने वाले मूल AI framework PyTorch को लगातार आगे बढ़ाया जा रहा है ताकि वह दसियों हज़ार, यहाँ तक कि सैकड़ों हज़ार GPU training के लिए तैयार हो सके

open AI innovation के प्रति प्रतिबद्धता

  • Meta AI software और hardware में open innovation के प्रति अपनी प्रतिबद्धता बनाए हुए है
  • OCP के संस्थापक सदस्यों में से एक होने के नाते, वह open hardware innovation का समर्थन जारी रखे हुए है और OCP community को Grand Teton और Open Rack जैसे डिज़ाइन उपलब्ध करा रहा है
  • साथ ही वह PyTorch का सबसे बड़ा और प्रमुख contributor है, जो ऐसा AI software framework है जिसे उद्योग का बड़ा हिस्सा उपयोग करता है
  • open source hardware और software को बड़े पैमाने की समस्याओं को हल करने में मदद करने वाले महत्वपूर्ण उपकरण माना जाता है

Meta के AI इन्फ्रास्ट्रक्चर का भविष्य

  • ये दोनों AI training cluster designs, AI के भविष्य के लिए बड़े रोडमैप का हिस्सा हैं
  • Meta की योजना है कि 2024 के अंत तक लगभग 600,000 H100 के बराबर कंप्यूट क्षमता वाले पोर्टफ़ोलियो के हिस्से के रूप में 350,000 NVIDIA H100 शामिल करने वाले इन्फ्रास्ट्रक्चर का विस्तार जारी रखा जाए

GN⁺ की राय

  • Meta द्वारा घोषित 24k GPU क्लस्टर AI research और development में एक महत्वपूर्ण प्रगति को दर्शाते हैं, खासकर बड़े AI मॉडल training के लिए आवश्यक शक्तिशाली compute resources उपलब्ध कराने के लिहाज़ से
  • जैसे-जैसे AI मॉडलों की जटिलता और आकार लगातार बढ़ रहे हैं, ऐसे इन्फ्रास्ट्रक्चर शोधकर्ताओं को अधिक नवोन्मेषी AI solutions विकसित करने की नींव देते हैं
  • Meta की open source और open compute के प्रति प्रतिबद्धता पूरे उद्योग में innovation को तेज़ कर सकती है और अन्य संगठनों को इन तकनीकों का उपयोग करके अपने AI solutions विकसित करने में मदद कर सकती है
  • हालांकि, ऐसे बड़े क्लस्टरों के साथ भारी ऊर्जा खपत से जुड़े पर्यावरणीय प्रभावों पर भी विचार करना होगा, जो sustainability के लिए एक महत्वपूर्ण मुद्दा हो सकता है
  • Meta की यह घोषणा AI तकनीक के भविष्य पर रोचक अंतर्दृष्टि देती है और यह सोचने का अवसर देती है कि AI की प्रगति समाज और उद्योग पर क्या प्रभाव डालेगी

1 टिप्पणियां

 
GN⁺ 2024-03-13
Hacker News की राय
  • float8 का उल्लेख और FLOPs में वृद्धि

    • float8 का उल्लेख किया गया था, और इससे FLOPs 2 गुना बढ़ जाते हैं.
    • xformers अब 2:4 sparsity को support करता है, जिससे FLOPs में अतिरिक्त 2 गुना वृद्धि हो सकती है.
    • Llama3, MLP में float8 और 2:4 sparsity का उपयोग करके, H100 float16 FLOPs का 4 गुना तक इस्तेमाल कर सकता है.
    • PyTorch experimental रूप से fp8 को support करता है, लेकिन precision issues की वजह से float8 में attention चलाना अब भी जटिल है.
    • शायद attention को float16 में, RoPE/layernorms को float16/float32 में, और बाकी सब कुछ float8 में चलाया जा सकता है.
  • dot-com दौर और AI दौर की तुलना

    • dot-com दौर का अनुभव रखने वाले एक व्यक्ति को लगता है कि AI दौर कुछ हद तक निराशाजनक है, क्योंकि model training के लिए बहुत बड़े capital cost की ज़रूरत होती है.
    • dot-com दौर के शुरुआती समय में अपेक्षाकृत कम infra cost के साथ कोई भी e-commerce site शुरू कर सकता था.
    • अभी ऐसा लगता है कि सिर्फ Meta, Google, Microsoft और OpenAI जैसी बड़ी कंपनियाँ ही AI models बना सकती हैं.
  • computing power और engineering time का संबंध

    • अगर Facebook computing power को 10 गुना बढ़ा सके, तो क्या पूरे stack को फिर से design करना पड़ेगा, और 100 गुना होने पर क्या होगा—इस पर रुचि जताई गई.
    • यह भी सवाल है कि हर redesign सिर्फ एक साधारण बदलाव होगा या उससे कहीं ज़्यादा जटिल काम.
    • cluster के अंदरूनी हिस्सों की तकनीकी समझ सतही स्तर की होने के कारण, इस तरह का अनुभव रखने वाले लोगों की राय जानने की जिज्ञासा है.
  • pipeline optimization के काम में रुचि

    • pipeline optimization के काम में शामिल होना चाहने वाला व्यक्ति पूछता है कि शुरुआत कैसे की जाए.
    • जिज्ञासा यह है कि क्या एक machine learning scientist, C/C++ और infra knowledge के साथ ज़रूरत पड़ने पर systems तक 'नीचे जाता' है, या CUDA/SIMD expert 'ऊपर आकर' machine learning पर काम करता है.
  • Meta की engineering क्षमता

    • नकारात्मक दबाव के बावजूद Meta engineering में मज़बूत प्रदर्शन दिखाता है.
    • सवाल यह है कि Meta इस engineering क्षमता का monetization कैसे करने की योजना बना रहा है.
  • engineering और infra पर ऐतिहासिक दृष्टिकोण

    • DLRM paper और Facebook के शुरुआती disaggregated racks तथा SDN का उल्लेख किया गया.
    • 2018 में ही SSD और DRAM को rack के अलग-अलग हिस्सों में रखते हुए, बड़े neural networks के साथ recommendation systems और ranking की जा रही थी.
    • click prediction model का उल्लेख है, और Intel AVX-2 का उपयोग करने वाली HOGWILD training method पर आश्चर्य व्यक्त किया गया.
    • यह ज़ोर दिया गया कि infra design और SKU design में Meta के पास अब भी शीर्ष स्तर की क्षमता है.
  • AI workloads में Meta की प्रतिस्पर्धा की संभावना

    • इस बात को लेकर जिज्ञासा है कि क्या Meta, AI workloads के क्षेत्र में AWS, MSFT और GOOG से प्रतिस्पर्धा कर सकता है.
  • H100 GPU की लागत

    • इस बात का अनुमान लगाया गया कि Meta, H100 GPU के लिए कितना भुगतान करता होगा.
    • अगर 350,000 NVIDIA H100 को $10k प्रति unit पर खरीदा जाए, तो कुल लागत $3.5b होगी.
  • AI innovation के प्रति Meta का खुला रुख

    • यह माना गया कि Meta, AI innovation के प्रति खुला रुख दिखा रहा है.
  • Meta की दीर्घकालिक vision और AGI

    • Meta की दीर्घकालिक vision artificial general intelligence (AGI) बनाना है.