- Meta को बड़े language model (LLM) training के लिए बहुत बड़े compute capacity की ज़रूरत होती है
- पारंपरिक AI model training में बड़ी संख्या में models को train किया जाता था, लेकिन तुलनात्मक रूप से कम GPUs की आवश्यकता होती थी
- generative AI (GenAI) के आने से jobs की संख्या घटी है, लेकिन बहुत बड़े jobs की आवश्यकता बढ़ गई है
बड़े मॉडलों की training की चुनौतियाँ
- हार्डवेयर विश्वसनीयता: hardware failures के कारण training रुकने को न्यूनतम रखने के लिए सख्त testing और quality control की ज़रूरत होती है.
- खराबी होने पर तेज़ recovery: hardware failure होने पर तेज़ी से recovery संभव होनी चाहिए. rescheduling overhead को कम करना और training को जल्दी reinitialize करना ज़रूरी है.
- training state का कुशल संरक्षण: failure की स्थिति में training state को कुशलतापूर्वक save और restore किया जा सके, यह आवश्यक है.
- GPU के बीच optimal connectivity: बड़े model training में GPUs के बीच data transfer बहुत महत्वपूर्ण है. इसके लिए high-speed network infrastructure और efficient data transfer protocols की ज़रूरत होती है.
infrastructure stack की हर layer में सुधार महत्वपूर्ण है
training software
- researchers को PyTorch जैसे open source का उपयोग करके research से production तक तेज़ी से जाने में सहायता दी जाती है.
- बड़े पैमाने की training के लिए नए algorithms और techniques विकसित किए जाते हैं और नए software tools व frameworks को integrate किया जाता है.
scheduling
- resources को optimize करने के लिए complex algorithms का उपयोग कर job की ज़रूरत के अनुसार resources allocate किए जाते हैं और dynamic scheduling की जाती है.
hardware
- बड़े model training को संभालने के लिए high-performance hardware की आवश्यकता होती है.
- मौजूदा hardware को optimize किया गया, और NVIDIA H100 GPU का उपयोग करने वाले Grand Teton platform को modify करके GPU का TDP 700W तक बढ़ाया गया और HBM3 पर स्विच किया गया.
data center deployment
- GPUs और systems को data center में optimal तरीके से deploy करके resources (power, cooling, networking आदि) को optimize किया जाता है.
- अधिकतम computing density के लिए जितने संभव हों उतने GPU racks लगाए जाते हैं.
reliability
- hardware failure के समय downtime को न्यूनतम रखने के लिए detection और recovery plans बनाए जाते हैं.
- अक्सर होने वाले failure modes: GPU detect न होना, DRAM & SRAM UCE, hardware network cable issues.
network
- बड़े model training के लिए high-speed network infrastructure और efficient data transfer protocols की आवश्यकता होती है.
- RoCE और InfiniBand, इन दो network clusters को बनाकर operational experience के आधार पर सीखा गया.
storage
- बड़े पैमाने के data storage के लिए high-capacity, high-speed storage technologies में निवेश किया जाता है और specific workloads के लिए नए data storage solutions विकसित किए जाते हैं.
आगे की दिशा
- सैकड़ों हज़ार GPUs का उपयोग करके और अधिक data process किया जाएगा तथा लंबी दूरी और latency को संभाला जाएगा.
- नई hardware technologies और GPU architectures को अपनाकर infrastructure को आगे विकसित करने की योजना है.
- AI के लगातार बदलते परिदृश्य में संभावनाओं की सीमाओं को आगे बढ़ाने का प्रयास जारी रहेगा.
1 टिप्पणियां
Hacker News राय