Meta के बड़े language model training के तरीके

(engineering.fb.com)

6 पॉइंट द्वारा GN⁺ 2024-06-13 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Meta को बड़े language model (LLM) training के लिए बहुत बड़े compute capacity की ज़रूरत होती है
पारंपरिक AI model training में बड़ी संख्या में models को train किया जाता था, लेकिन तुलनात्मक रूप से कम GPUs की आवश्यकता होती थी
generative AI (GenAI) के आने से jobs की संख्या घटी है, लेकिन बहुत बड़े jobs की आवश्यकता बढ़ गई है

बड़े मॉडलों की training की चुनौतियाँ

हार्डवेयर विश्वसनीयता: hardware failures के कारण training रुकने को न्यूनतम रखने के लिए सख्त testing और quality control की ज़रूरत होती है.
खराबी होने पर तेज़ recovery: hardware failure होने पर तेज़ी से recovery संभव होनी चाहिए. rescheduling overhead को कम करना और training को जल्दी reinitialize करना ज़रूरी है.
training state का कुशल संरक्षण: failure की स्थिति में training state को कुशलतापूर्वक save और restore किया जा सके, यह आवश्यक है.
GPU के बीच optimal connectivity: बड़े model training में GPUs के बीच data transfer बहुत महत्वपूर्ण है. इसके लिए high-speed network infrastructure और efficient data transfer protocols की ज़रूरत होती है.

infrastructure stack की हर layer में सुधार महत्वपूर्ण है

training software

researchers को PyTorch जैसे open source का उपयोग करके research से production तक तेज़ी से जाने में सहायता दी जाती है.
बड़े पैमाने की training के लिए नए algorithms और techniques विकसित किए जाते हैं और नए software tools व frameworks को integrate किया जाता है.

scheduling

resources को optimize करने के लिए complex algorithms का उपयोग कर job की ज़रूरत के अनुसार resources allocate किए जाते हैं और dynamic scheduling की जाती है.

hardware

बड़े model training को संभालने के लिए high-performance hardware की आवश्यकता होती है.
मौजूदा hardware को optimize किया गया, और NVIDIA H100 GPU का उपयोग करने वाले Grand Teton platform को modify करके GPU का TDP 700W तक बढ़ाया गया और HBM3 पर स्विच किया गया.

data center deployment

GPUs और systems को data center में optimal तरीके से deploy करके resources (power, cooling, networking आदि) को optimize किया जाता है.
अधिकतम computing density के लिए जितने संभव हों उतने GPU racks लगाए जाते हैं.

reliability

hardware failure के समय downtime को न्यूनतम रखने के लिए detection और recovery plans बनाए जाते हैं.
अक्सर होने वाले failure modes: GPU detect न होना, DRAM & SRAM UCE, hardware network cable issues.

network

बड़े model training के लिए high-speed network infrastructure और efficient data transfer protocols की आवश्यकता होती है.
RoCE और InfiniBand, इन दो network clusters को बनाकर operational experience के आधार पर सीखा गया.

storage

बड़े पैमाने के data storage के लिए high-capacity, high-speed storage technologies में निवेश किया जाता है और specific workloads के लिए नए data storage solutions विकसित किए जाते हैं.

आगे की दिशा

सैकड़ों हज़ार GPUs का उपयोग करके और अधिक data process किया जाएगा तथा लंबी दूरी और latency को संभाला जाएगा.
नई hardware technologies और GPU architectures को अपनाकर infrastructure को आगे विकसित करने की योजना है.
AI के लगातार बदलते परिदृश्य में संभावनाओं की सीमाओं को आगे बढ़ाने का प्रयास जारी रहेगा.

1 टिप्पणियां

GN⁺ 2024-06-13

Hacker News राय

GPU कनेक्शन समस्या: GPU के PCIe bus पर पहचाने न जाने की समस्या का उल्लेख किया गया है।
कूलिंग इन्फ्रास्ट्रक्चर: मौजूदा air-cooling environment को बनाए रखते हुए mechanical और thermal design में बदलाव करने पड़े।
समय की बाधा: समय की कमी ने मॉडल की समग्र गुणवत्ता को प्रभावित किया।
Meta की search functionality: यह राय दी गई कि Meta को नया LLM train करने के बजाय search functionality में सुधार करना चाहिए था।
डेटा संग्रह की विधि: यह जानने की जिज्ञासा है कि Meta डेटा को कैसे इकट्ठा और तैयार करता है, खासकर PII (व्यक्तिगत पहचान योग्य जानकारी) को कैसे साफ करता है।
लागत समस्या: यह उल्लेख है कि cloud के बाहर के applications में LLM लागत के कारण अव्यावहारिक हो सकते हैं।
क्लस्टर निर्माण: दो 24k clusters बनाकर operational experience सीखने की कोशिश प्रभावशाली लगी।
कार्य scheduling: बड़े पैमाने की machine arrays में jobs को schedule करने के तरीके पर ठोस जानकारी की कमी है।
राजस्व सृजन: यह स्पष्ट नहीं है कि Meta बड़े पैमाने पर LLM का उपयोग करके राजस्व कैसे कमाएगा।
Google की AI बढ़त: यह राय है कि Google custom silicon के जरिए AI क्षेत्र में बढ़त बनाए हुए है।
डोमेन नाम: यह दिलचस्प लगा कि Meta का domain अभी भी engineering.fb.com है।

Meta के बड़े language model training के तरीके

बड़े मॉडलों की training की चुनौतियाँ

infrastructure stack की हर layer में सुधार महत्वपूर्ण है

training software

scheduling

hardware

data center deployment

reliability

network

storage

आगे की दिशा

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय