ML Engineering ऑनलाइन पुस्तक
(github.com/stas00)-
AI युद्धक इंजीनियरिंग - जानने योग्य बातें
- AI (ML) मॉडल, खासकर बड़े language model (LLM) और multimodal model (VLM) के सफल प्रशिक्षण के लिए तरीकों का एक open collection.
- LLM/VLM प्रशिक्षण इंजीनियरों और operators के लिए तकनीकी सामग्री, जिसमें बहुत-सी scripts और copy-paste commands शामिल हैं ताकि ज़रूरी काम जल्दी किए जा सकें.
- 2022 में open source BLOOM-176B मॉडल और 2023 में IDEFICS-80B multimodal मॉडल को train करते समय मिले अनुभव और know-how को लगातार दर्ज किया गया है, और वर्तमान में Contextual.AI में open source retrieval-augmented मॉडल विकसित/प्रशिक्षित किए जा रहे हैं.
-
सामग्री सूची
- अस्थिर layout के लिए क्षमा-याचना, और नए अध्याय लिखते हुए सामग्री को अधिक सहज रूप में पुनर्गठित करने की प्रक्रिया जारी है.
-
हार्डवेयर घटक
- Accelerator - ML का workhorse, जिसमें GPU, TPU, IPU, FPGA, HPU, QPU, RDU आदि शामिल हैं.
- Network - node के भीतर और node के बीच connectivity, bandwidth आवश्यकताओं की गणना.
- Storage - local और distributed disk तथा file system.
- CPU - CPU और affinity से संबंधित सामग्री.
- CPU memory - कितनी CPU memory पर्याप्त है, इस पर सबसे छोटा अध्याय.
-
प्रदर्शन
- Fault tolerance
- Performance
- Multi-node networking
- Model parallelism
-
संचालन
- SLURM
- Training hyperparameters और model initialization
- अस्थिरता
-
विकास
- Software और hardware failures का debugging
- और debugging
- Reproducibility
- Tensor precision / data types
- HF Transformers नोट्स - छोटे मॉडल, tokenizer, dataset आदि के लिए tips.
-
अन्य
- सामग्री - LLM/VLM chronology.
-
शॉर्टकट
- ऐसे tools और guides जिनकी अक्सर जल्दी ज़रूरत पड़ती है.
- tools:
all_reduce_bench.py,torch-distributed-gpu-test.py - guides:
debugging pytorch applications,slurm for users,make tiny models/datasets/tokenizers,LLM/VLM chronicles collection
-
पुस्तक बनाना
- यदि आप PDF बनाना चाहते हैं या links की जाँच करना चाहते हैं, तो 'पुस्तक बनाना' सेक्शन देखें.
-
आभार
- इस तरह का know-how सीख पाना एक ऐसा विशेषाधिकार है जो बहुत कम लोगों को मिलता है, क्योंकि बड़े ML compute cluster किराए पर लेने की लागत बहुत अधिक होती है.
- Thom Wolf और HuggingFace के प्रति विशेष आभार.
-
योगदान करें
- यदि आपको bug, typo या सुधार का सुझाव मिले, तो issue खोलने या PR योगदान करने के लिए प्रोत्साहित किया जाता है.
-
लाइसेंस
- इस साइट की सामग्री Attribution-ShareAlike 4.0 International लाइसेंस के तहत वितरित की जाती है.
-
मेरा repository map
- Machine learning: ML Engineering Open Book | ML ways | Porting
- Guide: The Art of Debugging
- Applications: ipyexperiments
- Tools और cheatsheets: bash | conda | git | jupyter-notebook | make | python | tensorboard | unix
GN⁺ की राय
- यह सामग्री बड़े language model और multimodal model के प्रशिक्षण के लिए आवश्यक व्यावहारिक ज्ञान और tools उपलब्ध कराकर ML community में बड़ा योगदान देती है.
- वास्तविक project अनुभव से मिले know-how को साझा करके यह शुरुआती software engineers को बड़े ML मॉडल प्रशिक्षण के लिए आवश्यक व्यावहारिक ज्ञान हासिल करने में मदद करती है.
- open source दृष्टिकोण ML क्षेत्र में ज्ञान-साझाकरण और सहयोग को बढ़ावा देता है, जो research और innovation को तेज़ करने में महत्वपूर्ण भूमिका निभाता है.
1 टिप्पणियां
Hacker News टिप्पणियाँ
यह लेख सच में बहुत मूल्यवान है। मैं research को support करने के लिए LLM training setup debug करने का काम करता हूँ, और काश शुरुआत में मेरे पास ऐसे notes होते।
मैं Applied Scientist के साथ काम करते हुए model training और deployment से जुड़े कामों में मदद करता हूँ; मेरे जैसे लोग optimization, performance जैसी lower-level engineering tasks का exposure कैसे पा सकते हैं? हमारे पास एक ML infra team है, लेकिन उनका लक्ष्य platform के आसपास tools बनाना है, जरूरी नहीं कि workloads को सबसे optimal तरीके से चलाना।
मैं इसे आज़माना चाहता हूँ, लेकिन मेरे पास ठीक-ठाक GPU नहीं है। आप लोग इन्हें कैसे चलाते हैं?
AI Battlefield सेक्शन में "Unsolicited Advice" की हर बात के लिए बहुत धन्यवाद [1]। यह AI development की तेज़ प्रगति और उससे जुड़े emotional burden पर बेहद यथार्थवादी नज़रिया है।
Slurm कितना व्यापक रूप से इस्तेमाल होता है?
मैंने यूँ ही क्लिक करते हुए repeatability के बारे में पढ़ा, लेकिन distributed training में यह कैसे हासिल की जाती है, इसे लेकर अब भी जिज्ञासा है। क्या deterministic synchronization चीज़ों को धीमा नहीं कर देती? फिर भी, मैंने सुना है कि कम-से-कम कुछ बड़ी कंपनियों में उनकी training repeatable होती है।
जब नौकरी न हो, तो ऐसी चीज़ों का अनुभव कैसे बनाया जाए?
क्या कहीं pdf है? इसे build करने का तरीका तो है, लेकिन लगता है कि असली फ़ाइल नहीं है।