LLM को शुरुआत से पूरी तरह ट्रेन करना
- Reka में शक्तिशाली multimodal language models को सफलतापूर्वक ट्रेन करने के अनुभव को लेकर काफी जिज्ञासा रही है।
- इन्फ्रास्ट्रक्चर बनाने और बड़े language व multimodal models को शुरुआत से ट्रेन करने की प्रक्रिया में आई चुनौतियों और सीखों को साझा किया गया है।
- आशा है कि यह पोस्ट बहुत से लोगों के लिए रोचक और शिक्षाप्रद होगी।
LLM युग की hardware lottery
- मॉडल ट्रेनिंग के लिए पहला अनिवार्य तत्व computing power सुरक्षित करना है।
- compute providers की अस्थिरता और clusters, accelerators, तथा connectivity की quality में अंतर देखकर आश्चर्य हुआ।
- hardware की quality में बहुत बड़ा अंतर है, और ट्रेनिंग के संदर्भ में यह सचमुच एक 'hardware lottery' जैसा है।
GPU बनाम TPU
- Reka में मुख्य रूप से GPU का उपयोग करके models को train किया जाता है।
- Google में TPU का उपयोग करने के अनुभव से तुलना करने पर GPU की failure rate चौंकाने वाली लगी।
- hardware team की क्षमता बहुत महत्वपूर्ण है, और यह 'hardware lottery' की अवधारणा को और मजबूत करती है।
multi-cluster setup की पीड़ा
- कई clusters में नए environments सेट अप करने की अवधारणा अपरिचित लगी।
- कई clusters के accelerator pools रखना अपरिहार्य है।
- बड़े पैमाने के data को संभालने में असुविधा होती है, और data replication बड़े scale पर आसान नहीं है।
जंगली दुनिया का code
- T5X और MeshTensorflow पसंदीदा codebases थे, लेकिन Google के बाहर उनका support कम है और उनका उपयोग करना कठिन है।
- अधिक सुलभ PyTorch को चुना गया।
- बाहरी codebases की quality, Google के अंदर की तुलना में, पीछे लगती है।
कम principled, ज़्यादा Yolo
- सिद्धांततः models को व्यवस्थित तरीके से scale करना चाहिए, लेकिन startup में compute resources कम होने के कारण कई Yolo runs करने पड़ते हैं।
- सीमित प्रयासों के साथ शक्तिशाली models को train करना चुनौतीपूर्ण है।
सारांश
- जमीनी दुनिया का यह अनुभव रोचक था, लेकिन दर्दनाक भी।
- compute resources की कमी और अस्थिर providers के कारण यह अपेक्षा से अधिक कठिन था, लेकिन तकनीकी क्षमता के बल पर इसे पार किया गया।
- कंपनी शुरू करने, फंड जुटाने, chips खरीदने, और Gemini pro/GPT 3.5 से प्रतिस्पर्धा करते हुए कई अन्य लोगों से आगे निकलने की प्रक्रिया का यह केवल एक हिस्सा है।
GN⁺ की राय
- यह लेख अच्छी तरह दिखाता है कि startups को बड़े language models को शुरुआत से train करने की प्रक्रिया में किन वास्तविक समस्याओं और चुनौतियों का सामना करना पड़ता है। यह junior software engineers को यथार्थवादी insight दे सकता है।
- hardware चयन का महत्व, उससे जुड़ी failure rate, और support level का अंतर ऐसे बिंदु हैं जिन्हें startup या छोटी कंपनियों को बड़ा प्रोजेक्ट शुरू करते समय ज़रूर ध्यान में रखना चाहिए।
- यह लेख Google जैसी बड़ी कंपनियों के infrastructure की तुलना में startups के सामने आने वाली तकनीकी सीमाओं को रेखांकित करता है। इससे समझ आता है कि startups को तकनीकी विकल्प चुनते समय सावधानी क्यों बरतनी चाहिए।
- यह संकेत मिलता है कि बड़े models को train करने के लिए आवश्यक infrastructure और tools बनाना startups के लिए बेहद जटिल और कठिन हो सकता है। cloud service provider चुनने या अपना hardware बनाने का निर्णय लेते समय यह एक महत्वपूर्ण विचार है।
- तकनीकी समस्याओं और चुनौतियों के बावजूद, यह एक सकारात्मक संदेश देता है कि startups तकनीकी क्षमता के दम पर कठिनाइयों को पार करके सफल परिणाम हासिल कर सकते हैं।
1 टिप्पणियां
Hacker News की राय