5 पॉइंट द्वारा GN⁺ 2024-03-08 | 1 टिप्पणियां | WhatsApp पर शेयर करें

LLM को शुरुआत से पूरी तरह ट्रेन करना

  • Reka में शक्तिशाली multimodal language models को सफलतापूर्वक ट्रेन करने के अनुभव को लेकर काफी जिज्ञासा रही है।
  • इन्फ्रास्ट्रक्चर बनाने और बड़े language व multimodal models को शुरुआत से ट्रेन करने की प्रक्रिया में आई चुनौतियों और सीखों को साझा किया गया है।
  • आशा है कि यह पोस्ट बहुत से लोगों के लिए रोचक और शिक्षाप्रद होगी।

LLM युग की hardware lottery

  • मॉडल ट्रेनिंग के लिए पहला अनिवार्य तत्व computing power सुरक्षित करना है।
  • compute providers की अस्थिरता और clusters, accelerators, तथा connectivity की quality में अंतर देखकर आश्चर्य हुआ।
  • hardware की quality में बहुत बड़ा अंतर है, और ट्रेनिंग के संदर्भ में यह सचमुच एक 'hardware lottery' जैसा है।

GPU बनाम TPU

  • Reka में मुख्य रूप से GPU का उपयोग करके models को train किया जाता है।
  • Google में TPU का उपयोग करने के अनुभव से तुलना करने पर GPU की failure rate चौंकाने वाली लगी।
  • hardware team की क्षमता बहुत महत्वपूर्ण है, और यह 'hardware lottery' की अवधारणा को और मजबूत करती है।

multi-cluster setup की पीड़ा

  • कई clusters में नए environments सेट अप करने की अवधारणा अपरिचित लगी।
  • कई clusters के accelerator pools रखना अपरिहार्य है।
  • बड़े पैमाने के data को संभालने में असुविधा होती है, और data replication बड़े scale पर आसान नहीं है।

जंगली दुनिया का code

  • T5X और MeshTensorflow पसंदीदा codebases थे, लेकिन Google के बाहर उनका support कम है और उनका उपयोग करना कठिन है।
  • अधिक सुलभ PyTorch को चुना गया।
  • बाहरी codebases की quality, Google के अंदर की तुलना में, पीछे लगती है।

कम principled, ज़्यादा Yolo

  • सिद्धांततः models को व्यवस्थित तरीके से scale करना चाहिए, लेकिन startup में compute resources कम होने के कारण कई Yolo runs करने पड़ते हैं।
  • सीमित प्रयासों के साथ शक्तिशाली models को train करना चुनौतीपूर्ण है।

सारांश

  • जमीनी दुनिया का यह अनुभव रोचक था, लेकिन दर्दनाक भी।
  • compute resources की कमी और अस्थिर providers के कारण यह अपेक्षा से अधिक कठिन था, लेकिन तकनीकी क्षमता के बल पर इसे पार किया गया।
  • कंपनी शुरू करने, फंड जुटाने, chips खरीदने, और Gemini pro/GPT 3.5 से प्रतिस्पर्धा करते हुए कई अन्य लोगों से आगे निकलने की प्रक्रिया का यह केवल एक हिस्सा है।

GN⁺ की राय

  • यह लेख अच्छी तरह दिखाता है कि startups को बड़े language models को शुरुआत से train करने की प्रक्रिया में किन वास्तविक समस्याओं और चुनौतियों का सामना करना पड़ता है। यह junior software engineers को यथार्थवादी insight दे सकता है।
  • hardware चयन का महत्व, उससे जुड़ी failure rate, और support level का अंतर ऐसे बिंदु हैं जिन्हें startup या छोटी कंपनियों को बड़ा प्रोजेक्ट शुरू करते समय ज़रूर ध्यान में रखना चाहिए।
  • यह लेख Google जैसी बड़ी कंपनियों के infrastructure की तुलना में startups के सामने आने वाली तकनीकी सीमाओं को रेखांकित करता है। इससे समझ आता है कि startups को तकनीकी विकल्प चुनते समय सावधानी क्यों बरतनी चाहिए।
  • यह संकेत मिलता है कि बड़े models को train करने के लिए आवश्यक infrastructure और tools बनाना startups के लिए बेहद जटिल और कठिन हो सकता है। cloud service provider चुनने या अपना hardware बनाने का निर्णय लेते समय यह एक महत्वपूर्ण विचार है।
  • तकनीकी समस्याओं और चुनौतियों के बावजूद, यह एक सकारात्मक संदेश देता है कि startups तकनीकी क्षमता के दम पर कठिनाइयों को पार करके सफल परिणाम हासिल कर सकते हैं।

1 टिप्पणियां

 
GN⁺ 2024-03-08
Hacker News की राय
  • स्टार्टअप से मतलब ऐसे संगठन से है जो कम लोगों और बड़े पैमाने की पूंजी के साथ training cluster में निवेश करता है। लेख में बताया गया है कि कई स्टार्टअप और मौजूदा कंपनियाँ server किराए पर लेकर उन्हें चलाती हैं। अधिकांश LLM (Large Language Model) बनाने वाले समान hardware और data का उपयोग करके text और image data पर training करते हैं। हर LLM के पास अपना अलग "secret sauce" होता है, और यही उसकी output quality में फर्क लाता है। लेकिन कुल मिलाकर यह प्रक्रिया ऊर्जा की दृष्टि से भारी और दोहराव वाले काम जैसी लगती है।
  • यह लेख Google के PaLM, UL2, Flan, Bard आदि के तकनीकी लीड रहे Yi Tay के बारे में है, जो Reka के सह-संस्थापक बने और एक स्वतंत्र स्टार्टअप के रूप में LLM train करने के अपने अनुभव साझा करते हैं। वह बातचीत जिसने Yi Tay को यह पोस्ट लिखने के लिए प्रेरित किया, यहाँ दर्ज है।
  • इस पोस्ट के जरिए Reka.ai के बारे में पता चला। Reka.ai के LLM पर Hacker News में ज्यादा चर्चा नहीं हुई है। जिज्ञासा में Reka Flash के chat interface को ChatGPT 4, Gemini Advanced, Claude 3, Mistral Large से तुलना करके परखा। नतीजे यहाँ हैं। कुल मिलाकर Reka Flash दूसरे LLMs की तुलना में न तो खास तौर पर बहुत खराब लगा और न बहुत बेहतर। बेशक पक्का निष्कर्ष निकालने के लिए और ज्यादा testing चाहिए।
  • लेखक मानता है कि पाठक "wild" का अर्थ "Google के बाहर" समझेंगे। यह लेख Google के infrastructure और hardware teams को काफी श्रेय देता है, और लेखक को यह देखना रोचक लगता है कि Google का एक insider कहीं और वही तरह का काम करते हुए कैसी दृष्टि रखता है।
  • Reka.AI का मुख्य पेज token के हिसाब से भुगतान वाला एक सामान्य ChatGPT clone, यानी LLM, जैसा दिखता है। यह दूसरी कंपनियों से कैसे अलग है, यह स्पष्ट नहीं है। इसकी pricing ChatGPT 3.5-Turbo जैसी लगती है।
  • बिल्कुल शुरुआत से LLM train करना, कच्चे hardware improvements जितना ही, AI के विकास की गति और दायरे के लिए अहम मुद्दा है। ब्लॉग रोचक है, लेकिन कुछ हद तक सतही है और बहुत तकनीकी नहीं है; GPU cluster के साथ काम कर चुके लोगों के लिए इसमें बहुत चौंकाने वाली बात नहीं है। Google के बाहर LLMs के लिए Jax को PyTorch पर क्यों प्राथमिकता दी जाए, यह भी स्पष्ट नहीं होता। उम्मीद है कि यह नई कंपनी अपनी training journey पर और अधिक तकनीकी रिपोर्ट प्रकाशित करेगी।
  • यह कहानी सिर्फ एक छोटे हिस्से को छूती है, जबकि कंपनी शुरू करना, funding जुटाना, chips खरीदना, और एक साल से भी कम समय में GPT 3.5 स्तर का LLM बनाकर कई अन्य products को पीछे छोड़ देना—ये सब बड़े सवाल हैं। जिज्ञासा है कि chips/cloud GPU पर कितना budget लगा होगा। क्या यह लगभग 20 लाख से 50 लाख डॉलर रहा होगा?
  • बड़ा सवाल यह है कि जिन छोटे स्टार्टअप्स के पास सही background या track record नहीं है, वे LLM products के लिए funding कैसे जुटाते हैं। LLM स्टार्टअप्स की दुनिया कुछ हद तक hedge funds और private equity की दुनिया जैसी लगती है, जहाँ seed/funding पाने की पूर्वशर्त एक प्रतिष्ठित employment history/उपयुक्त career profile और ऐसा मजबूत investor network है जो product शुरू होने से पहले ही निवेश करने को तैयार हो।
  • सोचता हूँ कि शीर्षक "ground zero" की जगह "from the ground up" होना चाहिए था या नहीं।
  • training data process पर की गई चर्चा काफी दिलचस्प है, लेकिन इसके बारे में और सुनना चाहूँगा।