San Francisco Compute: स्टार्टअप्स के लिए 512 H100s, प्रति घंटा $2 से कम पर

(sfcompute.org)

2 पॉइंट द्वारा GN⁺ 2023-07-31 | 1 टिप्पणियां | WhatsApp पर शेयर करें

कई स्टार्टअप्स और रिसर्च लैब्स मिलकर GPU क्लस्टर खरीदते हैं, ताकि बड़े मॉडल ट्रेनिंग के लिए ज़रूरी compute resources साझा तौर पर हासिल किए जा सकें
अलग-अलग N GPU खरीदने के बजाय, K स्टार्टअप्स मिलकर N×K आकार का क्लस्टर खरीदते हैं
Job scheduler ownership share के अनुपात में compute को निष्पक्ष रूप से बाँटता है, और idle compute होने पर अतिरिक्त allocation देता है
128 A100 को पूरे महीने भरने के बजाय, एक हफ्ते के लिए 512 A100 तक burst किया जा सकता है, जिससे मॉडल तेज़ी से ट्रेन होते हैं
OpenAI और Deepmind जैसे बड़े रिसर्च लैब्स को मिलने वाला burst allocation मॉडल अब स्टार्टअप्स को भी देने की संरचना

मुख्य विचार

K स्टार्टअप्स अगर अलग-अलग N GPU क्लस्टर खरीदने के बजाय साथ मिलकर N×K GPU क्लस्टर खरीदें
एक job scheduler रखा जाए जो हर स्टार्टअप की ownership share के अनुपात में compute को निष्पक्ष रूप से बाँटे
idle compute उपलब्ध होने पर scheduler उसे भी allocate कर दे, इसलिए किस्मत अच्छी हो तो अपने हिस्से से ज़्यादा compute इस्तेमाल किया जा सकता है
128 A100 को एक महीने तक लगातार भरकर रखने के बजाय, एक हफ्ते के लिए 512 A100 तक burst करके मॉडल जल्दी तैयार किए जा सकते हैं
OpenAI और Deepmind जैसे बड़े रिसर्च लैब्स के पास रिसर्चर्स के लिए burst allocation सपोर्ट करने वाले बड़े क्लस्टर होते हैं
- जबकि स्टार्टअप्स को अब तक बहुत लंबे long-term contracts के तहत बहुत छोटे क्लस्टर ही मिलते थे, महीनों इंतज़ार करना पड़ता था, और उन्हें हमेशा पूरी तरह व्यस्त रखना पड़ता था
burst allocation और short-term contracts लागू करते हुए प्रति H100 लगभग $2.00 का लक्ष्य
शामिल होने के इच्छुक स्टार्टअप्स आवेदन फ़ॉर्म भरें, और पूछताछ के लिए evan@roomservice.dev पर ईमेल करें

जुड़ना, निकलना, विस्तार

hacker house की तरह, क्लस्टर छोड़ना हो (जैसे अपना क्लस्टर बनाना) तो अपनी जगह किसी और को भरने का समय देने के लिए एक-दो महीने पहले सूचना देनी होगी
नए स्टार्टअप्स को batch units में समूह में जोड़ा जाएगा, और हर कुछ महीनों में क्लस्टर में नए H100 जोड़े जाएँगे
जो पहले से समूह में हैं और compute बढ़ाना चाहते हैं, उन पर भी यही लागू होगा
थोड़ा overprovisioning भी सोचा गया है — उदाहरण के लिए, अगर कोई दोस्त छोटे experiment के लिए कुछ nodes चाहता है, तो उन्हें अच्छी कीमत पर तुरंत दिया जा सकता है
- 10% overprovisioning होने पर प्रति घंटा H100 कीमत 10% बढ़ जाती है

वित्त

512 H100 को 4–6 हफ्तों के भीतर चालू करने का एक मज़बूत रास्ता तय है
अगर इससे ज़्यादा demand हो, तो लगभग 8 हफ्तों में अतिरिक्त H100 भी हासिल किए जा सकते हैं
बैंक से अच्छे terms पर क्लस्टर खरीद की लागत फैलाई जा सकती है, इसलिए short-term contracts और burst allocation बनाए रखते हुए प्रति H100 $2.00 स्तर हासिल किया जा सकता है

इंफ्रास्ट्रक्चर

infra debugging mailing list/Slack साझा होगा, ताकि InfiniBand जैसी समस्याएँ आने पर समूह से सवाल पूछे जा सकें
अगर किसी ने वही समस्या पहले संभाली हो, तो वे एक-दूसरे की मदद कर सकेंगे

1 टिप्पणियां

GN⁺ 2023-07-31

Hacker News टिप्पणियाँ

उम्मीद है यह सफल हो। TPU Research Cloud(TRC) ने 2019 में ऐसा प्रयास किया था, और वही मेरे शुरू कर पाने की वजह बना
2023 में एक TPU को एक घंटे से ज़्यादा के लिए पाना भी मुश्किल है, लेकिन उस समय सचमुच सैकड़ों मिल सकते थे। मुझे TRC पर भरोसा था, और लगा था कि scale बढ़ाकर TPU का एक महाद्वीप बना दिया जाए तो समस्या हल हो जाएगी, लेकिन अंततः TPU समय अंदरूनी शोधकर्ताओं को प्राथमिकता से आवंटित होने लगा और कम होता गया। अब अगर आप H100 पर GPT को chess सिखाने का प्रस्ताव दें, तो लोग हँसेंगे—दुनिया इतनी बदल गई है
इस project में युवा आशावाद है, जिसे मैं चाहता हूँ कि यह न खोए, और लंबी अवधि में शायद जीतने का तरीका भी यही हो। अगर कोई अजीब-सा idea लेकर H100 के बहुत छोटे हिस्से की गुज़ारिश करने आए, तो उम्मीद है उसे स्वीकार किया जाएगा। मेरे कुछ बन पाने की एकमात्र वजह यही थी
- “project में युवा आशावाद है” — यह अब तक सुनी सबसे अच्छी बातों में से है। इसे frame कराकर दीवार पर टाँगने का मन करता है
  H100 के छोटे हिस्से के लिए अजीब अनुरोध भी बेशक स्वीकार करने का इरादा है
- दरअसल TPU Research Cloud program अभी भी अच्छी तरह चल रहा है। compute pool को काफी बढ़ाया गया है और इसमें Cloud TPU v4 Pod slice भी शामिल हैं, और बड़े project अभी भी एक बार में सैकड़ों chips इस्तेमाल करते हैं। TRC capacity को internal use के लिए वापस नहीं लिया गया है
  हाल के TRC-supported papers की सूची https://sites.research.google/trc/publications/ पर देखी जा सकती है
  Cloud TPU की demand बहुत मजबूत है, इसलिए preemptible capacity इस्तेमाल करने पर interruptions ज़्यादा दिख सकते हैं, लेकिन reserved capacity भी उपलब्ध है। TRC support team से संपर्क करना अच्छा रहेगा
- हैरानी की बात है कि लगता है अब जाकर उसकी चमक दिखी। पिछली posts में मैंने सिर्फ TRC की तारीफें देखी थीं, लेकिन देर से शुरू करने वाले के रूप में मैंने अपने पास मौजूद gaming GPU से कहीं ज़्यादा नतीजे निकाले
  तुलना पूरी तरह एक जैसी नहीं है, लेकिन TRC को handle करना बहुत मुश्किल था, TPUv3 access सिर्फ एक बार मिला, और basics सीखने के लिए भी समय कम था। मेरी समझ में आया कि आप कौन-सा email address इस्तेमाल करते हैं और आपका Twitter account कितना मशहूर है, इससे स्थिति बहुत बदल जाती है
- मेरा अनुभव अलग था। आवेदन करना अपेक्षाकृत आसान है, इसे देखते हुए यह अभी भी काफी उदार लगता है। पिछले 6 महीनों में कई projects के लिए मुझे v3-8, v3-32 30 दिन, और preemptible v3-64 28 दिन offer किए गए
  सोच रहा हूँ कि क्या आप academia से हैं। अगर नहीं, तो समझ नहीं आता कि मेरे लिए वे ज़्यादा उदार क्यों थे, और मेरे projects भी ज़्यादा से ज़्यादा बस थोड़े दिलचस्प थे। हालांकि यह सही है कि पहले की तुलना में बड़े Pod को लेकर वे बहुत ज़्यादा कंजूस हो गए हैं
- Shawn की बात पूरी तरह सही है। अभी competition इतना गर्म है कि ऐसी गुंजाइश नहीं है। एक customer 512 GPU 3 साल के लिए ले जा सकता है
“हर startup K अलग-अलग N GPU cluster खरीदने के बजाय, मिलकर NK GPU cluster खरीदें और job scheduler से compute बाँटें” — सैद्धांतिक रूप से यह AWS, Azure जैसे cloud providers के model जैसा ही लगता है
ढाँचा यह है कि “सब लोग fixed hardware अलग-अलग खरीदने के बजाय, हम hardware का एक विशाल pool खरीदकर time-share कराते हैं।” Cloud providers को net margin के लिए कीमतें बढ़ानी पड़ती हैं, इस बात के अलावा, मुझे उत्सुकता है कि ऐसा क्या छूट रहा है जिससे ऐसे project की ज़रूरत पड़े
- मुख्यतः कीमत और availability की वजह से
  पहला, public cloud investors एक खास margin structure की अपेक्षा रखते हैं, इसलिए Lambda या Fluidstack के margins से compete करना मुश्किल है। दूसरा, बड़े clouds large language model training के networking के लिए भी कुछ हद तक disadvantage में हैं। मेरी जानकारी में सिर्फ Azure के पास InfiniBand है, Oracle 3200Gbps है लेकिन InfiniBand नहीं, और AWS भी शायद ऐसा ही है। GCP को लेकर पक्का नहीं, लेकिन याद है कि A100 networking speed 1600Gbps नहीं बल्कि 100Gbps थी। इसके उलट Lambda, Fluidstack, CoreWeave—सभी के पास InfiniBand है। तीसरा, Nvidia बड़े clouds को उतनी supply allocate नहीं कर रही जितनी वे चाहते हैं
- बड़े clouds भी यही कर रहे हैं। सभी बड़े clouds short-term request/reservation features तैयार कर रहे हैं। generative AI से पहले यह बहुत उपयोगी feature नहीं था। किसी एक availability zone में 48 घंटे के लिए 1000 CPU nodes माँगने की ज़रूरत कितनी बार पड़ती होगी
  दूसरी बात, यहाँ resource sharing की बुनियादी समस्या है। Evan और AI Grant के इस project में भी सवाल उठता है कि अगर किसी team के पास पूरे cluster को लगातार कब्ज़े में रखने के पैसे हैं, तो उसे क्यों रोका जाए। fair use का सटीक मानदंड क्या हो, यही मुद्दा है। networking में TCP fairness जैसे bandwidth sharing algorithms हैं, लेकिन ऐसे chunky workloads पर वे ठीक से fit नहीं बैठते
  अगले कुछ महीनों में AWS आदि शायद compute chunks को अस्थायी रूप से allocate कराने वाली queue service लाने की कोशिश करेंगे, और संभव है कि उसके साथ prepayment और high cost जुड़ी हो। यह on-demand pricing से भी महँगी हो सकती है
- AWS और Azure customers को instances pool करके cost बचाने का तरीका बनाने के बजाय शायद अपनी गर्दन काटना पसंद करेंगे
  वे pooling खुद करते हैं, और customer relationship तथा profit को किसी middleman या customer को नहीं सौंपना चाहते
CA में कई colocation sites पर infrastructure चलाने के अनुभव से कहूँ तो, हो सके तो इसे कहीं और रखना बेहतर है। California की बिजली लागत और अन्य infrastructure costs AZ या NV से कहीं ज़्यादा हैं
- सस्ती बिजली और CAD-USD exchange rate advantage को देखते हुए Montreal उपयुक्त लगता है
- GPU compute cost में बिजली का हिस्सा बहुत छोटा लगता है
“दुनिया का कोई भी cloud provider सिर्फ कुछ हफ्तों के लिए 100,000 डॉलर का compute नहीं देता” — यह वाक्य देखा, और मैंने बहुत बड़ा compute कभी खरीदा नहीं है, लेकिन मुझे लगा था कि यही तो cloud का core है
https://lambdalabs.com/ से यह कैसे अलग है, यह जानने की जिज्ञासा है
- हम मध्यम स्तर के compute को zero margin पर चलाने की दिशा में हैं। मकसद Fortune 500 को बेचना नहीं, बल्कि किसी graduate student को 50,000 डॉलर का research grant इस्तेमाल करने लायक बनाना है
  अभी कुछ A100/H100 जुटाना काफ़ी आसान है और Lambda भी इस इस्तेमाल के लिए शानदार है। लेकिन 24 या उससे ज़्यादा GPU वाजिब कीमत पर, लगभग 2 डॉलर प्रति घंटा, पाना बहुत मुश्किल है। अगर आप H100 पर सिर्फ़ 8 घंटे की training चलाना चाहें, तब भी कई बार 6 महीने से ज़्यादा की commitment मांगी जाती है
  GPU brokers का long-term reservations को प्राथमिकता देना business के लिहाज़ से सही फैसला है, और अगर हम उनकी जगह होते तो शायद हम भी ऐसा ही करते। लेकिन हमारा लक्ष्य अलग है। मकसद rebels को ताकत देना है। हम चाहते हैं कि BigCorp के अलावा कोई और भी models train कर सके
- कीमतें बहुत मिलती-जुलती हैं, लेकिन model काफ़ी अलग दिखता है। अहम फर्क शायद तब है जब कई GPUs पर छोटी-छोटी training runs बार-बार चलानी हों। हो सकता है Lambdalabs अभी तुरंत 256 instances न दे पाए
  मूल पोस्ट का तरीका 512 GPU cluster की job queue में job डालने का अधिकार खरीदने जैसा है, इसलिए 256 GPU वाली job भी समस्या नहीं होनी चाहिए। हालांकि आपको 512 GPU job चला रहे किसी व्यक्ति के पीछे इंतज़ार करना पड़ सकता है
  Lambdalabs की असली capacity क्या है, यह मुझे नहीं पता। जिज्ञासा है कि क्या किसी को पता है कि वहां 2–3 से ज़्यादा instances launch करना कितना आसान है
- आम तौर पर long-term reserved instance commitment के बिना H100 एक बार में बस कुछ ही मिलते हैं
- commitment के बिना बड़ा block पाने का कोई व्यावहारिक तरीका नहीं है। याद पड़ता है कि H100 की minimum commitment 64 GPUs के लिए 3 साल, लगभग 3 मिलियन डॉलर थी
- H100 के लिए 2 डॉलर प्रति घंटा ज़्यादा flexible लगता है, लेकिन ऐसी services से मैंने कभी 10,000 GPU-hours खरीदे नहीं हैं। शायद bottleneck वहीं हो सकता है
निजी तौर पर AI में मेरी बहुत दिलचस्पी है और कई सालों से इससे जुड़ा रहा हूं, लेकिन अभी जैसी GPU shortage मैंने कभी नहीं देखी। जो लोग hobby के तौर पर machine learning आज़माना चाहते हैं, उन्हें मैं vast.ai की strongly recommend करूंगा
- अतिरिक्त clouds के तौर पर, H100 और A100 के लिए Lambda, Fluidstack, RunPod, CoreWeave, Crusoe, Oblivus, Latitude हैं
  A100/H100 के अलावा GPUs के लिए vast, TensorDock, और RunPod भी आते हैं
- hobby की सीमा को आप कैसे देखते हैं, इस पर निर्भर है, लेकिन tools और concepts सीखने के लिए T4 को कुछ-कुछ मिनट चलाने में modal.com काफ़ी अच्छा लगा
  वे फिलहाल AWS और GCP resell कर रहे हैं और A100 भी है, लेकिन अभी T4 काफी है
- vast.ai GPUs के लिए gig economy जैसा marketplace है। अभी पहली machine इस्तेमाल करके देखी, ठीक चली; उसमें 512GB RAM, 256 AMD CPUs, A100 GPU था, और 0.05 डॉलर में करीब 4 मिनट इस्तेमाल किया। वह रकम भी free में मिली थी
AWS/GCP/Azure में overhead है और समझ आता है कि कई कंपनियां operations में bare metal क्यों चुनती हैं। निजी तौर पर मुझे लगता है कि समय और मेहनत लगाने लायक मामले कम होते हैं, लेकिन बड़े scale पर savings काफ़ी हो सकती हैं, यह बात समझ में आती है
लेकिन अगर AI training में भी public cloud bursty demand के लिए competitive नहीं है, तो उनके margins उम्मीद से कहीं ज़्यादा हैं। मूल पोस्ट में 10–20 गुना cost reduction किससे compare की गई है, यह जानने की जिज्ञासा है। क्या AWS के मुकाबले?
- AWS का p5.48xlarge 8 H100 के लिए 98.32 डॉलर प्रति घंटा है, यानी एक H100 के लिए 12.29 डॉलर प्रति घंटा। मोटे तौर पर 6 गुना कीमत है
SF पसंद करने वाले के तौर पर, नाम को लेकर क्या कोई दिलचस्प बात है, यह जानने की जिज्ञासा है। क्या hardware सच में SF में रखा जाएगा, या meetups आयोजित करने या customers को इकट्ठा कर networking करवाने की कोई योजना है
हम अभी Xerces blue की तरह गायब नहीं हुए हैं; हम अब भी मौजूद हैं
https://en.wikipedia.org/wiki/Xerces_blue
- hardware SF में नहीं रखा जाएगा। क्योंकि वह सबसे सस्ती datacenter space नहीं है
  लेकिन लगता है कि customers में से काफी लोग इसी तरफ होंगे। SF अभी भी startup करने के लिए शायद सबसे अच्छी जगह है। कठिन technical problems हल करने वाले लोग यहां सचमुच बहुत हैं। SF में मैं जहां-जहां रहा, हर जगह ऊपर या नीचे वाले floor पर कोई न कोई दूसरा startup था
  offline events करना भी अच्छा idea है
community asset का idea अच्छा है। क्या यह GPU cooperative की शुरुआत हो सकती है
- consumer cards के लिए ऐसा model पहले से है। vast.AI के जरिए आप अपने GPU से पैसे कमा सकते हैं
  https://cloud.vast.ai/host/setup
- Twitter की internal infrastructure के बारे में मुझे कुछ नहीं पता, लेकिन ad revenue में गिरावट या user engagement में कमी, Threads की तरफ migration जैसी स्थितियां देखकर लगता है कि Twitter अपनी infrastructure का कुछ हिस्सा ऐसे startups को support करने में इस्तेमाल कर सकता है
  rack space, VM, containers, connectivity—कुछ भी हो सकता है। मूल रूप से Twitter 90s के आखिर के colocation provider जैसा पीछे चला जाएगा
  जिन लोगों ने ध्यान नहीं दिया, उनके लिए जोड़ दूं: यह मज़ाक है
H100 के 512 units खरीदने के लिए पैसे कैसे जुटाए, यह जानने की जिज्ञासा है
- लेख के पहले वाक्य में साफ़ लिखा है कि ये VC investors हैं, जो यह उन startups के लिए कर रहे हैं जिनमें उन्होंने अभी invest किया है, और वे दूसरे participants भी ढूंढ रहे हैं

San Francisco Compute: स्टार्टअप्स के लिए 512 H100s, प्रति घंटा $2 से कम पर

मुख्य विचार

जुड़ना, निकलना, विस्तार

वित्त

इंफ्रास्ट्रक्चर

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News टिप्पणियाँ