- San Francisco Compute एक ऐसा समूह है जो स्टार्टअप्स और शोध संस्थानों को बड़े मॉडल ट्रेनिंग के लिए computing resources को मिलकर खरीदने और साझा करने के लिए एक साथ लाता है.
- हर स्टार्टअप के अपने GPU cluster खरीदने के बजाय, यह समूह स्टार्टअप्स की संख्या के अनुपात में कुल GPUs वाला एक cluster खरीदता है.
- ownership के आधार पर job scheduler सभी स्टार्टअप्स को computing resources का निष्पक्ष आवंटन करता है.
- इससे स्टार्टअप्स एक हफ्ते तक 512 GPUs का उपयोग करके मॉडल ट्रेनिंग तेजी से कर सकते हैं, और एक महीने तक लगातार 128 GPUs भरे रखने की झंझट से बच सकते हैं.
- अगर कोई computing resources खाली हों, तो scheduler स्टार्टअप्स को उनके निष्पक्ष quota से अधिक resources आवंटित कर सकता है.
- यह मॉडल OpenAI और Deepmind जैसे बड़े शोध संस्थानों द्वारा उपयोग किए जाने वाले मॉडल जैसा है, लेकिन आम तौर पर छोटे clusters और long-term contracts वाले स्टार्टअप्स के लिए अधिक सुलभ है.
- लक्ष्य यह है कि burst allocation और short-term contracts के साथ प्रति H100 GPU लगभग $2.00 की computing उपलब्ध कराई जाए.
- स्टार्टअप्स फ़ॉर्म भरकर या आयोजकों से संपर्क करके समूह में शामिल हो सकते हैं.
- स्टार्टअप्स advance notice period के बाद cluster से बाहर निकल सकते हैं, और नए स्टार्टअप्स को batch के रूप में जोड़ा जा सकता है.
- समूह छोटे experiments या दोस्तों के अनुरोधों को अच्छी कीमत पर पूरा करने के लिए थोड़ा overprovisioning कर सकता है.
- cluster खरीद के लिए finance को बैंकों की मदद से वितरित किया जा सकता है.
- समूह 4-6 हफ्तों के भीतर 512 H100 GPUs को online लाने की योजना बना रहा है, और यदि मांग अधिक हुई तो अतिरिक्त resources भी जोड़े जा सकते हैं.
- infrastructure debugging mailing list और Slack group ऐसे स्थान के रूप में उपलब्ध कराए जाते हैं जहाँ सदस्य infrastructure समस्याओं में मदद मांग सकते हैं.
1 टिप्पणियां
Hacker News की राय