- Fly.io अपने स्वयं के हार्डवेयर का उपयोग करने वाला एक public cloud बना रहा है और AI/ML inference उपलब्ध कराने के लक्ष्य से Fly GPU Machines विकसित कर रहा है
- Fly GPU Machines, Docker/OCI containers चलाने वाली VM हैं, जिन्हें NVIDIA GPU को सीधे map करके तेज़ CUDA operations संभव बनाने के लिए डिज़ाइन किया गया है
- AI/ML का महत्व अपेक्षा से बड़ा निकला, लेकिन GPU products बाज़ार की ज़रूरतों को ठीक से प्रतिबिंबित नहीं कर पाए, ऐसा लगता है
GPU अपनाने की तकनीकी कठिनाइयाँ
- Fly GPU Machines को Firecracker की जगह Intel के Cloud Hypervisor का उपयोग करके PCI passthrough support देने के लिए डिज़ाइन किया गया
- NVIDIA का ecosystem micro VM hypervisor को support नहीं करता, इसलिए GPU security और performance optimization कठिन हो जाती है
- GPU security team की चिंता का विषय थे; वे bidirectional DMA (Direct Memory Access) transfers और user-controlled operations की अनुमति देते हैं, जिससे उच्च security risk पैदा होता है
- GPU और non-GPU workloads को अलग करने के लिए अलग server hardware का उपयोग करना पड़ा, जिससे लागत के लिहाज़ से अक्षम संरचना बनी
- security verification के लिए Atredis और Tetrel के साथ बड़े पैमाने पर security assessment किया गया, जिसमें बहुत लागत और समय लगा
तकनीकी trial and error
- NVIDIA द्वारा सुझाए गए तरीके (K8s cluster बनाना या QEMU का उपयोग) का पालन करने के बजाय, Fly Machines की तेज़ startup speed बनाए रखने की कोशिश की गई
- Intel Cloud Hypervisor पर NVIDIA के virtual GPU (vGPU) drivers का उपयोग करने की कोशिश की गई, लेकिन यह असफल रही
- NVIDIA के closed driver environment के कारण GPU का कुशलतापूर्वक उपयोग करने वाली संरचना बनाना कठिन था
- GPU का उपयोग करते हुए model weight loading optimization की ज़रूरत थी, लेकिन developer experience (DX) बनाए रखते हुए इसे हल करना मुश्किल था
- बहुत सारे GPU खरीदे गए, लेकिन अपेक्षित परिणाम नहीं मिले
GPU business model के असफल होने के कारण
- आम developers को GPU से ज़्यादा LLM चाहिए
- AI/ML model optimization की तुलना में OpenAI, Anthropic जैसे LLM API का उपयोग करना अधिक आसान है, और performance का अंतर भी बहुत बड़ा नहीं है
- अधिकांश developers "tokens per second" इकाई में performance को महत्व देते हैं; GPU द्वारा दी जाने वाली milliseconds स्तर की optimization में उनकी विशेष रुचि नहीं होती
- बड़े पैमाने पर AI काम करने वाली कंपनियों को विशाल GPU compute capacity चाहिए, और एक अकेला A100 GPU भी काफ़ी नहीं होता
- बड़े AI labs और कंपनियाँ SXM-आधारित H100 clusters चाहती हैं
- हल्के ML workloads के लिए छोटे GPU बाज़ार के मौजूद होने की संभावना है, लेकिन पूरी तरह virtualized environment में NVIDIA MIG का उपयोग करना कठिन है
- L40S GPU उपयोगी साबित हुए हैं, लेकिन वे Fly.io के core business growth driver नहीं बन पाए
मिली सीख
- शुरुआती दौर (2022) में उम्मीद थी कि कई तरह के AI models सामने आएंगे, लेकिन अब स्थिति OpenAI, Anthropic जैसे कुछ LLM models पर सिमटती दिख रही है
- Fly.io इस सिद्धांत का पालन करता है: "10,000 developers के लिए features डिज़ाइन करो"
- GPU सिर्फ 10,001वें developer के लिए feature साबित हुआ, इसलिए उसका मुख्य product बन पाना मुश्किल था
- startup कई बार कोशिशों से सीखते हैं, और GPU अपनाना ऐसी ही एक असफल betting थी
- GPU से जुड़ा निवेश पूरी तरह नुकसान नहीं है; कुछ hardware बाद में बेचे जा सकते हैं
- Fly Machines की security और developer experience बनाए रखते हुए GPU support को सीमित करने की दिशा में समायोजन संभव है
- जैसे Fly.io का शुरुआती product, JavaScript edge computing runtime, बाज़ार की मांग के अनुरूप नहीं था और अंततः container support की ओर pivot करना पड़ा, वैसे ही GPU भी बाज़ार की ज़रूरतों से मेल न खाने वाला विकल्प साबित हुआ
- startup अक्सर गलत धारणाओं के ज़रिए सही जवाब तक पहुँचते हैं, और GPU का यह मामला भी उसी प्रक्रिया का एक हिस्सा था
1 टिप्पणियां
Hacker News राय
डेवलपर्स GPU या AI/ML models से ज़्यादा LLMs चाहते हैं। सिस्टम इंजीनियर्स CUDA और GPU की परवाह करते हैं, लेकिन सॉफ़्टवेयर डेवलपर्स नहीं
git pushके साथ काम ख़त्म करना चाहता है, और DNS या Linux जैसी चीज़ों को समझना नहीं चाहता2012 से Moore's law व्यावहारिक रूप से समाप्त हो चुकी है। single-thread execution 2GHz पर रुक गया
fly GPU machines बहुत तेज़ और भरोसेमंद हैं, और alternatives की तुलना में महंगे नहीं हैं
4090 खरीदा, लेकिन 24GB VRAM पर्याप्त नहीं है
Fly को चुनने वाले ग्राहक शायद लंबे समय तक dedicated GPU servers इस्तेमाल करने वाले आख़िरी लोग होंगे
GPU slices न होना खलता है। महीने के $1,000 की लागत को सही ठहराना मुश्किल है
"हम ग़लत थे" अंग्रेज़ी की सबसे महान और सुंदर पंक्तियों में से एक है
Fly.io, Cloudflare के Workers platform जैसे डेवलपर्स को आकर्षित करता है
Runpod पर serverless endpoint सेट करने में एक महीना लगा, और वह महंगा तथा भरोसेमंद नहीं था