GPU के बारे में गलतफ़हमियां

(fly.io)

7 पॉइंट द्वारा GN⁺ 2025-02-15 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Fly.io अपने स्वयं के हार्डवेयर का उपयोग करने वाला एक public cloud बना रहा है और AI/ML inference उपलब्ध कराने के लक्ष्य से Fly GPU Machines विकसित कर रहा है
Fly GPU Machines, Docker/OCI containers चलाने वाली VM हैं, जिन्हें NVIDIA GPU को सीधे map करके तेज़ CUDA operations संभव बनाने के लिए डिज़ाइन किया गया है
AI/ML का महत्व अपेक्षा से बड़ा निकला, लेकिन GPU products बाज़ार की ज़रूरतों को ठीक से प्रतिबिंबित नहीं कर पाए, ऐसा लगता है

GPU अपनाने की तकनीकी कठिनाइयाँ

Fly GPU Machines को Firecracker की जगह Intel के Cloud Hypervisor का उपयोग करके PCI passthrough support देने के लिए डिज़ाइन किया गया
NVIDIA का ecosystem micro VM hypervisor को support नहीं करता, इसलिए GPU security और performance optimization कठिन हो जाती है
GPU security team की चिंता का विषय थे; वे bidirectional DMA (Direct Memory Access) transfers और user-controlled operations की अनुमति देते हैं, जिससे उच्च security risk पैदा होता है
GPU और non-GPU workloads को अलग करने के लिए अलग server hardware का उपयोग करना पड़ा, जिससे लागत के लिहाज़ से अक्षम संरचना बनी
security verification के लिए Atredis और Tetrel के साथ बड़े पैमाने पर security assessment किया गया, जिसमें बहुत लागत और समय लगा

तकनीकी trial and error

NVIDIA द्वारा सुझाए गए तरीके (K8s cluster बनाना या QEMU का उपयोग) का पालन करने के बजाय, Fly Machines की तेज़ startup speed बनाए रखने की कोशिश की गई
Intel Cloud Hypervisor पर NVIDIA के virtual GPU (vGPU) drivers का उपयोग करने की कोशिश की गई, लेकिन यह असफल रही
NVIDIA के closed driver environment के कारण GPU का कुशलतापूर्वक उपयोग करने वाली संरचना बनाना कठिन था
GPU का उपयोग करते हुए model weight loading optimization की ज़रूरत थी, लेकिन developer experience (DX) बनाए रखते हुए इसे हल करना मुश्किल था
बहुत सारे GPU खरीदे गए, लेकिन अपेक्षित परिणाम नहीं मिले

GPU business model के असफल होने के कारण

आम developers को GPU से ज़्यादा LLM चाहिए
- AI/ML model optimization की तुलना में OpenAI, Anthropic जैसे LLM API का उपयोग करना अधिक आसान है, और performance का अंतर भी बहुत बड़ा नहीं है
- अधिकांश developers "tokens per second" इकाई में performance को महत्व देते हैं; GPU द्वारा दी जाने वाली milliseconds स्तर की optimization में उनकी विशेष रुचि नहीं होती
बड़े पैमाने पर AI काम करने वाली कंपनियों को विशाल GPU compute capacity चाहिए, और एक अकेला A100 GPU भी काफ़ी नहीं होता
- बड़े AI labs और कंपनियाँ SXM-आधारित H100 clusters चाहती हैं
हल्के ML workloads के लिए छोटे GPU बाज़ार के मौजूद होने की संभावना है, लेकिन पूरी तरह virtualized environment में NVIDIA MIG का उपयोग करना कठिन है
L40S GPU उपयोगी साबित हुए हैं, लेकिन वे Fly.io के core business growth driver नहीं बन पाए

मिली सीख

शुरुआती दौर (2022) में उम्मीद थी कि कई तरह के AI models सामने आएंगे, लेकिन अब स्थिति OpenAI, Anthropic जैसे कुछ LLM models पर सिमटती दिख रही है
Fly.io इस सिद्धांत का पालन करता है: "10,000 developers के लिए features डिज़ाइन करो"
- GPU सिर्फ 10,001वें developer के लिए feature साबित हुआ, इसलिए उसका मुख्य product बन पाना मुश्किल था
startup कई बार कोशिशों से सीखते हैं, और GPU अपनाना ऐसी ही एक असफल betting थी
GPU से जुड़ा निवेश पूरी तरह नुकसान नहीं है; कुछ hardware बाद में बेचे जा सकते हैं
Fly Machines की security और developer experience बनाए रखते हुए GPU support को सीमित करने की दिशा में समायोजन संभव है
जैसे Fly.io का शुरुआती product, JavaScript edge computing runtime, बाज़ार की मांग के अनुरूप नहीं था और अंततः container support की ओर pivot करना पड़ा, वैसे ही GPU भी बाज़ार की ज़रूरतों से मेल न खाने वाला विकल्प साबित हुआ
startup अक्सर गलत धारणाओं के ज़रिए सही जवाब तक पहुँचते हैं, और GPU का यह मामला भी उसी प्रक्रिया का एक हिस्सा था

1 टिप्पणियां

GN⁺ 2025-02-15

Hacker News राय

डेवलपर्स GPU या AI/ML models से ज़्यादा LLMs चाहते हैं। सिस्टम इंजीनियर्स CUDA और GPU की परवाह करते हैं, लेकिन सॉफ़्टवेयर डेवलपर्स नहीं
- सॉफ़्टवेयर डेवलपर्स के बीच बड़ा विभाजन है। कुछ लोग यह समझना चाहते हैं कि कोड कहाँ चलता है और कैसे काम करता है
- दूसरा समूह सिर्फ git push के साथ काम ख़त्म करना चाहता है, और DNS या Linux जैसी चीज़ों को समझना नहीं चाहता
- fly.io जैसी कंपनियाँ बाद वाले समूह को आकर्षित करती हैं। GPU instances पहले समूह को आकर्षित करते हैं
- इन दोनों बाज़ारों को अलग तरह से अप्रोच करना चाहिए। बाद वाले समूह को abstraction और automation बहुत बेची जा सकती है
2012 से Moore's law व्यावहारिक रूप से समाप्त हो चुकी है। single-thread execution 2GHz पर रुक गया
- 2012-2022 के दौरान cloud की ओर शिफ्ट होने से single-thread की ठहराव पर ध्यान नहीं गया
- 2022 में data centers को एहसास हुआ कि उन्हें ज़्यादा cores वाले अगली पीढ़ी के chips खरीदने की ज़रूरत नहीं है
- LLMs 100% parallel processing योग्य हैं, इसलिए फिर से capital invest किया जा सकता है
- 2024 में wafer-scale silicon आएगा। यह Llama models को A100 से 10 गुना तेज़ चला सकता है
- सॉफ़्टवेयर को इस performance का उपयोग करने के तरीके खोजने होंगे
fly GPU machines बहुत तेज़ और भरोसेमंद हैं, और alternatives की तुलना में महंगे नहीं हैं
- DX शानदार है। नए commands सीखने की ज़रूरत नहीं है
- उम्मीद है कि कीमत और कम हो तथा यह और ज़्यादा regions में उपलब्ध हो
4090 खरीदा, लेकिन 24GB VRAM पर्याप्त नहीं है
- 2 या उससे ज़्यादा 3090 और custom power supply बेहतर विकल्प होते
- performance और quality अभी भी पर्याप्त नहीं हैं
Fly को चुनने वाले ग्राहक शायद लंबे समय तक dedicated GPU servers इस्तेमाल करने वाले आख़िरी लोग होंगे
- उनके serverless solutions इस्तेमाल करने की संभावना ज़्यादा है
GPU slices न होना खलता है। महीने के $1,000 की लागत को सही ठहराना मुश्किल है
- AMD consumer GPU को Raspberry Pi से जोड़ना आर्थिक रूप से बेहतर हो सकता है
"हम ग़लत थे" अंग्रेज़ी की सबसे महान और सुंदर पंक्तियों में से एक है
Fly.io, Cloudflare के Workers platform जैसे डेवलपर्स को आकर्षित करता है
- वे PaaS environment की development speed चाहते हैं
- Cloudflare, GPU के साथ PaaS approach बनाए रखते हुए Workers AI बना रहा है
Runpod पर serverless endpoint सेट करने में एक महीना लगा, और वह महंगा तथा भरोसेमंद नहीं था
- Google Cloud credits का उपयोग करके प्रोडक्ट को ग्राहकों तक पहुँचाया जा सका
- GPU providers की मांग है। यह स्पष्ट नहीं है कि Fly इस बाज़ार में प्रवेश कर पाएगा या नहीं

GPU के बारे में गलतफ़हमियां

GPU अपनाने की तकनीकी कठिनाइयाँ

तकनीकी trial and error

GPU business model के असफल होने के कारण

मिली सीख

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय