1 पॉइंट द्वारा GN⁺ 2025-06-05 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Cloud Run में GPU अब आधिकारिक रूप से समर्थित (GA) है, जिससे AI वर्कलोड चलाना और आसान हो गया है
  • अब Cloud Run jobs में भी GPU का उपयोग संभव है, जो batch processing और asynchronous कार्यों के लिए नई संभावनाएँ खोलता है
  • image processing, natural language analysis, media conversion जैसे बड़े पैमाने के batch कार्यों के लिए यह एक अनुकूलित वातावरण प्रदान करता है

Cloud Run GPU: आधिकारिक उपलब्धता और प्रमुख बदलाव

Cloud Run jobs में NVIDIA GPU सपोर्ट शुरू

  • Cloud Run की GPU क्षमता पहले मुख्य रूप से real-time inference जैसी request-based services में उपयोग की जाती थी
  • अब Cloud Run jobs में भी GPU सपोर्ट आधिकारिक हो गया है, जिससे नए use cases संभव हुए हैं
    • मॉडल फाइन-ट्यूनिंग: pre-trained models को किसी विशेष dataset के अनुरूप आसानी से फिर से train किया जा सकता है
    • batch AI inference: images का analysis, natural language processing, और recommendations generate करने जैसे बड़े कार्यों के लिए उपयुक्त
    • बड़े पैमाने पर media processing: video transcoding, thumbnail generation, image conversion आदि को GPU की मदद से अधिक कुशलता से किया जा सकता है
  • GPU-सुसज्जित Cloud Run job कार्य पूरा होने के बाद अपने resources अपने-आप कम कर देता है, जिससे management burden न्यूनतम रहता है

शुरुआती अपनाने वाली कंपनियों का वास्तविक अनुभव

  • vivo: Cloud Run ने AI application के iterative development को तेज किया और operations व maintenance cost में बड़ी बचत कराई। GPU की autoscaling क्षमता ने overseas markets में AI adoption की efficiency को उल्लेखनीय रूप से बढ़ाया
  • Wayfair: L4 GPU ने मजबूत performance और उचित मूल्य का संतुलन दिया, और Cloud Run की तेज autoscaling के साथ मिलकर लगभग 85% cost reduction हासिल की
  • Midjourney: Cloud Run GPU बड़े पैमाने की image processing के लिए बहुत उपयोगी है, और इसके सरल development environment की वजह से infrastructure management के झंझट के बिना innovation पर ध्यान केंद्रित किया जा सकता है। GPU scalability के कारण लाखों images का analysis और processing आसान हो जाता है

शुरुआत के लिए मार्गदर्शन और संसाधन

  • Cloud Run में GPU सपोर्ट के साथ अगली पीढ़ी की application development के लिए उपयुक्त वातावरण उपलब्ध हो गया है
  • आधिकारिक दस्तावेज़, quickstart guide, और optimization best practices की मदद से कोई भी आसानी से शुरुआत कर सकता है
  • GPU-सक्षम Cloud Run job के private preview में भाग लेने के लिए आवेदन भी किया जा सकता है

निष्कर्ष

  • Cloud Run का आधिकारिक GPU सपोर्ट AI, बड़े पैमाने की batch processing, media conversion जैसे विभिन्न विशेषज्ञ वर्कलोड के लिए क्रांतिकारी scalability प्रदान करता है
  • cost, operational efficiency, और scalability जैसे कई लाभों को वास्तविक कंपनियों ने साबित किया है
  • आसान configuration और विविध learning resources के आधार पर कोई भी आसानी से cloud-आधारित GPU वर्कलोड शुरू कर सकता है

1 टिप्पणियां

 
GN⁺ 2025-06-05
Hacker News राय
  • मुझे Google Cloud Run बहुत पसंद है, इसलिए मैं इसे सबसे बेहतरीन विकल्प मानकर जोरदार सिफारिश करता हूँ। लेकिन Cloud Run GPU की सिफारिश करना मुश्किल लगता है। instance-based billing अप्रभावी है, और GPU विकल्प भी सीमित हैं। जब मॉडल को GPU memory में load/unload किया जाता है, तब performance गिरने की वजह से serverless environment में इसकी धीमी होने की सीमा है। वास्तविक लागत की तुलना करें तो अगर दिन में 30% उपयोग भी हो, तब भी VM+GPU संयोजन अधिक किफायती पड़ता है। (संबंधित ब्लॉग लिंक)

    • Google के VP। feedback के लिए धन्यवाद। मौजूदा pricing structure में, जहाँ service capacity लगभग लगातार चाहिए होती है, वहाँ VM को पहले से provision करना अधिक cost-efficient है—इस बात से मैं सामान्यतः सहमत हूँ। दूसरी ओर, Cloud Run GPU उन environments के लिए optimized है जहाँ नए products या AI apps की तरह अचानक peak demand आती है, idle cost न्यूनतम रखनी होती है, startup बहुत तेज चाहिए, और traffic कम व अनियमित होता है

    • Cloud Run सचमुच शानदार service लगती है। अनुभव के आधार पर कहूँ तो AWS के ECS/Fargate की तुलना में इसे संभालना बहुत आसान है

    • GCP में सबसे बड़ी समस्या यह है कि VM पर भरोसा करके इस्तेमाल नहीं किया जा सकता। बड़े cloud providers में यह issue हर जगह है। AWS में 80GB GPU लंबी reservation के बिना मिलना मुश्किल है, और दाम बेतुके हैं। GCP भी उतना ही महँगा है और availability भी कम है। बड़ी कंपनियाँ खुद को startup-friendly कहती हैं, लेकिन वास्तविक अनुभव ऐसा नहीं है। runpod, nebius, lambda जैसे neo-cloud कहीं बेहतर service देते हैं। बड़े cloud providers fixed demand पर संतुष्ट हैं और startups का ध्यान नहीं रख रहे—मुझे लगता है कि यह उनकी लंबी अवधि की growth के लिए बड़ी गलती है

    • Cloud Run के साथ मेरा अनुभव उल्टा रहा। किसी अज्ञात scale-out/restart issue की वजह से मैंने paid support service तक खरीदी और पूछताछ की, लेकिन जवाब नहीं मिला। आखिरकार मुझे खुद VM self-manage करने पड़ गए। उसके बाद इसमें सुधार हुआ या नहीं, यह पता नहीं

    • Cloud Run को सर्वश्रेष्ठ मानने वाली राय पर, मेरा रुख है कि मैं खुद numbers देखना चाहूँगा। toy projects के लिए यह अच्छा है, लेकिन production में यह cost pit बन जाता है। एक project के दौरान autoscaling issues लगातार आते रहे। 'scale to zero' सिद्धांत में अच्छा लगता है, लेकिन व्यवहार में warm-up के दौरान एक request पर कई containers उठ जाते हैं और लंबे समय तक चलते रहते हैं। ऐसे containers का भी बिल आता रहता है जिनमें न CPU उपयोग दिखता है न network activity। Java या Python projects में cold start बहुत धीमा है; Go/C++/Rust के साथ मेरा अनुभव नहीं है, इसलिए उस पर कुछ नहीं कह सकता

  • बड़े cloud की जटिलता के ऊपर, unlimited YOLO billing का डर भी है—यानी रातों-रात credit card खाली हो सकता है। इसलिए मैं Modal और vast.ai पर ही बना रहूँगा

    • personal/small project users के नज़रिये से देखें तो cost ceiling (CAP) न देना GCP की बड़ी कमजोरी है। Cloud Run में concurrency limit और instance count limit के जरिए कम-से-कम अप्रत्यक्ष रूप से लागत को रोका जा सकता है। फिर भी यह एक असली CAP नहीं है

    • AWS में instance बंद करना भूल जाने की वजह से मैंने पहले भारी बिल भरा है, इसलिए Cloud Run का scale to zero और per-second billing बहुत बड़ा फायदा है। अगर startup वास्तव में बहुत तेज है, तो यह मेरे workload के लिए लगभग perfect होगा

    • Cloud Run में maximum instance count सेट करके maximum cost को अप्रत्यक्ष रूप से सीमित किया जा सकता है। App Engine के समय का 'hard cap' वास्तव में तब बुरा side effect लाता था जब service अचानक ऊपर जाती थी (जैसे HN पर आना)—service पूरी तरह रुक जाती थी। मेरे हिसाब से alert-based budget management बेहतर विकल्प है

    • production में मैंने Datadog को वास्तव में इसी वजह से छोड़ा। सवाल यह है कि क्या platforms के लिए यह सही सौदा है कि users गलती से overbilling झेलें और उसके कारण बुरा impression बने

    • स्पष्ट नहीं है कि Modal या vast.ai YOLO billing को कैसे रोकते हैं। क्या वे prepaid model पर चलते हैं, या direct CAP देते हैं—जानना चाहूँगा

  • खुद price comparison करने पर यह उतना आकर्षक नहीं लगा। Google, runpod.io, और vast.ai की hourly pricing को टेबल में इस तरह रखा गया है:

      1x L4 24GB:  google: $0.71, runpod.io: $0.43, 스팟: $0.22  
      4x L4 24GB:  google: $4.00, runpod.io: $1.72, 스팟: $0.88  
      1x A100 80GB: google: $5.07, runpod.io: $1.64, 스팟: $0.82, vast.ai $0.880, 스팟: $0.501  
      1x H100 80GB: google: $11.06, runpod.io: $2.79, 스팟: $1.65, vast.ai $1.535, 스팟: $0.473  
      8x H200 141GB: google: $88.08, runpod.io: $31.92, vast.ai $15.470, 스팟: $14.563
    

    Google pricing को देखकर ऐसा लगता है जैसे यह महीने भर 24/7 चलाने के हिसाब से है, जबकि runpod.io और vast.ai per-second billing करते हैं। Google GPU का spot pricing मुझे नहीं मिला

    • 'Create compute instance' में spot pricing तुरंत देखी जा सकती है। उदाहरण के लिए GCP में 1xH100 spot की कीमत $2.55 प्रति घंटा है, और लंबे उपयोग पर discount भी मिलता है। असली enterprise customers तो इस pricing पर और discount भी पा सकते हैं। सिर्फ सामान्य users list price चुकाते हैं

    • vast.ai pricing का source क्या है, यह जानना चाहूँगा। homepage पर 8xH200 विकल्प ज़्यादातर $21.65/घंटा या उससे ऊपर दिखते हैं

    • यह मानने का आधार क्या है कि Google pricing 24/7 usage के हिसाब से है? Cloud Run के official pricing page पर लिखा है कि billing वास्तविक उपयोग के आधार पर 100 millisecond unit में होती है, और autoscaling भी idle instances को 15 मिनट बाद स्वतः कम कर देता है (Cloud Run PM)

    • क्या Cloud Run GPU में सिर्फ 1xL4 ही चुना जा सकता है?

    • अगर Google pricing भी per-second है, तो 20 मिनट से कम उपयोग के लिए शायद Google उल्टा अधिक फायदेमंद हो सकता है

  • मैं Modal का बड़ा प्रशंसक हूँ और लंबे समय से serverless scale-to-zero GPU इस्तेमाल कर रहा हूँ। जरूरत पड़ने पर बड़े पैमाने पर आसानी से scale up किया जा सकता है, और development burden भी काफी कम है। यह दिलचस्प है कि बड़े providers अब इस बाज़ार में आ रहे हैं। मैं Modal पर इसलिए गया क्योंकि पुराने बड़े cloud providers यह capability देते ही नहीं थे (AWS Lambda में GPU support नहीं था)। अब क्या सभी major clouds इसी दिशा में जा रहे हैं—यह सवाल है

    • Modal सचमुच शानदार है। उसका self-published LP (linear programming) solver deep dive भी प्रभावशाली था। अगर आप Python developer हैं, तो Coiled भी recommend करूँगा। यह Modal जितना तेज नहीं है, लेकिन GPU VM आसानी से spin up कर देता है, और सब कुछ आपके अपने cloud account में चलता है। CUDA drivers/Python libraries synchronization जैसी सुविधाजनक package management भी देता है। (नोट: मैं Coiled से जुड़ा हूँ, लेकिन recommendation दिल से है)

    • HIPAA-compliant workloads तक support करना भी उम्मीद से बढ़कर फायदा है

    • 10GB से बड़े models के लिए Modal का cold start सबसे तेज है

    • Modal का documentation भी बहुत अच्छी तरह व्यवस्थित है

  • Cloud Run के दूसरे services से बेहतर होने का सबसे बड़ा कारण है autoscaling और scale-to-zero। जब वास्तविक उपयोग नहीं होता, तब व्यावहारिक रूप से billing 0 हो जाती है, और maximum instance count तय करके maximum cost भी स्थिर रूप से manage की जा सकती है। हाँ, यह बात CPU version के उपयोग के संदर्भ में है, और यह बहुत reliable और इस्तेमाल में आसान है

    • लेकिन सामान्य Cloud Run में भी cold start boot time अक्सर लंबा होता है (लगभग 3~30 सेकंड), इसलिए scale-to-zero इस्तेमाल करने पर latency issue आता है
  • यूरोप का छोटा GPU cloud provider DataCrunch (कोई संबंध नहीं) RunPod आदि की तुलना में सस्ते Nvidia GPU VM देता है

    1x A100 80GB 1.37 यूरो/घंटा
    1x H100 80GB 2.19 यूरो/घंटा

    • lambda.ai पर 1x H100 80GB VM $2.49/घंटा में मिलता है। exchange rate के हिसाब से यह ठीक 2.19 यूरो बैठता है। यह महज़ संयोग है या industry में कोई अदृश्य upper bound है—सोचने वाली बात है

    • Vast.ai पर P2P तरीके से 2x A100 को $0.8/घंटा में इस्तेमाल किया जा सकता है (यानी एक A100 के लिए $0.4/घंटा)। मैं सिर्फ संतुष्ट user हूँ। network speed का ध्यान रखना चाहिए। कुछ hosts bandwidth share करते हैं, इसलिए वास्तविक speed advertised speed से अलग हो सकती है। बड़े data transfer में सावधानी ज़रूरी है

  • Cloud Run/GKE के VP/GM। इससे जुड़े सवालों के जवाब देने के लिए तैयार हूँ। इतनी रुचि दिखाने के लिए धन्यवाद

  • मुझे Cloud Run पसंद है, और यह नया feature भी दिलचस्प लग रहा है। लेकिन अफसोस यह है कि self-hosted GitHub runners चलाना चाहा तो root permission issue के कारण support नहीं मिला। और नया worker pool feature भी व्यवहार में ऐसा निकला कि scaler खुद लिखना पड़ता है—यानी यह सच में built-in capability नहीं था

    • Serverless और Worker Pools Autoscaling के Eng Manager। हम अभी roadmap को सक्रिय रूप से परिभाषित कर रहे हैं, और अगर आप अपने वास्तविक workload use cases email से साझा करें तो बहुत मदद मिलेगी। worker pools और scaling की जरूरत वाले workloads पर feedback का स्वागत है
  • vertex.ai पर models को testing के लिए चलाते-चलाते बंद करना भूल गया था और $1000 का bill आ गया। उसके बाद लगता है Cloud Run मेरा go-to service बन जाएगा। कई सालों से Cloud Run पर production microservices और hobby projects चला रहा हूँ, और इसकी simplicity व cost-efficiency दोनों से संतुष्ट हूँ

  • अगर मेरी समझ सही है, तो Hugging Face जैसे arbitrary models को चलाने वाला API बनाया जा सकता है, और भले ही billing token-based न हो, लेकिन अगर usage load कम हो तो इसे काफी सस्ते में चलाया जा सकता है। अगर सच में ऐसा है, तो यह बड़ा innovation है। अब तक ज़्यादातर providers custom models चलाने के लिए monthly subscription माँगते थे

    • मूल रूप से बात सही है। लेकिन cold start बहुत धीमा हो सकता है (30~60 सेकंड)। यह scale to zero की downside है। साथ ही container storage जैसी कुछ छोटी monthly charges भी लगती हैं—यह ध्यान रखना चाहिए

    • Runpod, vast, coreweave, replicate आदि कई alternatives हैं जो serverless GPU inference support करते हैं