- 2 साल पहले AWS से bare metal पर माइग्रेट करके सालाना $230,000 की बचत करने के अनुभव साझा करने के बाद, कम्युनिटी के विभिन्न सवालों पर फॉलो-अप जवाब संकलित की गई यह रिपोर्ट 2 साल के वास्तविक ऑपरेशन डेटा को सार्वजनिक करते हुए सालाना $1.2M से अधिक की बचत हासिल करने की बात कही गई है
- वास्तविक संचालन के साथ बचत बढ़कर सालाना $1.2M से अधिक हो गई, और इसे AI-आधारित incident summary और automatic code fix के लिए server निवेश में दोबारा लगाया गया, जिससे सेवा गुणवत्ता बेहतर हुई
- MicroK8s + Ceph stack के आधार पर 99.993% availability बनाए रखी गई, और dual data center configuration से single point of failure हटाया गया
- वास्तविक ऑपरेटिंग लागत, outage response, hardware lifespan, security certification, cloud replacement services जैसे मुख्य मुद्दों को ठोस संख्याओं के साथ समझाया गया है
- नतीजतन स्थिरता और cost efficiency दोनों में सुधार हुआ, और एक निश्चित पैमाने से ऊपर के लगातार लोड वाले सिस्टम के लिए Bare Metal अधिक तर्कसंगत होने का निष्कर्ष दिया गया
2 साल के संचालन परिणामों का सारांश
- 24 महीनों तक MicroK8s + Ceph stack को production environment में चलाकर 99.993% availability हासिल की गई
- single rack समस्या को खत्म करने के लिए Frankfurt में दूसरा rack जोड़ा गया, और Paris के main rack के साथ DWDM dual connection बनाई गई
- local NVMe और noise interference हटाने से customer latency में 19% की कमी आई
- बचाई गई लागत को bare metal AI server खरीदने में दोबारा निवेश किया गया, जिससे OneUptime की LLM-आधारित alert summary और automatic code fix features का विस्तार हुआ
बचत और लागत तुलना
- शुरुआती अनुमानित बचत सालाना $230,000 थी, लेकिन अब यह बढ़कर $1.2M से अधिक हो गई है
- यह AWS की तुलना में लगभग 76% की बचत के बराबर है
- वैश्विक वेतनमान के हिसाब से यह 2~5 engineers के सालाना वेतन के बराबर है
- Savings Plans / Reserved Instances लागू करने पर भी Bare Metal अब भी फ़ायदे में है
- Savings Plans, S3·Egress·Direct Connect लागत पर लागू नहीं होते
- EKS control plane लागत $1,260/माह, NAT gateway $600/माह जैसी लागत भी कम नहीं की जा सकती
- 24/7 steady workload होने के कारण reserved instance efficiency सीमित रही
माइग्रेशन और संचालन लागत
- शुरुआती माइग्रेशन लगभग 1 हफ़्ते के engineering work में पूरा हुआ
- IaC सुधार, backup policy मज़बूत करना जैसे ज़्यादातर काम वैसे भी पहले से ज़रूरी थे
- मौजूदा ऑपरेटिंग लागत इस प्रकार है:
- direct management: प्रति quarter लगभग 24 घंटे (patches·firmware update शामिल)
- Remote Hands: 24 महीनों में केवल 2 बार दखल की ज़रूरत पड़ी (मुख्यतः disk issues), औसत response time 27 मिनट
- automation: PXE boot (Tinkerbell), Talos image management, Flux/Terraform configuration automation
- संचालन टीम में AWS के समय की तुलना में उल्टा release speed बढ़ी, और “cost optimization meetings” का बोझ भी खत्म हुआ
outage preparedness और availability सुनिश्चित करना
- Frankfurt में दूसरा rack जोड़कर, DWDM dual-path connection से single point of failure हटाया गया
- asynchronous replication-आधारित Ceph mirroring और dual control plane configuration
- 4G/satellite-आधारित management path जोड़कर network outage के समय remote access संभव किया गया
- MicroK8s → Talos में migration जारी है
- AWS failover backup cluster अभी भी रखा गया है, और quarterly disaster recovery rehearsal की जाती है
- Anycast+BGP-आधारित Ingress से DNS switchover delay भी 1 मिनट से कम हो गई
- 2 साल तक 99.993% availability बनी रही, और हाल की AWS region outage का असर भी नहीं पड़ा
hardware और CapEx management
- servers को 5-year depreciation आधार पर चलाया जा रहा है (2×EPYC 9654, 1TB RAM, NVMe configuration)
- performance saturation होने पर उन्हें analytics cluster में शिफ्ट किया जाता है और नए servers लगाए जाते हैं
- बचत की वजह से अब हर 2 साल में 40% refresh संभव हो गया है, और फिर भी AWS की तुलना में सालाना लागत कम है
- Supermicro warranty extension + 3 spare servers रखे गए हैं
- वास्तविक lifespan 7~8 साल है, लेकिन हिसाब के लिए सावधानी से 5 साल माना गया है
managed services के विकल्प की तर्कशक्ति
- OneUptime की product philosophy self-hosting capability पर आधारित है, इसलिए वही stack बनाए रखना ज़रूरी है
- Kubernetes·Postgres·Redis·ClickHouse जैसी open stack consistency बनाए रखी गई
- Terraform + EKS + RDS → MicroK8s + Argo Rollouts + Ceph की ओर विकास हुआ
- बिना किसी internal fork के plain open source का उपयोग
- अब भी cloud का parallel use जारी है: AWS Glacier (backup), CloudFront (edge caching), load testing के लिए temporary instances
- cloud elasticity-केंद्रित, जबकि bare metal base load-केंद्रित उपयोग के लिए उपयुक्त है
network और security
- 5Gbps(95th percentile) की 2 links उपलब्ध हैं, जो AWS egress की तुलना में 8 गुना सस्ती हैं
- DDoS सुरक्षा Cloudflare को front में रखकर संभाली गई
- स्वतंत्र 4G/satellite-आधारित management network से outage के समय remote access संभव है
compliance और audit response
- SOC 2 Type II, ISO 27001 certification बनाए रखी गई
- colocation center के Tier III certification·access logs·CCTV डेटा का उपयोग किया गया
- Terraform/Talos configuration logs को change history evidence के रूप में उपयोग किया गया
- auditors ने AWS console screenshots की तुलना में इन्हें अधिक विश्वसनीय माना
cloud alternatives की तुलना
- Hetzner, OVH, Leaseweb, Equinix Metal, AWS Outposts की तुलना की गई
- Hyperscaler में egress लागत अब भी अधिक है
- यूरोपीय hosts के लिए बड़े Ceph cluster और SLA आवश्यकताओं को पूरा करना कठिन था
- Equinix Metal में CapEx की तुलना में 25~30% premium था
- अपना hardware चलाना power density·upgrade flexibility के लिहाज़ से बेहतर रहा
- नतीजतन 15kW rack configuration और components के पुन: उपयोग की संभावना की वजह से colocation लागत और performance दोनों में बेहतर रहा
operational burden (TOIL) का मापन
- साप्ताहिक: kernel/firmware patch और Ceph checks (1 घंटा)
- मासिक: Kubernetes control plane canary upgrade (2 घंटे)
- quarterly: DR drill, capacity planning, telecom contract review (12 घंटे)
- कुल मिलाकर महीने में लगभग 14 घंटे, जो AWS के समय के समान है, लेकिन फ़ोकस “cost tracking” से “operations automation” पर शिफ्ट हो गया
जहाँ cloud अब भी सही विकल्प है
- जब workload spiky या seasonal pattern वाला हो
- जब Aurora Serverless, Kinesis, Step Functions जैसी managed services पर निर्भरता अधिक हो
- जब Kubernetes·Ceph·monitoring·incident response को खुद चलाने की क्षमता न हो
- यानी शुरुआती चरण या बड़े variable load वाले business के लिए अब भी cloud की बढ़त मौजूद है
आगे की योजना
- Colo budget forecasting के लिए Terraform module और Runbook जारी करने की योजना
- Talos-आधारित संचालन अनुभव पर एक गहरा technical post भी तैयार किया जा रहा है
- HN·Reddit feedback का जवाब देते हुए वास्तविक संख्याओं पर आधारित केस शेयरिंग जारी रखने की योजना
3 टिप्पणियां
AWS से bare-metal पर migrate करके सालाना $230,000 (300 million won) की बचत
मैं ऐसी कंपनी में काम करता हूँ जो AWS के प्रति बेहद उत्साही है, जबकि हम AWS-विशेष कोई भी service बिल्कुल इस्तेमाल नहीं करते।
यह एक कड़वी-मीठी कहानी है कि इस फैसले पर कुछ leaders की career development जैसी बेहद निजी महत्वाकांक्षा का बड़ा असर पड़ता हुआ मैंने देखा है..
Hacker News राय
AWS बहुत महंगा है। पूरी सिस्टम को पूरी तरह AWS पर चलाने की ज़रूरत जितनी समझी जाती है, उतनी कम ही होती है। पहले लोग खुद bare-metal server चलाना जानते थे, लेकिन अब जैसे वह कौशल भूल गए हैं। हमारी टीम ने 730 दिनों से ज़्यादा समय तक 99.993% availability बनाए रखी, और हाल की AWS region outage से भी बचे रहे। DDoS defense के लिए हम Cloudflare का इस्तेमाल करते हैं, लेकिन यह समझ में आता है कि DNS या ingress management एक full-time काम बन सकता है। फिर भी, कुछ microservices और एक DB जैसी चीज़ें खुद चलाना पूरी तरह संभव है। AWS ज़्यादातर कंपनियों के लिए जरूरत से ज़्यादा महंगा पड़ता है
शुरुआती cloud सरल और cost-effective services से शुरू हुआ था, लेकिन अब वह 200 से ज़्यादा जटिल services के जाल में उलझ चुका है। ठीक से manage न करो तो बिल फट पड़ता है
AWS का असली काम है (1) organization scaling और power structure को संभव बनाना, (2) CapEx की जगह OpEx के रूप में accounting करना, (3) अक्षम staffing structure को छिपाना। पहले 5–10 लोग एक datacenter चला सकते थे, अब 3000 लोगों की DevOps organization बन जाती है
इस सफलता की कुंजी 24/7 स्थिर लोड है। असल में ज़्यादातर कंपनियों का pattern भी लगभग ऐसा ही होता है
Elasticity बनाम base load ही असली मुद्दा है। Data collection जैसे कामों में, जहाँ traffic अचानक बहुत बढ़ता है, वहीं cloud फ़ायदेमंद है। बाकी अधिकांश मामलों में bare metal बेहतर है
2010 के दशक में hardware और network धीमे थे, लेकिन अब CPU performance और efficiency सैकड़ों गुना बढ़ चुकी है। जो काम पहले 64 servers करते थे, अब 1 server काफी है। आगे चलकर यह अनुपात 100:1 तक जा सकता है। ऐसी स्थिति में cloud के फायदे लगातार घटते जाते हैं
Amazon के कर्मचारी के रूप में मेरे हिसाब से, Kubernetes को खुद manage करना बहुत जोखिमभरा है। etcd जैसे components अस्थिर होते हैं, और हमें खुद patch भी करना पड़ता था। लेख में self-hosting के जोखिम को कम करके दिखाया गया है
बहुत-से startups शायद AWS की ऊँची लागत के कारण अस्तित्व में ही नहीं आ पाते। उदाहरण के लिए, GeoIP की मुफ्त download सेवा(लिंक) जैसी चीज़ संभव नहीं होती। Cloud धीमा है, और disk latency तथा CPU overcommit गंभीर होते हैं। महीने के 10,000 डॉलर से नीचे तक तो यह ठीक है, लेकिन उसके ऊपर bare metal कहीं ज़्यादा कुशल है
जिस कंपनी में मैं काम करता था, उसका traffic कम था, फिर भी वह AWS पर जाना चाहती थी। वजह सीधी थी — resume में AWS जोड़ना। सिर्फ developers नहीं, management भी यही चाहता था। “AWS migration lead” करियर में अच्छा दिखता था। आखिरकार कंपनी बिक गई और office खाली हो गया। अब शायद “AWS से बाहर निकला” भी नया career point बन जाए
अंत में असली बात यह है कि आप करना क्या चाहते हैं