S3 Express ही आपकी सारी ज़रूरतों के लिए काफ़ी है

(warpstream.com)

9 पॉइंट द्वारा GN⁺ 2023-12-07 | 3 टिप्पणियां | WhatsApp पर शेयर करें

AWS की नई S3 Express One Zone low-latency storage class इस समय data infrastructure community में ध्यान खींच रही है
- data access की गति 10 गुना तेज़ है, और API request की लागत 50% कम है। यह प्रति मिनट लाखों requests संभाल सकती है
S3 Express storage class, मौजूदा S3 Standard की तुलना में प्रति GiB 8 गुना महंगी है, इसलिए बड़े data systems के लिए यह मुख्य storage के रूप में उपयुक्त नहीं है
API operations की लागत 50% कम है, लेकिन यह बेहद सस्ती नहीं है, इसलिए जिन workloads के लिए पहले S3 API की लागत के कारण इसका उपयोग व्यावहारिक नहीं था, उनके लिए यह अब भी सही विकल्प नहीं है
S3 Express, 512 KiB से अधिक वाले सभी API operations (write + read) पर प्रति GiB शुल्क लेती है
- दूसरे शब्दों में, हर API operation के साथ 512 KiB की "मुफ़्त" bandwidth मिलती है, और केवल उससे अधिक उपयोग पर ही शुल्क देना पड़ता है
लेकिन क्योंकि यह One Zone storage class है, data systems को एक single AZ failure से बचाव के लिए डेटा को हाथ से दो AZs में replicate करना होगा
- दो AZs में डेटा को दो बार लिखने की लागत, application layer पर हाथ से data replicate करने की लागत के लगभग समान है

आधुनिक data infrastructure के लिए नया अवसर

यह नई storage class एक नया अवसर देती है, जिसमें वही architecture और code इस्तेमाल करते हुए low latency और high cost, या high latency और low cost के बीच संतुलन बनाया जा सकता है
अब सभी आधुनिक data systems को local disk या block storage (EBS) की availability के आधार पर design करने की ज़रूरत नहीं है, बल्कि उन्हें object storage के आधार पर पूरी तरह बनाया जा सकता है
डेटा को low-latency S3 Express bucket में आसानी से रखा जा सकता है और बाद में asynchronous तरीके से S3 Standard bucket में ले जाया जा सकता है, और अधिकांश आधुनिक data systems में पहले से compression की सुविधा होती है, इसलिए "storage tiering" लगभग मुफ़्त जैसा है

GN⁺ की राय

इस लेख का सबसे महत्वपूर्ण बिंदु यह है कि AWS की नई S3 Express One Zone storage class data infrastructure में किस तरह का बदलाव ला सकती है। यह storage class data systems की लागत और performance को बड़े स्तर पर बेहतर बनाने के नए अवसर देती है, और इससे data management व storage के तरीकों में बड़ा बदलाव आ सकता है। खास तौर पर, सभी data systems को object storage-केंद्रित बनाकर तैयार करने की क्षमता कई कंपनियों और developers के लिए एक आकर्षक विकल्प हो सकती है। उम्मीद है कि यह बदलाव data infrastructure के भविष्य को और अधिक लचीला तथा cost-efficient बनाएगा।

3 टिप्पणियां

kuroneko 2023-12-07

इसे कैसे इस्तेमाल किया जाएगा, यह जानने की उत्सुकता है।

heycalmdown 2023-12-07

मैंने अभी कल ही WarpStream को फिर से खोजकर देखा था, इसलिए लिंक साझा कर रहा/रही हूँ
https://hi.news.hada.io/topic?id=10234

GN⁺ 2023-12-07

Hacker News राय

S3-आधारित अधिकांश प्रोडक्शन स्टोरेज सिस्टम/डेटाबेस उपयोगी परफॉर्मेंस देने के लिए SSD/मेमोरी caching layer बनाने में काफी मेहनत लगाते हैं.
- S3 Express की गति HDD random read स्पीड के करीब है, इसलिए SSD cache के बिना भी प्रोडक्शन सिस्टम बनाए जा सकते हैं.
- कई सिस्टम फिर भी SSD cache बनाए रखेंगे, लेकिन अब MVP को SSD cache के बिना बनाया जा सकता है, और cold query latency काफी कम हो जाती है.
- मैं इस समय object storage के ऊपर vector database बना रहा हूँ, इसलिए यह तकनीक बहुत सही समय पर आई है.
AWS S3 Express की स्टोरेज लागत S3 Standard से 8 गुना अधिक है, लेकिन आधुनिक data storage systems के लिए यह समस्या नहीं है.
- डेटा को low-latency S3 Express bucket में आसानी से रखा जा सकता है, और फिर async तरीके से compress करके S3 Standard bucket में भेजा जा सकता है.
- अधिकांश आधुनिक data systems में compression पहले से होती है, इसलिए "storage tiering" लगभग मुफ्त है.
- मुझे लगता है कि भविष्य में अधिकांश data-intensive apps primary storage layer के रूप में S3 का उपयोग करेंगे.
कुछ हफ्ते पहले search engine Quickwit में S3 Express का परीक्षण किया गया.
- परफॉर्मेंस के लिहाज से यह संतोषजनक था, लेकिन कीमत निराशाजनक लगी.
- कुछ खास use cases में कीमत सही हो सकती है, लेकिन उम्मीद है कि ज़्यादातर उपयोगकर्ता मौजूदा S3 में local SSD caching जोड़ेंगे.
अतिरिक्त संदर्भ के रूप में, warpstream S3 को object store के रूप में इस्तेमाल करने वाला Kafka-compatible streaming system बना रहा है.
- इससे सस्ती zone transfer cost और automatic storage tiering का लाभ लेकर सिस्टम के संचालन और रखरखाव की लागत कम होती है.
- S3 की read/write स्पीड से होने वाली latency एक समस्या थी, लेकिन S3 Express की वजह से अब यह latency-sensitive applications में Confluent Kafka के managed product से प्रतिस्पर्धा कर सकता है.
लोकल में फ़ाइलों को S3 पर अपलोड करने से पहले Redis में cache करके इस समस्या को हल किया गया.
- जब codebase को फ़ाइल चाहिए होती है, तो वह Redis को देखता है; अगर वहाँ नहीं होती, तो उसे fetch करके फिर से cache कर देता है.
समझ नहीं आता कि EFS, S3 से कहीं बेहतर होने के बावजूद, उतना ध्यान क्यों नहीं पाता.
- इसे सिस्टम में drive की तरह mount किया जा सकता है, सिस्टमों के बीच share किया जा सकता है, और इसमें पहले से ही बहुत कम latency है.
- जब EFS पहले से मौजूद है, तो S3 Express वास्तव में कितना उपयोगी है, इस पर भरोसा नहीं है.
सोच रहा हूँ कि "X is all you Need" वाक्यांश का पहला इस्तेमाल क्या "Attention is all you need" पेपर में हुआ था.
- उसी पेपर ने दुनिया को Transformer से परिचित कराया था.
अगर यह Rust में लिखा गया low-latency S3 है, तो कई साल के विकास के बाद आखिरकार यह जारी हुआ है.
सोच रहा हूँ कि क्या ऐसे use cases हैं जहाँ नया S3 Express tier परफॉर्मेंस को बेहतर बनाएगा, और क्या 8 गुना अतिरिक्त लागत इसके लायक है.
कई S3 implementations बस disk पर होने वाले transparent download जैसी लगती हैं, लेकिन वास्तव में यह "network को disk की तरह इस्तेमाल करना" नहीं है.