3 पॉइंट द्वारा GN⁺ 2023-08-09 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • यह लेख WarpStream का परिचय देता है, जो S3 के ऊपर सीधे बनाया गया Kafka protocol-compatible data streaming platform है.
  • WarpStream एक single, stateless Go binary के रूप में दिया जाता है, जिससे local disk management, broker rebalancing, और ZooKeeper operations की आवश्यकता समाप्त हो जाती है.
  • यह platform data को सीधे S3 में stream करके infrastructure cost को काफी कम करता है, और cloud में Kafka की तुलना में 5-10 गुना सस्ता है.
  • यह लेख आधुनिक workloads के लिए Kafka की उपयुक्तता की आलोचना करता है, और high inter-AZ bandwidth cost तथा operational overhead पर जोर देता है.
  • WarpStream की architecture, Kafka से अलग है. Brokers की जगह stateless "agents" होते हैं, जो किसी भी topic के "leader" की तरह काम कर सकते हैं, किसी भी consumer group के लिए offsets commit कर सकते हैं, या cluster के coordinator के रूप में काम कर सकते हैं.
  • WarpStream में सारा storage S3 जैसे object storage पर offload कर दिया जाता है, जिससे आसान scaling और तेज failure recovery संभव होती है.
  • WarpStream data और metadata को अलग करता है, और सभी "virtual clusters" का metadata एक custom metadata database में store करता है.
  • यह platform अधिकांश Kafka workloads की total cost को 5-10 गुना तक कम करता है, लेकिन produce requests के लिए P99 लगभग 400ms है और producer से consumer तक लगभग 1 second की अधिक latency है.
  • WarpStream अभी developer preview चरण में है और अभी production use के लिए तैयार नहीं है.
  • WarpStream के निर्माताओं का मानना है कि Kafka का developer UX एक समस्या है, खासकर partitions के low-level abstraction को वे समस्या मानते हैं. वे WarpStream के future updates में इसे हल करने की योजना बना रहे हैं.
  • यह लेख पाठकों को WarpStream आज़माने और feedback देने के निमंत्रण के साथ समाप्त होता है.

1 टिप्पणियां

 
GN⁺ 2023-08-09
Hacker News राय
  • डेटा स्ट्रीमिंग तकनीक Kafka की द्वैध प्रकृति पर लेख
  • इस बात पर बहस कि क्या ज़्यादातर टेक कंपनियाँ Kafka का उपयोग करती हैं
  • हर मैसेज को सीधे S3 में push करने की लागत-कुशलता और हर AZ में Kafka क्लस्टर चलाने की समस्या
  • S3 के ऊपर सीधे बनाया गया Kafka protocol-compatible streaming system WarpStream के सह-संस्थापक और CTO Ryan Worl द्वारा परिचय
  • WarpStream की लागत-कुशलता, stateful disk/node operations की आवश्यकता न होना, data rebalancing या ZooKeeper की ज़रूरत न होना, और कम cross-AZ bandwidth शुल्क पर ज़ोर
  • cloud provider पर अलग VM में Kafka चलाने की लागत की आलोचना
  • provider की redundancy का लाभ उठाने के लिए ठीक से डिज़ाइन की गई Hadoop/Kafka cloud managed services में storage adapter के उपयोग पर चर्चा
  • कुछ उपयोगकर्ताओं की शिकायत कि लेख में Kafka के लिए विशेषज्ञ टीम और बड़े बजट की आवश्यकता होने का दावा किया गया है
  • इस बात पर ज़ोर कि Kafka में partition की संख्या बदली जा सकती है
  • इस दावे पर बहस कि Kafka चलाने के लिए बड़े पैमाने की engineering team चाहिए
  • इस पर सवाल कि WarpStream अपनी service कैसे manage करता है, क्या वह cloud provider या bare metal का उपयोग करता है, और क्या metadata store के लिए foundationdb का उपयोग करता है
  • Kafka के API की संभावनाओं और cluster management की जटिलता को abstract करने की संभावना पर चर्चा
  • बड़े पैमाने के ML traffic को S3 में ले जाने से लागत में कमी, एक उपयोगकर्ता ने लगभग 90% लागत बचत की रिपोर्ट दी
  • नई तकनीक को अपनाने को दर्शाते हुए लेख का शीर्षक बदलकर "Kafka मर चुका है। Warpstream राजा बनेगा।" करने का सुझाव