18 पॉइंट द्वारा GN⁺ 2025-01-02 | 3 टिप्पणियां | WhatsApp पर शेयर करें

Andy Pavlo (CMU प्रोफेसर) की 2024 के पूरे डेटाबेस उद्योग पर समीक्षा

मेरा डेटाबेस, मेरी पसंद का लाइसेंस!

  • डेटाबेस और ओपन सोर्स की दुविधा:
    • ओपन सोर्स DBMS अक्सर VC-समर्थित लाभकारी कंपनियों द्वारा विकसित किए जाते हैं.
    • क्लाउड प्रदाता लोकप्रिय DBMS को सेवा के रूप में पेश करते हैं और उन्हें विकसित करने वाली कंपनियों से भी अधिक कमाई कर लेते हैं.
    • MongoDB ने 2018 में इस समस्या से निपटने के लिए SSPL(Server Side Public License) अपनाया.
  • Redis लाइसेंस बदलाव:
    • Redis Ltd. ने 2024 में IPO की तैयारी करते हुए BSD-3 लाइसेंस से SSPL और अपने Redis Source Available License में बदलाव किया.
    • मार्च 2024 में, RocksDB के fork Speedb का अधिग्रहण करते हुए लाइसेंस बदलाव की घोषणा की.
    • कम्युनिटी की प्रतिक्रिया:
      • उसी हफ्ते Valkey और Redict नाम के fork प्रोजेक्ट घोषित हुए.
      • Valkey की शुरुआत Amazon में हुई, फिर Google, Oracle आदि जुड़े और इसे Linux Foundation में शामिल किया गया.
    • Redis संस्थापक की वापसी की संभावना:
      • दिसंबर 2024 में, Redis के संस्थापक ने घोषणा की कि वे Redis Ltd. के साथ मिलकर कम्युनिटी को फिर से एकजुट करने की कोशिश कर रहे हैं.
  • Elasticsearch का लाइसेंस वापसी मोड़:
    • Elastic N.V. ने 2021 में SSPL और Elastic License अपनाने के बाद Amazon के साथ टकराव देखा.
    • Amazon ने OpenSearch fork के साथ जवाब दिया.
    • अगस्त 2024 में, Elastic N.V. ने AGPL में वापसी की और Kendrick Lamar के एक गाने का ज़िक्र किया.
    • सितंबर 2024 में, Amazon ने OpenSearch प्रोजेक्ट Linux Foundation को सौंप दिया.
  • Andy की राय:
    • Redis पर आलोचना:
      • इसकी performance कम है, इसमें नकली transactions हैं, और query language अप्रभावी है.
      • Redis के पास बहुत सारे alternatives हैं, इसलिए उसके लिए कम्युनिटी के विरोध को झेलना मुश्किल है.
    • Elasticsearch जैसा पैटर्न:
      • लाइसेंस बदलाव → fork प्रोजेक्ट का उभरना → ओपन सोर्स लाइसेंस में वापसी.
    • Redis और Elasticsearch को ज़्यादा विरोध क्यों मिला:
      • Redis में संस्थापक मूल निर्माता नहीं थे, और यह बाहरी contributors वाले सिस्टम के रूप में "वैधता की कमी" विवाद से घिरा रहा.
      • यह 2023 में HashiCorp के Terraform लाइसेंस बदलाव पर आई प्रतिक्रिया जैसा है.
    • क्लाउड प्रदाताओं का प्रभाव:
      • क्लाउड प्रदाता ओपन सोर्स DBMS के protocols को मौजूदा DBMS में शामिल कर लेते हैं या अपनी सेवाओं से ISV की कमाई की बुनियाद को कमजोर करते हैं.
      • उदाहरण: AWS ने Timestream DBMS में InfluxDB v2 protocol जोड़ा और Redis-compatible service से 30% सस्ती Valkey-compatible service की घोषणा की.
  • अतिरिक्त अपडेट:
    • AWS, Influx Data के साथ मिलकर InfluxDB v2 DBMS की managed service दे रहा है.
    • ScyllaDB ने दिसंबर 2024 में ओपन सोर्स AGPL version बंद किया और enterprise version को "source available" में बदल दिया.

Databricks और Snowflake की अंतहीन प्रतिस्पर्धा

  • पब्लिक LLM प्रतिस्पर्धा:
    • Databricks:
      • मार्च 2024 में DBRX ओपन सोर्स LLM की घोषणा.
      • 132 अरब parameters वाला यह मॉडल Mosaic टीम ने बनाया, जिसे 2023 में $1.3 billion में अधिग्रहित किया गया था.
      • मॉडल development पर $10 million खर्च किए गए.
    • Snowflake:
      • अप्रैल 2024 में Arctic ओपन सोर्स LLM की घोषणा.
      • 480 अरब parameters वाले इस मॉडल के बारे में दावा किया गया कि यह SQL generation जैसे "enterprise" tasks में DBRX से बेहतर है.
      • मॉडल development पर $2 million खर्च किए गए.
      • Snowflake की घोषणा में दूसरे LLMs से अधिक DBRX के साथ तुलना पर ज़ोर था, जिससे प्रतिस्पर्धा साफ दिखी.
  • मेटाडेटा कैटलॉग युद्ध:
    • Hive का HCatalog 2010 के दशक में data lake का standard बन गया.
    • Netflix का Iceberg और Uber का Hudi 2010 के दशक के उत्तरार्ध में आए और Apache projects के रूप में बढ़े.
    • Databricks:
      • DeltaLake platform और Unity नाम की proprietary catalog service देता है.
      • जून 2024 में, Snowflake CEO द्वारा Polaris catalog service घोषित किए जाने वाले दिन ही, Iceberg सपोर्ट कंपनी Tabular को $2 billion में अधिग्रहित कर लिया.
      • अगले हफ्ते Unity catalog को open source करने की घोषणा की.
    • Snowflake:
      • 2022 में Iceberg support की घोषणा के बाद धीरे-धीरे इसका विस्तार किया.
      • Tabular acquisition वार्ता के दौरान Databricks ने बाज़ी मार ली.
  • Andy की राय:
    • पारंपरिक प्रतिस्पर्धा से अंतर:
      • Oracle और Informix के पुराने performance मुकाबले के विपरीत, Snowflake और Databricks की लड़ाई ecosystem और data management tools पर केंद्रित है.
      • vectorized execution engine अब बुनियादी तकनीक माना जाता है.
      • आज असली महत्व usability, tool compatibility, और AI/LLM integration जैसी अतिरिक्त खूबियों का है.
    • उपभोक्ताओं के लिए लाभदायक:
      • तीखी प्रतिस्पर्धा का मतलब बेहतर products और technology है.
      • Snowflake का Polaris एक Apache project में बदल गया, जिससे बेहतर तकनीकी पहुँच मिली.
      • नतीजतन तकनीकी प्रगति और कीमतों में कमी की उम्मीद है.
    • सकारात्मक तुलना:
      • Oracle और Salesforce CEOs की केवल अहंकार-आधारित प्रतिस्पर्धा से अलग, Snowflake और Databricks की लड़ाई वास्तविक innovation और competitiveness को बढ़ाती है.

हर जगह DuckDB को integrate करने की कोशिश

  • DuckDB की वृद्धि:
    • data analytics queries के लिए DuckDB अब नई default choice बन चुका है.
    • पहले यह भूमिका Pandas निभाता था, लेकिन बेहतर portability और performance के कारण DuckDB ने उसकी जगह ले ली.
    • कई DBMS अब OLAP workloads के समर्थन को मजबूत करने के लिए DuckDB को integrate करने की कोशिश कर रहे हैं.
    • 2024 में Postgres और DuckDB को जोड़ने वाले 4 नए extensions घोषित किए गए.
  • Postgres-DuckDB extension घोषणाएँ:
    • मई 2024 - Crunchy Data:
      • Postgres में OLAP queries को DuckDB की ओर route करने वाला proprietary bridge घोषित किया.
      • DuckDB की geospatial analytics capabilities का उपयोग कर PostGIS queries को तेज़ करने वाला extension भी जोड़ा.
    • जून 2024 - ParadeDB:
      • open source extension pg_analytics घोषित किया.
      • पहले DataFusion-आधारित pg_lakehouse इस्तेमाल किया जाता था, लेकिन बाद में DuckDB पर स्विच किया गया.
    • अगस्त 2024 - pg_duck:
      • DuckDB Labs GitHub पर आधिकारिक रूप से समर्थित DuckDB extension.
      • यह MotherDuck, Hydra, Microsoft और Neon के सहयोग से शुरू हुआ था, लेकिन development control विवाद के कारण Microsoft और Neon प्रोजेक्ट से बाहर हो गए.
      • अब इसे MotherDuck और Hydra मिलकर maintain करते हैं.
    • नवंबर 2024 - pg_mooncake:
      • ऐसा extension घोषित हुआ जो Postgres के ज़रिए Iceberg tables में data लिखता है और transactions को support करता है.
  • Andy की राय:
    • DuckDB के फायदे:
      • ज़्यादातर OLAP queries 100MB से कम data scan करती हैं, और DuckDB एक single instance में इसे आसानी से संभाल सकता है.
      • बेहतरीन portability और convenience की वजह से यह Postgres community में तेजी से फैल रहा है.
      • Iceberg और S3 data access सहित अलग-अलग data ecosystems को एक single extension में जोड़ता है.
      • high-performance analytics देते हुए यह महंगे data warehouse का विकल्प बन सकता है.
    • Postgres की extensibility:
      • Postgres को 1980 के दशक में डिज़ाइन करते समय ही extensibility और flexibility को लक्ष्य बनाया गया था.
      • Postgres के "hook" API (2006 में जोड़ा गया) की वजह से सबसे व्यापक और विविध extension ecosystem बना.
      • हालांकि, इससे extensions के बीच interference और गलत व्यवहार का जोखिम भी रहता है.
    • DuckDB का Postgres integration:
      • मौजूदा Postgres extensions (Citus, Timescale) केवल columnar storage देते थे, जिससे समस्या आंशिक रूप से हल होती थी.
      • DuckDB columnar storage और vectorized query processing दोनों देता है.
    • रूपकात्मक टिप्पणी:
      • "Postgres elephant और DuckDB के साथ turducken joke" की संभावना का ज़िक्र किया, लेकिन विश्वविद्यालय की अनुशासनात्मक कार्रवाई से बचने के लिए छोड़ दिया.

डेटाबेस दुनिया की इधर-उधर की घटनाएँ

प्रमुख रिलीज़:

  • Amazon Aurora DSQL:
    • AWS ने नया "Spanner-like" DBMS घोषित किया.
    • distributed log service और timestamp ordering (Time Sync) पर आधारित.
    • Aurora नाम का उपयोग किया गया, लेकिन मौजूदा Aurora Postgres RDS के साथ कोई code साझा नहीं करता.
  • CedarDB:
    • Umbra के code को fork कर बनाया गया commercial DBMS.
    • Umbra के संस्थापक Thomas Neumann अब भी research पर केंद्रित हैं और Clickbench leaderboard में शीर्ष पर हैं.
  • Google Bigtable:
    • NoSQL के शुरुआती अग्रदूत Bigtable ने 2024 में SQL support जोड़ा.
  • Limbo:
    • Turso ने SQLite को Rust में पूरी तरह rewrite करने वाला प्रोजेक्ट घोषित किया.
    • SQLite की ताकत केवल code में नहीं, बल्कि हर environment में उसे सही तरह चलाने की test engineering में भी है.
    • FoundationDB के पूर्व engineers के साथ मिलकर deterministic testing जोड़ी गई.
  • Microsoft Garnet:
    • Redis-compatible key-value store, FASTER का successor.
    • query parallelism, out-of-memory DB support, और असली transactions देता है.
  • MySQL v9:
    • 6 साल बाद जारी नया version.
    • अगर database में 8,000 से अधिक tables हों तो crash होने की समस्या.
    • इसमें महत्वपूर्ण features की कमी है, और Oracle का ज़्यादा ध्यान MySQL Heatwave service पर है.
  • Prometheus v3:
    • 7 साल बाद बड़ा update.
    • कई replaceable options आने से OG Prometheus का उपयोग घटा है.

प्रमुख अधिग्रहण:

  • Alteryx → Private Equity: उपयोग बहुत कम, कोई खास राय नहीं.
  • MariaDB → Private Equity: management समस्याएँ सुलझने की उम्मीद.
  • OrioleDB → Supabase: Postgres की पुरानी storage architecture में सुधार.
  • PeerDB → ClickHouse: Postgres data को ClickHouse में ETL transfer करने का tool.
  • PopSQL → Timescale: उन्नत SQL editor UI का अधिग्रहण.
  • Speedb → Redis Ltd.: RocksDB fork, जिससे data disk storage feature जुड़ सकता है.
  • Rockset → OpenAI: DBaaS service सितंबर 2024 में बंद.
  • Tabular → Databricks: Iceberg ecosystem को मजबूत करने के लिए अधिग्रहण.
  • Verta.ai → Cloudera: Cloudera अब भी जीवित है.
  • Warpstream → Confluent: Kafka को golang में rewrite किया गया, S3 के साथ integrated.

प्रमुख निवेश:

  • Databricks: $1 billion Series J.
  • DBOS: $8.5 million seed round.
  • LanceDB: $8 million seed round.
  • SDF: $9 million seed round.
  • SpiceDB: $12 million Series A.
  • TigerBeetle: $24 million Series A.

प्रमुख अंत:

  • Amazon QLDB: Amazon भी इससे कमाई नहीं कर पाया.
  • OtterTune: 10 साल की research और startup यात्रा समाप्त. एक विशेष कंपनी के साथ समस्या के कारण CMU-DB छात्रों की भर्ती पर रोक.

Andy की राय:

  • Databricks की विशाल फंडिंग:
    • 2024 में $1 billion Series J के साथ इसने database उद्योग में सबसे बड़ी fundraising का रिकॉर्ड तोड़ा.
    • इस पैसे का उपयोग employee stock buyback के लिए हुआ, ताकि IPO में देरी से नाराज़ कर्मचारियों की शिकायतें कम हों.
    • Databricks IPO के बाद कई database startups भी IPO की तैयारी कर सकते हैं.
  • अगले साल का अनुमान:
    • ब्याज दरों में गिरावट से CockroachDB, Starburst, Imply जैसी बड़ी फंडिंग पाने वाली कंपनियों को अतिरिक्त पूंजी जुटाने का मौका मिल सकता है.
    • dbtLabs को पहले से ही सफलतापूर्वक स्थापित माना गया.

न रुकने वाले Larry Ellison: 2024 की चौंकाने वाली चालें

  • 2024 में Larry Ellison की प्रमुख उपलब्धियाँ:
    • 80वाँ जन्मदिन मनाते हुए भी वे अब भी उतने ही साहसी बने रहे.
    • Oracle stock में उछाल के साथ वे दुनिया के तीसरे सबसे अमीर व्यक्ति बने.
      • मार्च 2024 में, Oracle stock उछलने से उन्होंने एक ही दिन में $15 billion कमा लिए.
    • जुलाई में, उन्होंने अपने बेटे (तीसरी पत्नी से) के लिए उपहार के तौर पर $6 billion में Paramount studio खरीदा.
    • Palm Beach resort को $277 million में खरीदकर एक और luxury asset जोड़ लिया.
  • University of Michigan football team को समर्थन:
    • नवंबर 2024 में, University of Michigan football समर्थन अभियान के लिए $12 million दान दिए.
      • इस दान ने LSU से Michigan आए शीर्ष quarterback की भर्ती में निर्णायक भूमिका निभाई.
      • विश्वविद्यालय की press release में "Larry और उनकी पत्नी Jolin" का उल्लेख किया गया.
    • यह पहली बड़ी घटना थी जिसने बिना कॉलेज degree वाले Larry को University of Michigan से मजबूत रूप से जोड़ा.
  • "Jolin" कौन हैं:
    • मीडिया रिपोर्ट्स से पता चला कि Larry की नई पत्नी Jolin (Curran) Zhu हैं.
      • Larry को tennis match देखते हुए देखा गया, और Jolin ने Michigan hat पहन रखी थी.
      • दो हफ्ते बाद सुबह 5 बजे की news में शादी की खबर आई और उनकी पहचान की पुष्टि हुई.
  • Andy का दृष्टिकोण:
    • Larry का University of Michigan को समर्थन खास मायने रखता है.
      • Andy का एक पूर्व CMU-DB छात्र इस समय University of Michigan database group में professor है.
    • Larry के नए प्रेम और विवाह को बधाई देते हुए Andy ने आधुनिक समाज में प्रेम ढूँढने की कठिनाई पर ज़ोर दिया.
      • अतीत में तलाक के बावजूद फिर से प्रेम पाने की Larry की क्षमता और सकारात्मकता की सराहना की.
  • Larry की छठी शादी:
    • Melanie Craft (2010 तलाक) और Nikita Kahn (2020 तलाक) के बाद उन्होंने फिर शादी कर सबको चौंका दिया.
    • Jolin Zhu से विवाह ने खुशी की तलाश में उनके संकल्प को फिर साबित किया.

निष्कर्ष

  • नए साल की योजना और मौजूदा स्थिति:
    • 3 साल में पहली बार स्वस्थ होकर नया साल शुरू करना चाहते थे, लेकिन बेटी से COVID लगने के कारण बिस्तर पर ही नया साल बिताया.
    • सितंबर 2024 में booster shot और Paxlovid treatment की वजह से बिना बड़ी समस्या के उबर रहे हैं.
  • OtterTune का अंत:
    • OtterTune प्रोजेक्ट के बंद होने से निराश हैं.
    • कई बेहतरीन लोगों के साथ काम करते हुए बहुत कुछ सीखा.
    • Intel Capital और Race Capital का अंत तक साथ देने के लिए आभार व्यक्त किया.
    • एक नए startup की योजना बना रहे हैं (संकेत: इस बार भी डेटाबेस से जुड़ा).
  • CMU में नई शुरुआत:
    • Carnegie Mellon University (CMU) लौटकर full-time research फिर शुरू की.
    • Jignesh Patel के साथ दिलचस्प research projects की तैयारी कर रहे हैं.
    • इस semester एक नया query optimization course शुरू करेंगे.
    • सितंबर 2024 में Wikipedia द्वारा अपने बारे में लेख हटाए जाने के बाद research papers के citations बढ़ाने के तरीकों पर सोच रहे हैं.
  • DJ Mooshoo के लिए समर्थन:
    • Cook County में बंद DJ Mooshoo का अब भी समर्थन करते हैं.
    • 2025 में उनकी रिहाई की उम्मीद के साथ इंतज़ार कर रहे हैं.
  • ByteBase का उल्लेख:
    • ByteBase के 2024 database tools review लेख (Database Tools in 2024: A Year in Review) के लिए धन्यवाद दिया.
    • पहले वह अपने सालांत डेटाबेस लेख के चीनी अनुवाद की अनुमति माँगते थे, लेकिन इस साल इंतज़ार किए बिना उन्होंने मिलते-जुलते विषय और शीर्षक के साथ अपना लेख लिख दिया.

3 टिप्पणियां

 
daumkakao 2025-01-04

अच्छे लेख के लिए धन्यवाद

 
xguru 2025-01-02

2023 छूट गया था। उस समय यह OtterTune लिंक था, लेकिन वह बंद हो गया, इसलिए अब इसे व्यक्तिगत ब्लॉग पर ले आया हूँ।

2022 के डेटाबेस रिव्यू
2021 के डेटाबेस रिव्यू

 
GN⁺ 2025-01-02
Hacker News राय
  • कुछ लोगों का मानना है कि Andy के वीडियो में Redis command API की आलोचना पर्याप्त मजबूत नहीं थी। उनका कहना है कि Redis API की आलोचना की जा सकती है, लेकिन उसके लिए और ठोस तर्क चाहिए। साथ ही यह भी ज़ोर दिया गया कि Redis के उपयोग और उसके फ़ायदों को समझना ज़रूरी है

  • जब Greenplum का code बंद कर दिया गया, तो मूल developers ने Cloudberry नाम का एक open source fork बनाया, जिसे Apache project में स्वीकार कर लिया गया। Cloudberry को Postgres 14 के साथ sync किया गया, लेकिन Greenplum अब भी Postgres 12 पर ही रुका हुआ है

  • Redis पर एक व्यक्तिगत आलोचनात्मक राय भी है। इसमें दावा किया गया कि Redis धीमा है, इसमें नकली transactions हैं, और इसका query syntax जटिल है। यह भी उल्लेख किया गया कि CMU में Dragonfly ने बेहतर performance दिखाई

  • कुछ लोगों के अनुसार DuckDB एक बेहतरीन tool है। DuckDB के संस्थापक का CMU में दिया गया वह व्याख्यान प्रभावशाली बताया गया, जिसमें उन्होंने समझाया था कि data scientists RDBMS का उपयोग क्यों नहीं करते

  • कुछ लोगों को यह अजीब लगा कि SQL Server और उसके Azure variants का उल्लेख नहीं किया गया। उनका कहना है कि कुछ क्षेत्रों में यह प्रमुख है, और DBEngines में इसे तीसरी सबसे लोकप्रिय technology माना जाता है

  • एक राय यह भी है कि Elastic और Redis को लेकर असंतोष, MongoDB से अलग कारणों से है — यानी license और contributor community के आकार की वजह से। AGPL जैसे restrictive licenses embedded use को कठिन बना देते हैं, और अगर contributor community न हो तो fork करना मुश्किल हो जाता है

  • एक राय के अनुसार MongoDB, Neo4j, Kafka और CockroachDB के license changes पर fork की कोशिशें इसलिए नहीं हुईं क्योंकि लोगों को इन projects की उतनी परवाह ही नहीं थी

  • कुछ लोगों का कहना है कि Amazon database को service के रूप में दे सकता है, लेकिन बहुत से लोग AWS managed services नहीं चाहते। कई teams k8s-आधारित solutions को पसंद करती हैं, और mainstream OSS implementations की ओर जाने का रुझान है

  • Alteryx का इस्तेमाल करने वाले किसी व्यक्ति से कभी न मिलने वाली राय के जवाब में यह समझाया गया कि Alteryx एक graphical ELT+Analytics tool है, जिसमें लगभग code की ज़रूरत नहीं होती, और इसकी compatibility अच्छी है, इसलिए इसे दूसरे databases या files के साथ इस्तेमाल किया जा सकता है

  • 12M जुटाने वाला एक database startup सिर्फ 3 साल में असफल हो गया, इस पर हैरानी जताई गई। इसे database startups की सफलता कितनी कठिन है, इसका उदाहरण बताया गया। यह भी कहा गया कि AI का उपयोग करके DB performance बेहतर बनाने का विचार होने के बावजूद, उन्हें और investors न मिलना हैरान करने वाला है