2025 का डेटाबेस रेट्रोस्पेक्टिव
(cs.cmu.edu)- 2025 ऐसा साल रहा जिसे PostgreSQL के बढ़ते वर्चस्व, MCP standard के व्यापक प्रसार, बड़े mergers and acquisitions, file format प्रतिस्पर्धा के फिर भड़कने, और Larry Ellison के उभार से संक्षेपित किया जा सकता है
- PostgreSQL प्रमुख cloud कंपनियों के core DBaaS के रूप में स्थापित हुआ, और distributed projects (Multigres, Neki, PgDog) नए रूप में सामने आए
- सभी प्रमुख DBMS ने Anthropic के Model Context Protocol(MCP) को अपनाया, जिससे LLM और डेटाबेस के एकीकरण की प्रक्रिया गंभीर रूप से शुरू हुई
- MongoDB ने FerretDB के खिलाफ API replication से जुड़ा मुकदमा दायर किया, और file format क्षेत्र में Parquet replacement की प्रतिस्पर्धा तेज हो गई
- पूरे उद्योग में acquisitions, shutdowns, और fund-raising सक्रिय रहे, और इसे डेटाबेस उद्योग के पुनर्गठन और केंद्रीकरण को तेज करने वाले वर्ष के रूप में आंका गया
PostgreSQL का लगातार विस्तार
- PostgreSQL 18 version नवंबर 2025 में जारी हुआ, जिसमें asynchronous I/O storage subsystem और skip scan फीचर जोड़े गए
- इससे OS page cache पर निर्भरता कम हुई और multi-key index के उपयोग में सुधार हुआ
- Databricks ने Neon को 1 billion dollar में, और Snowflake ने CrunchyData को 250 million dollar में अधिग्रहित किया
- Microsoft ने HorizonDB लॉन्च किया, जिससे सभी प्रमुख cloud कंपनियों के पास PostgreSQL-आधारित service हो गई
- Supabase का Multigres, PlanetScale का Neki, और PgDog जैसे distributed PostgreSQL projects नए रूप में सामने आए
- Supabase ने Vitess के co-founder Sugu को शामिल कर sharding middleware development का नेतृत्व सौंपा
- Independent PostgreSQL services में Supabase, YugabyteDB, TigerData, PlanetScale, Xata, PgEdge, और Nile सक्रिय रहे
- Hydra, PostgresML जैसे कुछ startups 2025 में बंद हो गए
- PostgreSQL-केंद्रित M&A competition और तकनीकी विकास उद्योग की मुख्य प्रेरक शक्ति रहे
MCP(Model Context Protocol) का व्यापक प्रसार
- 2025 में सभी प्रमुख DBMS ने Anthropic के MCP standard को support किया
- MCP एक JSON-RPC आधारित interface है, जो LLM को डेटाबेस के साथ interact करने देता है
- OpenAI द्वारा मार्च 2025 में MCP support की घोषणा के बाद, ClickHouse, Snowflake, Oracle, MongoDB जैसे प्रमुख systems ने MCP servers जारी किए
- PostgreSQL-आधारित services ने भी अपने-अपने MCP servers दिए (Supabase, Timescale, Xata आदि)
- MCP server single request unit के आधार पर डेटाबेस तक पहुंचते हैं, और heterogeneous DBs के बीच join फीचर support नहीं करते
- Neon ने data branching फीचर के जरिए AI agents द्वारा बनाए गए 80% DBs को संभाला
- Security के नजरिए से minimum privilege और automatic protection mechanisms की जरूरत पर जोर दिया गया
- कुछ systems read-only restriction, query timeout, result limit जैसी बुनियादी सुरक्षा सुविधाएं देते हैं
MongoDB और FerretDB का कानूनी विवाद
- MongoDB ने 2025 में FerretDB के खिलाफ patent, copyright, और trademark infringement lawsuit दायर किया
- FerretDB एक middleware proxy है जो MongoDB queries को PostgreSQL में बदलता है, और “drop-in replacement” वाक्यांश का उपयोग विवाद का बिंदु बना
- Microsoft ने MongoDB-compatible open source DocumentDB को Linux Foundation को दान किया
- Amazon, Yugabyte आदि भी इस project में शामिल हुए
- MongoDB के इस दावे पर कि उसने “non-relational DB” की शुरुआत की, यह इंगित किया गया कि 1960s में IDS, IMS जैसे पूर्ववर्ती systems पहले से मौजूद थे
- FerretDB का शुरुआती नाम “MangoDB” होना trademark confusion controversy के रूप में भी उल्लेखित हुआ
file format प्रतिस्पर्धा की वापसी
- 2025 में Parquet के दबदबे को चुनौती देने वाले 5 नए open source file formats सामने आए
- FastLanes(CWI), F3(CMU+Tsinghua University), Vortex(SpiralDB), AnyBlox(जर्मन शोधकर्ता), Amudai(Microsoft)
- SpiralDB का Vortex Linux Foundation को दान किया गया और इसने ध्यान खींचा, जबकि AnyBlox ने VLDB best paper award जीता
- Parquet developers ने इसके जवाब में spec modernization work आगे बढ़ाया
- Pavlo द्वारा शामिल F3 format का लक्ष्य built-in WASM-based decoder के जरिए interoperability समस्याओं को हल करना है
- अगली पीढ़ी की प्रतिस्पर्धा संभवतः GPU support के आधार पर आगे बढ़ेगी
M&A, निवेश, और shutdown trends
- 2025 के प्रमुख acquisitions
- IBM ने DataStax और Confluent का अधिग्रहण किया, Databricks ने Neon, Tecton, Mooncake को खरीदा
- Snowflake ने CrunchyData, Datometry, Salesforce ने Informatica, और Nvidia ने HeavyDB का अधिग्रहण किया
- Fivetran और dbt Labs का अचानक merger हुआ, और वे ETL integrated platform के रूप में पुनर्गठित हुए
- प्रमुख investment rounds
- Databricks(4 billion, 1 billion dollar), ClickHouse(350 million dollar), Supabase(200 million, 100 million dollar), Timescale(110 million dollar) आदि
- shutdown के मामले
- Fauna, PostgresML, Hydra, MyScaleDB, Voltron Data, Apache Derby आदि
- IBM Research Almaden lab के बंद होने को DB research के एक प्रतीकात्मक अंत बिंदु के रूप में उल्लेखित किया गया
- Pavlo ने GPU-आधारित DBs की व्यावसायिक सीमाओं की ओर इशारा किया और CPU-आधारित OLAP engines की परिपक्वता तथा user experience-केंद्रित competition पर जोर दिया
Larry Ellison का ‘सबसे बेहतरीन साल’
- 2025 में Oracle के संस्थापक Larry Ellison दुनिया के सबसे अमीर व्यक्ति (393 billion dollar) बन गए
- Oracle के share price में तेज उछाल और AI datacenter निवेश से उनकी संपत्ति तेजी से बढ़ी
- Oracle TikTok US entity acquisition और Paramount द्वारा Warner Bros acquisition attempt जैसे बड़े सौदों में शामिल रहा
- Pavlo ने Ellison की चालों को “डेटाबेस से दुनिया जीतने वाले व्यक्ति का प्रतीक” बताया
- आलोचनाओं के बावजूद Oracle का प्रभाव और Ellison की मौजूदगी अब भी बेहद शक्तिशाली है
निष्कर्ष
- 2025 का डेटाबेस उद्योग PostgreSQL-केंद्रित पुनर्गठन, AI·LLM integration की तेजी, और बड़े M&A व shutdowns के ध्रुवीकरण से संक्षेपित होता है
- Pavlo ने जोर दिया कि शोधकर्ताओं और उद्योग, दोनों को security, standardization, और operations automation पर ध्यान केंद्रित करना चाहिए
- अंत में, CMU researchers के नए startup Sydht.ai की शुरुआत का संकेत देते हुए लेख समाप्त होता है
1 टिप्पणियां
Hacker News की राय
CMU DB Group की अनोखी teaching style ज़रूर देखनी चाहिए
इसे YouTube search results में देखा जा सकता है।
खासकर gangsta intro और DJ set वाकई प्रभावशाली थे।
मुझे वह वीडियो भी याद है जिसमें लेक्चर के दौरान कोई फर्श पर सो रहा था। Andy के career और context के बारे में और जानने की इच्छा होती है
अफसोस है कि हाल के वर्षों की review में immutable या bi-temporal database का ज़िक्र नहीं हुआ
ऐसे DB खास तौर पर fintech industry में बहुत उपयोगी होते हैं।
उदाहरण के तौर पर XTDB v2 (2025) और Datomic Free (2023) हैं
सोचता हूँ कि सिर्फ “यह मौजूद है” कह देना क्या पर्याप्त है
हमने row trigger-आधारित audit log system से change history और undo features लागू किए।
साथ ही log को अलग storage में भेजकर offline backup भी बनाए रखा
मैं इस समय immutable SQLite पर काम कर रहा हूँ — xitdb-java
मैं time-travel support वाला triple store देखना चाहूँगा
2025 के database trends को दो बातों में समेटा जा सकता है
1️⃣ हर चीज़ को SQLite में ले जाना
2️⃣ JSON fields का केंद्र में उपयोग
SQLite अपनी single-file structure और daemon-less design की वजह से संभालना आसान है। JSON functions की वजह से flexible data handling भी आनंददायक है
यह एक तरह का normalized object access API देता है
मैं समझ सकता हूँ कि Pavlo MCP security को लेकर संदेह में क्यों हैं। MCP का दर्शन least privilege principle के उलट, context exposure पर केंद्रित लगता है
अगर DB को ऐसे protocol से expose किया जाए, तो सिर्फ data ही नहीं बल्कि schema complexity भी model के सामने खुल जाती है।
अंततः यह SQL injection की वापसी जैसा महसूस होता है — बस इस बार वजह कोई malicious user नहीं, बल्कि model hallucination है
यह Simon Willison के lethal trifecta framework पर आधारित है, और open-edison में देखा जा सकता है
लगता है कि immutable DB की ओर बदलाव ज़रूरी है।
Datomic शक्तिशाली है, लेकिन जटिल है और learning curve बहुत steep है, जबकि immudb अभी production-ready नहीं लगता।
कुछ लाख records पार करते ही समस्याएँ आने लगती हैं
Supabase बहुत तेज़ी से बढ़ रहा है। यह भी सुनने में आया है कि लगभग 70% YC startups इसका उपयोग कर रहे हैं।
आगे चलकर क्या ये self-hosted पर जाएँगे, यह जानने की उत्सुकता है
EdgeDB ने अपना नाम बदलकर Gel क्यों किया, इसका ज़िक्र हुआ था, लेकिन इसे acquisition section में भी जोड़ा जाना चाहिए था।
Gel Vercel में शामिल हो गया
ऐसे बदलावों को अपने-आप track करने का कोई तरीका ढूँढना होगा
GitHub पर आख़िरी commit भी 2 हफ्ते पहले का है
CMU के Andy और DB Group की वजह से databases कहीं अधिक mainstream हुए हैं। यह सच में world-class टीम है
PostgreSQL 18 की release वास्तव में शानदार है।
ज़्यादातर लोग सिर्फ async IO worker की बात करते हैं, लेकिन Unicode locale, unvalidated constraints जोड़ना, virtual columns, btree skip scan, UUIDv7 जैसी चीज़ें भी बड़ी प्रगति हैं
हाल के वर्षों के multi-year trends प्रभावशाली हैं।
Databricks और Snowflake ने cloud competition के बीच भी agility और survival साबित किए हैं।
वहीं Cloudera और Hortonworks असफल रहे।
और ClickHouse चुपचाप अपनी niche को बेहतरीन ढंग से भरता जा रहा है