AliSQL - Alibaba का ओपन सोर्स MySQL fork, vector और DuckDB engine integration

(github.com/alibaba)

10 पॉइंट द्वारा GN⁺ 2026-02-05 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Alibaba Group द्वारा विकसित MySQL-आधारित ओपन सोर्स branch, जो OLTP और OLAP क्षमताओं को एकीकृत करने वाला database engine है
बिल्ट-इन DuckDB columnar engine के साथ analytics queries में अधिकतम 200x तेज performance प्रदान करता है
HNSW-आधारित vector search को support करता है और अधिकतम 16,383 dimensions तक के AI·ML embeddings को प्रोसेस कर सकता है
मौजूदा MySQL tools·drivers के साथ 100% compatible, बिना अतिरिक्त learning के तुरंत उपयोग योग्य
Alibaba Cloud के बड़े production environment में सत्यापित तकनीक, जिसे AI·analytics workload integration database के रूप में देखा जा रहा है

AliSQL overview

AliSQL Alibaba Group द्वारा विकसित MySQL का enterprise-grade branch है, जिसमें DuckDB OLAP engine और native vector search features एकीकृत हैं
- Alibaba के production environment में लाखों databases चलाकर सत्यापित किया गया system
MySQL की InnoDB OLTP stability और DuckDB की high-speed analytics performance को जोड़ता है
सभी features तक मौजूदा MySQL interface के ज़रिए पहुंचा जा सकता है

मुख्य performance और features

DuckDB Storage Engine एक columnar OLAP engine है, जो automatic compression को support करता है और analytics workloads के लिए optimized है
- InnoDB की तुलना में अधिकतम 200x तेज analytics query processing speed प्रदान करता है
Vector Index (VIDX) HNSW algorithm पर आधारित vector storage और approximate nearest neighbor search (ANN) को support करता है
- COSINE और EUCLIDEAN distance calculations को support करता है, और अधिकतम 16,383-dimensional vectors को प्रोसेस कर सकता है
MySQL 100% compatibility बनाए रखता है, इसलिए मौजूदा SQL, drivers और tools को वैसे ही इस्तेमाल किया जा सकता है

आगे का development roadmap

2025 की चौथी तिमाही तक DuckDB engine, Vector Index, और open source release पूरा करने की योजना
2026 के बाद योजनाबद्ध features
- DDL optimization: instant DDL, parallel B+ tree creation, non-blocking locks
- RTO optimization: fast crash recovery, minimum RTO
- Replication Boost: parallel Binlog Flush, Binlog in Redo, large transaction optimization

उपयोग उदाहरण

DuckDB analytics table creation और query
- DuckDB engine से table बनाने के बाद monthly sales aggregation query चलाने पर InnoDB की तुलना में 200x तेज processing
AI applications के लिए vector search
- 768-dimensional vector column वाले table को बनाने के बाद, HNSW index के माध्यम से cosine distance-based similarity search चलाना

ओपन सोर्स और community

दिसंबर 2025 में open source release, Alibaba Cloud Database team मुख्य रूप से development, management और maintenance करेगी
GPL-2.0 license के तहत distributed, MySQL के समान licensing structure
GitHub Issues के माध्यम से bug reports और feature suggestions संभव
Alibaba Cloud RDS में DuckDB-आधारित analytics instances के रूप में commercial service उपलब्ध

1 टिप्पणियां

GN⁺ 2026-02-05

Hacker News की राय

storage engine के रूप में DuckDB इस्तेमाल करने वाला approach दिलचस्प है
मौजूदा MySQL connections, tooling और replication structure को वैसे ही रखते हुए सिर्फ analytical queries को column-based engine की ओर route किया जा सकता है
अलग analytical DB खड़ा करने और sync pipeline बनाने की तुलना में यह operational तौर पर काफी सरल है
हालांकि InnoDB और DuckDB के बीच data consistency कैसे बनाए रखी जाती है, यही मुख्य point है
- MySQL के binlog mechanism का उपयोग करके read-only Columnar Store(DuckDB) node लागू करने का तरीका बताया गया है
  विस्तृत जानकारी AliSQL DuckDB docs में दी गई है
  binlog batch transfer, write operations आदि में कई तरह के optimizations किए गए हैं
- data consistency की समस्या हल करने के लिए GTID-based replication का उपयोग किया गया है
  जब log_bin बंद होता है, तब DuckDB transaction को GTID record से पहले commit किया जाता है, और failure recovery के समय उसे idempotent तरीके से फिर लागू किया जाता है
  जब log_bin चालू होता है, तब सीधे Binlog का उपयोग किया जाता है, और DuckDB में valid Binlog position दर्ज की जाती है ताकि failure होने पर उसी position तक rollback किया जा सके
  नतीजतन, अगर replica का gtid_executed primary से मेल खाता है, तो DuckDB data भी consistent रहता है
आने वाले 10 वर्षों में SQL database के विकास की दिशा को तीन चरणों में देखा गया है
1. मौजूदा OLTP engine में OLAP engine को integrate किया जाएगा और queries forward की जाएंगी
2. दोनों engines को common storage layer इस्तेमाल करने लायक फिर से design किया जाएगा
3. अंततः engines पूरी तरह merge हो जाएंगे, और पुरानी records अपने-आप compress/archive होंगी तथा ज़रूरत पड़ने पर remote storage से लाई जाएंगी
  पुराने data को query करना बस थोड़ा धीमा होगा, बाकी अनुभव पूरी तरह integrated query experience देगा
pg_duckdb की तुलना में क्या अंतर होगा, यह जानने की उत्सुकता है
Postgres के extension mechanism की वजह से pg_duckdb काफी साफ-सुथरा लगता है
- (हटाई गई टिप्पणी)
यह जानना रोचक होगा कि क्या यह system SAP HANA की तरह transactional workload data को real time में DuckDB तक पहुंचाता है
अगर हाँ, तो Kafka या Debezium से data warehouse sync करने का जटिल काम काफी कम हो जाएगा
apavlo की राय भी सुनना चाहूंगा
लगता है कि HTAP का दौर अब सच में आ गया है
ऐसे hybrid databases का धीरे-धीरे अपनाया जाना दिलचस्प है
खासकर AliSQL DuckDB docs में बताए गए transaction handling improvements प्रभावशाली हैं
base tables और analytical tables के बीच sync को तेज़ और transaction level पर सुनिश्चित करना शानदार है
- लेकिन यह असली HTAP से ज़्यादा दो DBs को एक interface में बांधने जैसा लगता है
  Materialize जैसे systems की consistency guarantees से यह बहुत अलग नहीं है
  सच कहें तो ऐसे प्रयास पहले भी होते रहे हैं, और MySQL/Postgres में OLAP storage engines जोड़ने के कई उदाहरण हैं
पारंपरिक DB में embedded columnar engine जोड़ना productivity और operational simplicity के लिहाज़ से बड़ा फायदा देता है
अभी PG + Tiger Data का संयोजन इस्तेमाल कर रहा हूँ, लेकिन MySQL की तरफ ऐसा कोई विकल्प नहीं था
यह प्रयास शायद उस कमी को पूरा कर सके
- MariaDB में पहले से ColumnStore engine मौजूद है
  हाल में vector storage type भी जोड़ा गया है, इसलिए Alibaba के implementation के साथ performance comparison दिलचस्प होगा
  Postgres का नाम ज़्यादा आता है, लेकिन MariaDB भी काफी versatile है
- ClickHouse, MySQL protocol को native support करता है, और MySQL tables को wrap या import भी कर सकता है
  दो connections की ज़रूरत पड़ती है, लेकिन यह काफी अच्छा काम करता है
- यह जानना चाहता हूँ कि क्या Tiger Data को सिर्फ एक simple column store की तरह इस्तेमाल किया जा सकता है
  ClickHouse की तरह बस तेज़ count चाहिए, लेकिन पूरा sync process करना झंझट लगता है
  TimeSeries खास use cases के लिए optimized है, इसलिए सामान्य उपयोग में मुश्किल होती है
- TiDB भी एक विकल्प है
  यह row-based और column-based data दोनों को support करता है, लेकिन यह सिर्फ MySQL-compatible है, codebase वही नहीं है
  इसलिए यह MySQL का पूर्ण extension नहीं है
- MariaDB पहले से columnar tables support करता है
यह feature MySQL Operator के साथ मिलाकर deploy करना कितना आसान होगा, यह जानना चाहूंगा
- अभी तक इसे आज़माया नहीं है, लेकिन आगे mysql-operator के साथ integration test करने की योजना है
पहली नज़र में यह PSQL के FDW का DuckDB और Vector Storage के साथ अधिक करीबी integration वाला version लगता है
Vespa जैसा एहसास भी देता है, इसलिए यह दिलचस्प है कि FDW approach के बजाय MySQL extension क्यों चुना गया
- शायद इसलिए कि वे पहले से MySQL code की लाखों lines इस्तेमाल कर रहे थे
commit history अजीब लगती है
2022 में 2 commits, और 2024~2026 में बस कुछ ही, जबकि पहला commit “First commit, Support DuckDB Engine” है
- संभव है कि यह पहले internal private development के रूप में चला हो, और public release के लिए सिर्फ न्यूनतम commits व्यवस्थित किए गए हों
  internal version में Jira references, product information, Chinese comments आदि के कारण चीज़ें जटिल रही होंगी
  इसलिए शायद एक साफ public git history नई बनाई गई हो
सोचने वाली बात है कि अगर TiDB ने ClickHouse की जगह DuckDB इस्तेमाल किया होता तो क्या होता
- अगर DuckDB 2020 के आसपास stable open source के रूप में मौजूद होता, तो मुझे पूरा यक़ीन है कि TiDB ClickHouse की जगह DuckDB चुनता

AliSQL - Alibaba का ओपन सोर्स MySQL fork, vector और DuckDB engine integration

AliSQL overview

मुख्य performance और features

आगे का development roadmap

उपयोग उदाहरण

ओपन सोर्स और community

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय