murrdb/murr - ML/AI workloads के लिए sub-millisecond cache
(github.com/murrdb)- AI inference workloads को ध्यान में रखकर बनाया गया RocksDB-आधारित NVMe/S3 cache, जो Redis का विकल्प बन सकता है
- batch processing शैली के low-latency zero-copy read और write के लिए ऑप्टिमाइज़्ड
- batch data pipeline और inference app के बीच स्थित data serving layer, जिसमें Parquet input, Arrow-Flight output
- hot data को memory में और cold data को disk पर रखते हुए S3-आधारित replication के साथ tiered storage
- batch input·batch output तरीके से columnar storage पर row-level overhead के बिना काम करता है, और 1GB Parquet/Arrow file को सीधे Ingestion API में डाला जा सकता है
- zero-copy wire protocol के जरिए API response से
np.ndarray/pd.DataFrame/pt.Tensorको बिना conversion के तैयार किया जा सकता है - stateless डिज़ाइन, जिसमें सारी state S3 में सुरक्षित रहती है, और block storage से self-bootstrap होने के कारण node eviction के बाद भी recovery संभव है
- first-class Python support के साथ Numpy/Pandas/Polars/Pytorch arrays की zero-copy mapping, और Sparse columns में बिना data वाले columns 0 byte लेते हैं
- Murr किन मामलों में उपयुक्त है
- जब data भारी हो और tabular form में हो, जैसे S3 पर बड़े Parquet dump
- जब read batch में होते हों: जैसे 1000 documents में फैले 100 columns को लाना
- जब cost महत्वपूर्ण हो: disk/S3 offloading, बड़े-memory Redis की तुलना में संचालन में अधिक सरल और सस्ता हो सकता है
- प्रतिस्पर्धी तकनीकों की तुलना में खूबियां
- Redis की तुलना में: S3-आधारित persistence देता है, और cold data को local NVMe पर offload किया जा सकता है
- embedded RocksDB की तुलना में: producer और inference node के बीच data synchronization खुद बनाने की ज़रूरत नहीं, यह शुरू से distributed design है
- DynamoDB की तुलना में: query के हिसाब से नहीं बल्कि सिर्फ CPU/RAM के लिए शुल्क, इसलिए लगभग 10 गुना सस्ता
- benchmarks में packed-blob read पर Redis की तुलना में लगभग 3 गुना, और Feast-style HSET की तुलना में लगभग 12 गुना तेज, साथ ही HSET की तुलना में लगभग 3 गुना कम RAM उपयोग
- क्योंकि यह general-purpose DB नहीं है, इसलिए OLTP के लिए Postgres, analytics के लिए Clickhouse/BigQuery/Snowflake, और general-purpose caching के लिए Redis की सिफारिश
- Apache 2.0 लाइसेंस
अभी कोई टिप्पणी नहीं है.