Sirius - GPU-Native SQL इंजन

xguru · 2025-07-03T09:31:01+09:00

नवीनतम GPU हार्डवेयर का उपयोग करके SQL क्वेरी acceleration में विशेषज्ञता रखने वाला अगली पीढ़ी का इंजन Substrait क्वेरी फ़ॉर्मैट के माध्यम से CPU इंजन (DuckDB) में जनरेट की गई क्वेरी को GPU environment (Sirius) तक पहुँचाता है GPU मेमोरी के भीतर Raw Data Cache Region और Processing Region को अलग करके, डेटा लोडिंग और प्रोसेसिंग performance को अधिकतम करता है क्वेरी संशोधन या सिस्टम बदलाव के बिना TPC-H 100 स्केल पर समान लागत के आधार पर 10x से अधिक गति दर्ज real-time analytics, finance, ETL जैसे बड़े डेटा workloads के लिए अनुकूल समर्थित environment: Ubuntu 20.04+, NVIDIA Volta(7.0+) या उससे ऊपर का GPU, CUDA 11.2+, CMake 3.30.4+ (16 vCPU या अधिक अनुशंसित) इंस्टॉलेशन के तरीके: AWS AMI (pre-configured image), Docker image, manual dependency installation — कुल 3 विकल्प Docker: sudo docker run --gpus all -it yifeiyang7/sirius_dependencies:latest bash manual: DuckDB dependencies, CUDA, libcudf (conda से इंस्टॉल) आदि को अलग-अलग इंस्टॉल करना आवश्यक प्रमुख सीमाएँ केवल GPU मेमोरी आकार के भीतर ही काम करता है (आगे partitioning/batching·disk spill·multi-GPU support की योजना) अधिकतम row count, libcudf की int32_t सीमा (~2 अरब rows) तक सीमित डेटा टाइप: INTEGER, BIGINT, FLOAT, DOUBLE, VARCHAR, DATE, DECIMAL समर्थित; अतिरिक्त टाइप विकासाधीन ऑपरेटर: FILTER, PROJECTION, JOIN, GROUP-BY, ORDER-BY, AGGREGATION, TOP-N, LIMIT, CTE समर्थित; WINDOW functions आदि विकासाधीन Partially NULL Column समर्थित नहीं (भविष्य के patch में अपेक्षित) इश्यू होने पर DuckDB CPU इंजन पर स्वतः fallback

(github.com/sirius-db)

10 पॉइंट द्वारा xguru 2025-07-03 | 1 टिप्पणियां | WhatsApp पर शेयर करें

नवीनतम GPU हार्डवेयर का उपयोग करके SQL क्वेरी acceleration में विशेषज्ञता रखने वाला अगली पीढ़ी का इंजन
Substrait क्वेरी फ़ॉर्मैट के माध्यम से CPU इंजन (DuckDB) में जनरेट की गई क्वेरी को GPU environment (Sirius) तक पहुँचाता है
GPU मेमोरी के भीतर Raw Data Cache Region और Processing Region को अलग करके, डेटा लोडिंग और प्रोसेसिंग performance को अधिकतम करता है
क्वेरी संशोधन या सिस्टम बदलाव के बिना TPC-H 100 स्केल पर समान लागत के आधार पर 10x से अधिक गति दर्ज
real-time analytics, finance, ETL जैसे बड़े डेटा workloads के लिए अनुकूल
समर्थित environment: Ubuntu 20.04+, NVIDIA Volta(7.0+) या उससे ऊपर का GPU, CUDA 11.2+, CMake 3.30.4+ (16 vCPU या अधिक अनुशंसित)
इंस्टॉलेशन के तरीके: AWS AMI (pre-configured image), Docker image, manual dependency installation — कुल 3 विकल्प
- Docker: sudo docker run --gpus all -it yifeiyang7/sirius_dependencies:latest bash
- manual: DuckDB dependencies, CUDA, libcudf (conda से इंस्टॉल) आदि को अलग-अलग इंस्टॉल करना आवश्यक
प्रमुख सीमाएँ
- केवल GPU मेमोरी आकार के भीतर ही काम करता है (आगे partitioning/batching·disk spill·multi-GPU support की योजना)
- अधिकतम row count, libcudf की int32_t सीमा (~2 अरब rows) तक सीमित
- डेटा टाइप: INTEGER, BIGINT, FLOAT, DOUBLE, VARCHAR, DATE, DECIMAL समर्थित; अतिरिक्त टाइप विकासाधीन
- ऑपरेटर: FILTER, PROJECTION, JOIN, GROUP-BY, ORDER-BY, AGGREGATION, TOP-N, LIMIT, CTE समर्थित; WINDOW functions आदि विकासाधीन
- Partially NULL Column समर्थित नहीं (भविष्य के patch में अपेक्षित)
- इश्यू होने पर DuckDB CPU इंजन पर स्वतः fallback

1 टिप्पणियां

xguru 2025-07-03

Substrait - डेटा प्रोसेसिंग ऑपरेशनों के लिए क्रॉस-प्लेटफ़ॉर्म एक्सचेंज मानक

Sirius - GPU-Native SQL इंजन

संबंधित पढ़ाई

1 टिप्पणियां