10 पॉइंट द्वारा xguru 2025-07-03 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • नवीनतम GPU हार्डवेयर का उपयोग करके SQL क्वेरी acceleration में विशेषज्ञता रखने वाला अगली पीढ़ी का इंजन
  • Substrait क्वेरी फ़ॉर्मैट के माध्यम से CPU इंजन (DuckDB) में जनरेट की गई क्वेरी को GPU environment (Sirius) तक पहुँचाता है
  • GPU मेमोरी के भीतर Raw Data Cache Region और Processing Region को अलग करके, डेटा लोडिंग और प्रोसेसिंग performance को अधिकतम करता है
  • क्वेरी संशोधन या सिस्टम बदलाव के बिना TPC-H 100 स्केल पर समान लागत के आधार पर 10x से अधिक गति दर्ज
  • real-time analytics, finance, ETL जैसे बड़े डेटा workloads के लिए अनुकूल
  • समर्थित environment: Ubuntu 20.04+, NVIDIA Volta(7.0+) या उससे ऊपर का GPU, CUDA 11.2+, CMake 3.30.4+ (16 vCPU या अधिक अनुशंसित)
  • इंस्टॉलेशन के तरीके: AWS AMI (pre-configured image), Docker image, manual dependency installation — कुल 3 विकल्प
    • Docker: sudo docker run --gpus all -it yifeiyang7/sirius_dependencies:latest bash
    • manual: DuckDB dependencies, CUDA, libcudf (conda से इंस्टॉल) आदि को अलग-अलग इंस्टॉल करना आवश्यक
  • प्रमुख सीमाएँ
    • केवल GPU मेमोरी आकार के भीतर ही काम करता है (आगे partitioning/batching·disk spill·multi-GPU support की योजना)
    • अधिकतम row count, libcudf की int32_t सीमा (~2 अरब rows) तक सीमित
    • डेटा टाइप: INTEGER, BIGINT, FLOAT, DOUBLE, VARCHAR, DATE, DECIMAL समर्थित; अतिरिक्त टाइप विकासाधीन
    • ऑपरेटर: FILTER, PROJECTION, JOIN, GROUP-BY, ORDER-BY, AGGREGATION, TOP-N, LIMIT, CTE समर्थित; WINDOW functions आदि विकासाधीन
    • Partially NULL Column समर्थित नहीं (भविष्य के patch में अपेक्षित)
    • इश्यू होने पर DuckDB CPU इंजन पर स्वतः fallback