DuckDB उपयोग गाइड (DuckDB Python + Jupyter Lab)
(zzsza.github.io)यह हाल में OLAP open source प्रोजेक्ट्स में खास ध्यान पा रहे DuckDB के उपयोग तरीकों को संक्षेप में समझाने वाला लेख है.
इसमें यह भी शामिल है कि इसे Jupyter Lab में कैसे इस्तेमाल किया जा सकता है, और कुछ प्रभावशाली Extensions भी जोड़े गए हैं.
S3 में मौजूद Parquet files को सीधे query करके आसानी से इस्तेमाल किया जा सकता है, और लगता है कि यह Athena का निश्चित रूप से विकल्प बन सकता है. Pandas के उपयोग वाले क्षेत्र भी पूरी तरह replace किए जा सकते हैं.
विषयसूची
- DuckDB परिचय, DuckDB क्या है?
- BIG DATA IS DEAD
- DuckDB के लक्ष्य & DuckDB के फायदे
-
- Simple
-
- Portable
-
- Feature Rich
-
- Fast
-
- Extensible
-
- Free
-
- Thorough Testing
- DuckDB performance benchmark
- DuckDB इंस्टॉल करना
-
- DuckDB चलाना
- सरल execution (DuckDB Python)
- Data Load
- jupysql का उपयोग करके और सुविधाजनक तरीके से चलाना
- SQL syntax
- Secrets Manager
- DuckDB Extension
- bigquery
- h3
- pg_duckdb
- vss(Vector Similarity Search)
- DuckDB के उपयोग के तरीके
- BigQuery में उपयोग का उदाहरण
- local data warehouse की तरह उपयोग (Pandas का विकल्प)
- जरूरत पड़ने पर इस्तेमाल होने वाले हल्के analysis engine के रूप में
- ETL, ELT pipeline में Transform चरण में उपयोग
- GCS में मौजूद Parquet को query करना
- निष्कर्ष
- संदर्भ सामग्री
2 टिप्पणियां
अच्छी सामग्री के लिए धन्यवाद।
पढ़ने के लिए धन्यवाद!!