DuckDB पर dplyr-स्टाइल पाइपलाइन का एक प्रयोग किया

विश्लेषण के काम में DuckDB का इस्तेमाल करते हुए
मुझे लगा कि सिर्फ SQL से भी काफी कुछ किया जा सकता है।

लेकिन व्यक्तिगत रूप से,
SQL लिखते-लिखते जब विश्लेषण की प्रक्रिया लंबी होती गई,
तो CTE का इस्तेमाल लगातार बढ़ता जाने वाला एक पैटर्न बार-बार दिखा।

बीच की अवस्थाओं को नाम देकर स्थिर न करूँ,
तो मैंने यह क्वेरी किस सोच-क्रम में बनाई थी,
यह बात मुझसे खुद भी आसानी से छूट जाती थी।

dplyr syntax याद आने की वजह

शायद इसलिए कि मैं लंबे समय से R का उपयोगकर्ता रहा हूँ,
filter → mutate → group_by → summarise की तरह
टेबल को चरणबद्ध तरीके से संभालने वाला dplyr syntax
बार-बार दिमाग में आता रहा।

SQL से भी वही काम किया जा सकता है,
लेकिन सोच के क्रम को कोड में ज्यों का त्यों छोड़ने के लिए
यह मुझे थोड़ा असुविधाजनक लगा।

इसलिए DuckDB पर एक छोटा-सा प्रयोग किया

मैं R runtime को फिर से ऊपर नहीं बिठाना चाहता था,
और केवल समझाकर इस एहसास को पहुँचाना भी मुश्किल था,
इसलिए DuckDB extension के रूप में dplyr-स्टाइल पाइपलाइन को
SQL में बदलने वाला एक छोटा प्रयोग बनाया।

फ़िलहाल यह लगभग इतनी चीज़ों को संभालता है।

select, filter, mutate
arrange
group_by, summarise
बुनियादी aggregation functions

join या जटिल restructuring (pivot आदि) अभी इसमें शामिल नहीं हैं।
यह पूर्ण dplyr compatibility को लक्ष्य बनाकर किया गया प्रोजेक्ट भी नहीं है।
अभी यह मेरी व्यक्तिगत असुविधा से शुरू हुआ एक प्रयोग है,
इसलिए जिन लोगों ने इस तरह की मिलती-जुलती दुविधा पर सोचा हो, उनकी राय भी जानना चाहूँगा।

DuckDB पर dplyr-स्टाइल पाइपलाइन का एक प्रयोग किया

dplyr syntax याद आने की वजह

इसलिए DuckDB पर एक छोटा-सा प्रयोग किया

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.