विश्लेषण के काम में DuckDB का इस्तेमाल करते हुए
मुझे लगा कि सिर्फ SQL से भी काफी कुछ किया जा सकता है।

लेकिन व्यक्तिगत रूप से,
SQL लिखते-लिखते जब विश्लेषण की प्रक्रिया लंबी होती गई,
तो CTE का इस्तेमाल लगातार बढ़ता जाने वाला एक पैटर्न बार-बार दिखा।

बीच की अवस्थाओं को नाम देकर स्थिर न करूँ,
तो मैंने यह क्वेरी किस सोच-क्रम में बनाई थी,
यह बात मुझसे खुद भी आसानी से छूट जाती थी।


dplyr syntax याद आने की वजह

शायद इसलिए कि मैं लंबे समय से R का उपयोगकर्ता रहा हूँ,
filter → mutate → group_by → summarise की तरह
टेबल को चरणबद्ध तरीके से संभालने वाला dplyr syntax
बार-बार दिमाग में आता रहा।

SQL से भी वही काम किया जा सकता है,
लेकिन सोच के क्रम को कोड में ज्यों का त्यों छोड़ने के लिए
यह मुझे थोड़ा असुविधाजनक लगा।


इसलिए DuckDB पर एक छोटा-सा प्रयोग किया

मैं R runtime को फिर से ऊपर नहीं बिठाना चाहता था,
और केवल समझाकर इस एहसास को पहुँचाना भी मुश्किल था,
इसलिए DuckDB extension के रूप में dplyr-स्टाइल पाइपलाइन को
SQL में बदलने वाला एक छोटा प्रयोग बनाया।

फ़िलहाल यह लगभग इतनी चीज़ों को संभालता है।

  • select, filter, mutate
  • arrange
  • group_by, summarise
  • बुनियादी aggregation functions

join या जटिल restructuring (pivot आदि) अभी इसमें शामिल नहीं हैं।
यह पूर्ण dplyr compatibility को लक्ष्य बनाकर किया गया प्रोजेक्ट भी नहीं है।
अभी यह मेरी व्यक्तिगत असुविधा से शुरू हुआ एक प्रयोग है,
इसलिए जिन लोगों ने इस तरह की मिलती-जुलती दुविधा पर सोचा हो, उनकी राय भी जानना चाहूँगा।

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.