Koheesio - Nike का डेटा पाइपलाइन बनाने के लिए ओपन सोर्स फ्रेमवर्क

xguru · 2024-06-05T09:37:10+09:00

कुशल डेटा पाइपलाइन बनाने के लिए Python फ्रेमवर्क modularity और collaboration को बढ़ावा देता है, जिससे सरल और reusable components के साथ जटिल पाइपलाइन बनाई जा सकती हैं कई डेटा प्रोसेसिंग लाइब्रेरी या frameworks के साथ सहज रूप से काम करने के लिए डिज़ाइन किया गया है Pydantic का उपयोग करके मजबूत type checking, data validation और configuration management प्रदान करता है अच्छी तरह से tested code और समृद्ध feature set के माध्यम से पूर्वानुमानित pipeline execution सुनिश्चित करता है Koheesio और अन्य libraries के बीच अंतर डेटा पाइपलाइन, PySpark integration, data transformation, ETL jobs, data validation और large-scale data processing के लिए विशेष रूप से डिज़ाइन किया गया सभी प्रकार के data processing tasks के लिए Reader, Writer और Transformation सुविधाएँ प्रदान करता है data engineering community के भीतर collaboration और innovation को प्रोत्साहित करता है Koheesio के मुख्य components Step: Koheesio की मूल कार्य इकाई, जो डेटा पाइपलाइन में एकल कार्य का प्रतिनिधित्व करती है। यह input लेकर output उत्पन्न करती है Context: कार्य के environment को सेट करने वाली configuration class। यह कार्यों के बीच variables साझा कर सकती है और environment के अनुसार कार्य के व्यवहार को समायोजित कर सकती है Logger: विभिन्न स्तरों पर messages रिकॉर्ड करने वाली class

कुशल डेटा पाइपलाइन बनाने के लिए Python फ्रेमवर्क
modularity और collaboration को बढ़ावा देता है, जिससे सरल और reusable components के साथ जटिल पाइपलाइन बनाई जा सकती हैं
कई डेटा प्रोसेसिंग लाइब्रेरी या frameworks के साथ सहज रूप से काम करने के लिए डिज़ाइन किया गया है
Pydantic का उपयोग करके मजबूत type checking, data validation और configuration management प्रदान करता है
अच्छी तरह से tested code और समृद्ध feature set के माध्यम से पूर्वानुमानित pipeline execution सुनिश्चित करता है

Koheesio और अन्य libraries के बीच अंतर

डेटा पाइपलाइन, PySpark integration, data transformation, ETL jobs, data validation और large-scale data processing के लिए विशेष रूप से डिज़ाइन किया गया
सभी प्रकार के data processing tasks के लिए Reader, Writer और Transformation सुविधाएँ प्रदान करता है
data engineering community के भीतर collaboration और innovation को प्रोत्साहित करता है

Koheesio के मुख्य components

Step: Koheesio की मूल कार्य इकाई, जो डेटा पाइपलाइन में एकल कार्य का प्रतिनिधित्व करती है। यह input लेकर output उत्पन्न करती है
Context: कार्य के environment को सेट करने वाली configuration class। यह कार्यों के बीच variables साझा कर सकती है और environment के अनुसार कार्य के व्यवहार को समायोजित कर सकती है
Logger: विभिन्न स्तरों पर messages रिकॉर्ड करने वाली class

1 टिप्पणियां

xguru 2024-06-06

Hacker News राय

यह जानने की उत्सुकता है कि Nike की data engineering वास्तव में कैसी है। LinkedIn प्रोफ़ाइल की वजह से कम वेतन वाले contract roles के ऑफ़र अक्सर आते हैं। ये roles अमेरिका में अनुभवी लोगों को target करते हैं, लेकिन भुगतान कम है। यह भी संभव है कि ये roles scam हों।
यह टूल उन environments में उपयोगी हो सकता है जहाँ कम अनुभवी developers ज़्यादा हों। 2-3 developers टूल बनाते हैं, और एक बड़ी टीम साधारण ETL tasks करती है। टूल टीम पर नए requirements को हल करने का दबाव रहता है।
strong typing data engineering की समस्याओं में बाधा बनती है। dynamic languages code complexity और maintenance को कम करने में मदद करती हैं। type frameworks पर ज़ोर देना industry experience की बजाय academic experience पर आधारित लगता है।
ETL, Spark, Storm आदि के साथ काम किया है, लेकिन इस library का value proposition समझ में नहीं आता। data engineering expert नहीं हूँ, लेकिन इस टूल से उपयोगिता की उम्मीद थी।
यह क्या है और इसे क्यों इस्तेमाल करना चाहिए, इस बारे में बेहतर explanation की ज़रूरत है। लिंक देखें।
कुछ हफ़्ते पहले Apache Beam का उपयोग करके data pipeline लिखी थी। Koheesio कुछ features साझा करता है, लेकिन Apache Beam बेहतर है।
Luigi जैसा है। अच्छा है!
CloudQuery देखने की सलाह है। यह Arrow-आधारित ELT framework है। (पोस्ट करने वाला स्वयं)
Koheesio कहता है कि वह दूसरी libraries से प्रतिस्पर्धा नहीं करता, लेकिन वास्तव में करता है। workflow orchestration एक mature category है। Python का उपयोग करना कोई बहुत बड़ा advantage नहीं है।
सोच रहा हूँ कि क्या आपने dlt library देखी है। यह Python में इस्तेमाल करने के लिए आसान EL देता है। Koheesio और dlt के बीच अंतर और क्या वे एक-दूसरे के पूरक हो सकते हैं, यह जानने की उत्सुकता है.