AWS RedShift CI/CD बनाने की कहानी
(medium.com)Here Mobility ने डेटा इंजीनियरों और विश्लेषकों के लिए Database CI/CD कैसे बनाया।
-
पहले analytics टीम S3 data lake को PySpark ETL के ज़रिए RedShift में भेजती थी। इसके लिए SQL scripts भी analytics टीम ही संभालती थी
-
PySpark code application CI/CD के साथ चलता है, इसलिए वहाँ समस्या नहीं थी, लेकिन RedShift के लिए SQL code का testing/versioning/tracking मुश्किल था
-
version control, code validation, Jenkins pipeline integration, और अपने-आप RedShift में deploy होने वाला RedShift-समर्पित CI/CD tool
redCIविकसित किया गया -
redCI- Python code के ज़रिए Redshift और Postgres से connect करके PSQL-compatible script files को पढ़ और execute कर सकता है। यह Redshift syntax को PSQL में बदलता है। इससे unit tests चलाना संभव हुआ -
वास्तविक implementation के दौरान आने वाली समस्या: RedShift, Postgres 8 पर आधारित है, लेकिन supported functions अलग हैं, इसलिए समस्या हो सकती है। इसका समाधान conversion के बाद Docker में चलाए गए Postgres पर उसे execute करके निकाला गया।
2 टिप्पणियां
Here पहले Navteq था, फिर इसे Nokia ने अधिग्रहित किया, और अब यह जर्मनी के Audi/BMW/Daimler AG consortium द्वारा अधिग्रहित की गई एक map/location information service company है.
अगर वे redCI को ही open source कर दें तो अच्छा होगा, लेकिन लगता है अभी बात वहाँ तक नहीं पहुँची है।