3 पॉइंट द्वारा xguru 2020-02-18 | 2 टिप्पणियां | WhatsApp पर शेयर करें

Here Mobility ने डेटा इंजीनियरों और विश्लेषकों के लिए Database CI/CD कैसे बनाया।

  • पहले analytics टीम S3 data lake को PySpark ETL के ज़रिए RedShift में भेजती थी। इसके लिए SQL scripts भी analytics टीम ही संभालती थी

  • PySpark code application CI/CD के साथ चलता है, इसलिए वहाँ समस्या नहीं थी, लेकिन RedShift के लिए SQL code का testing/versioning/tracking मुश्किल था

  • version control, code validation, Jenkins pipeline integration, और अपने-आप RedShift में deploy होने वाला RedShift-समर्पित CI/CD tool redCI विकसित किया गया

  • redCI - Python code के ज़रिए Redshift और Postgres से connect करके PSQL-compatible script files को पढ़ और execute कर सकता है। यह Redshift syntax को PSQL में बदलता है। इससे unit tests चलाना संभव हुआ

  • वास्तविक implementation के दौरान आने वाली समस्या: RedShift, Postgres 8 पर आधारित है, लेकिन supported functions अलग हैं, इसलिए समस्या हो सकती है। इसका समाधान conversion के बाद Docker में चलाए गए Postgres पर उसे execute करके निकाला गया।

2 टिप्पणियां

 
xguru 2020-02-18

Here पहले Navteq था, फिर इसे Nokia ने अधिग्रहित किया, और अब यह जर्मनी के Audi/BMW/Daimler AG consortium द्वारा अधिग्रहित की गई एक map/location information service company है.

 
xguru 2020-02-18

अगर वे redCI को ही open source कर दें तो अच्छा होगा, लेकिन लगता है अभी बात वहाँ तक नहीं पहुँची है।