15 पॉइंट द्वारा xguru 2021-02-02 | 2 टिप्पणियां | WhatsApp पर शेयर करें
  1. डेटा लेक और वेयरहाउस का एकीकरण, Data Lakehouse

  2. "Modern Data Stack" का मुख्यधारा में उभरना : cloud-आधारित प्रमुख tools का integration

→ Data Ingestion : Fivetran, Stitch, Hevodata

→ Data Warehouse : Snowflake, BigQuery

→ Data Lake : Amazon S3

→ Data Lake Processing : Presto, Dremio, Databricks, Starburst

→ Data Transformation : dbt, Matillion

→ Metadata Management : Atlan

→ BI Tools : Looker

  1. Metadata 3.0 : metadata management का पुनर्जन्म

→ data discovery, data catalog, data lineage, observability आदि को संभालने वाले tools उभरेंगे

  1. नई job roles का उभरना

→ Data Platform Leader : संगठन के भीतर data platform को काम में लागू करने में मदद करने वाला leader

→ Analytics Engineer : dbt जैसे tools के आने से ऐसे analytics engineers संभव हुए हैं जो सिर्फ analysis ही नहीं, बल्कि data stack को भी operate कर सकते हैं

  1. data quality frameworks का उभरना

→ data profiling : data की समीक्षा करना, quality की जाँच करना, और आगे के उपयोग के तरीकों की पहचान करना

→ business-केंद्रित data quality rules को परिभाषित करना

→ data pipeline पर quality tests की शुरुआत : Amazon Deequ, Great Expectations

2 टिप्पणियां

 
xguru 2021-02-02

नंबर 2 वाले "latest data stack" के लिए GeekNews YouTube पर "latest data infrastructure को समझना" सीरीज़ देखें ;)

https://youtube.com/playlist/?list=PLL-_zEJctPoJ92HmbGxFv1Pv_ugsggGD2

लगता है नंबर 3 और 5 भी सीरीज़ के बाद के हिस्से में कवर किए जाएंगे.

 
kwangyeol 2021-02-06

"नवीनतम डेटा इन्फ्रास्ट्रक्चर को समझना" सीरीज़ जब भी आती है, मैं हर बार ध्यान से पढ़ता हूँ.

हम रोज़ वही चीज़ें इस्तेमाल करते रहते हैं, इसलिए नए रुझानों से रूबरू होना मुश्किल होता है, लेकिन आप उन्हें बहुत अच्छी तरह समझाते हैं, इसके लिए धन्यवाद.