2021 में डेटा के 5 ट्रेंड
(towardsdatascience.com)-
डेटा लेक और वेयरहाउस का एकीकरण, Data Lakehouse
-
"Modern Data Stack" का मुख्यधारा में उभरना : cloud-आधारित प्रमुख tools का integration
→ Data Ingestion : Fivetran, Stitch, Hevodata
→ Data Warehouse : Snowflake, BigQuery
→ Data Lake : Amazon S3
→ Data Lake Processing : Presto, Dremio, Databricks, Starburst
→ Data Transformation : dbt, Matillion
→ Metadata Management : Atlan
→ BI Tools : Looker
- Metadata 3.0 : metadata management का पुनर्जन्म
→ data discovery, data catalog, data lineage, observability आदि को संभालने वाले tools उभरेंगे
- नई job roles का उभरना
→ Data Platform Leader : संगठन के भीतर data platform को काम में लागू करने में मदद करने वाला leader
→ Analytics Engineer : dbt जैसे tools के आने से ऐसे analytics engineers संभव हुए हैं जो सिर्फ analysis ही नहीं, बल्कि data stack को भी operate कर सकते हैं
- data quality frameworks का उभरना
→ data profiling : data की समीक्षा करना, quality की जाँच करना, और आगे के उपयोग के तरीकों की पहचान करना
→ business-केंद्रित data quality rules को परिभाषित करना
→ data pipeline पर quality tests की शुरुआत : Amazon Deequ, Great Expectations
2 टिप्पणियां
नंबर 2 वाले "latest data stack" के लिए GeekNews YouTube पर "latest data infrastructure को समझना" सीरीज़ देखें ;)
https://youtube.com/playlist/?list=PLL-_zEJctPoJ92HmbGxFv1Pv_ugsggGD2
लगता है नंबर 3 और 5 भी सीरीज़ के बाद के हिस्से में कवर किए जाएंगे.
"नवीनतम डेटा इन्फ्रास्ट्रक्चर को समझना" सीरीज़ जब भी आती है, मैं हर बार ध्यान से पढ़ता हूँ.
हम रोज़ वही चीज़ें इस्तेमाल करते रहते हैं, इसलिए नए रुझानों से रूबरू होना मुश्किल होता है, लेकिन आप उन्हें बहुत अच्छी तरह समझाते हैं, इसके लिए धन्यवाद.