25 पॉइंट द्वारा xguru 2022-04-25 | 4 टिप्पणियां | WhatsApp पर शेयर करें

2020 में आए लेख का 2.0 अपडेट

Changelog

  • तेज़ी से उभरे 2 नए क्षेत्र
    • डेटा discovery, observability, ML model auditing जैसे मुख्य डेटा प्रोसेस और workflow को सपोर्ट करने वाले टूल्स
    • डेटा workspace, reverse ETL, ML application framework जैसे नए application, जो डेटा टीमों और business users को डेटा से वैल्यू निकालने में सक्षम बनाते हैं
  • BI में जोड़े गए हिस्से
    • Metrics Layer : Transfrom, Supergrain जैसे नए pure-play tools. और dbt का इस दिशा में विस्तार
    • Reverse ETL : Hightouch, Census
    • Data Workspace : Hex, Mode, Deepnote
    • Data Discovery & Observability : Monte Carlo, Big Eye ने बड़ा funding जुटाया. Seed stage में Select Star, Metaphor, Stemma, Secoda, Castor जैसी कई कंपनियाँ भी हैं
  • Multimodal Data Processing में जोड़े गए हिस्से
    • Lakehouse architecture के प्रति दृष्टिकोण
    • Storage Layer का अपग्रेड : Delta/Iceberg/Hudi का ज़्यादा adoption और commercialization.
    • Stream processing का adoption बढ़ रहा है : real-time analytics data processing. Materialize/Upsolver
  • AI & ML में जोड़े गए हिस्से
    • डेटा-केंद्रित approach के साथ एकीकरण
      • Data labeling : Scale, Labelbox. Closed-loop Data Engine में रुचि बढ़ रही है
      • Feature store का adoption बढ़ रहा है : Tecton, Feast, Databricks
      • Low-Code ML solutions : Continual, MindsDB, DataRobot, AutoML, Roboflow, Akkio
    • Pre-Trained models का उपयोग default बनता जा रहा है, खासकर NLP में. OpenAI & Hugging Face
    • MLOps परिपक्व हो रहा है, और ML Monitoring केंद्रित use cases तथा budgets बढ़ रहे हैं
    • ML models को applications में कैसे integrate किया जाए, इस पर भी ध्यान केंद्रित है. Prebuilt API(OpenAI), vector database(Pinecone) आदि

डेटा प्लेटफ़ॉर्म परिकल्पना

  • पिछले 1 साल में डेटा इन्फ्रास्ट्रक्चर स्टैक में core systems और support tools तेज़ी से फैले हैं; यह क्यों हुआ, इसे समझाने के लिए "डेटा प्लेटफ़ॉर्म" का विचार पेश किया गया है
  • प्लेटफ़ॉर्म क्या है?
    • डेटा ecosystem में "platform" शब्द का बहुत अधिक उपयोग होता है. Internal teams इसे पूरे tech stack के लिए इस्तेमाल करती हैं, और vendors भी इसे loosely connected product suite बेचने के लिए उपयोग करते हैं
    • software में platform का मतलब वह चीज़ है, जिस पर दूसरे developers कुछ बना सकें
    • प्लेटफ़ॉर्म को परिभाषित करने वाली विशेषता, औद्योगिक दृष्टिकोण से, प्रभावशाली platform provider और third-party developers के pool के बीच "परस्पर निर्भरता" है — तकनीकी और आर्थिक, दोनों अर्थों में
  • डेटा प्लेटफ़ॉर्म क्या है?
    • ऐतिहासिक रूप से, डेटा स्टैक प्लेटफ़ॉर्म की परिभाषा में फिट नहीं बैठता था
    • ETL, data warehouse, reporting vendors के बीच परस्पर निर्भरता तो थी, लेकिन integration model 1:many की बजाय 1:1 होने की प्रवृत्ति रखता था. इसे अक्सर professional services पूरा करती थीं
    • कई data professionals से बात करने पर लगता है कि यह बदलना शुरू हो सकता है
    • प्लेटफ़ॉर्म परिकल्पना कहती है कि डेटा स्टैक का "backend (डेटा ingestion, storage, processing, transformation तक जाने वाला)" कुछ cloud-based vendors के भीतर एकीकृत होना शुरू हो गया है
    • नतीजतन, customer datasets को एक standard system set से इकट्ठा किया जा रहा है, और vendors इस डेटा को दूसरे developers के लिए आसानी से accessible बना रहे हैं (Databricks के core design principles, SQL standards, और Snowflake के Snowpark जैसे APIs के माध्यम से)
    • जैसे frontend developers को single-point integrations से लाभ मिला था, वैसे ही अब वे underlying structure की चिंता किए बिना integrated data तक पहुँच सकते हैं
    • financial/product analytics जैसे पारंपरिक enterprise systems भी "Warehouse-native" architecture के रूप में फिर से बनाए जाने लगे हैं
    • इसका मतलब यह नहीं है कि OLTP DB या अन्य महत्वपूर्ण backend technologies जल्द ही गायब हो जाएँगी
    • लेकिन OLAP systems के साथ native integration application development का एक मुख्य component बन सकता है
    • अधिक से अधिक business logic और application features इस model की ओर बदल सकते हैं
  • डेटा apps का उभार?
    • यह डेटा प्लेटफ़ॉर्म परिकल्पना अभी भी काफी चर्चा की माँग करती है
    • फिर भी, हम डेटा प्लेटफ़ॉर्म के ऊपर horizontal layer के रूप में complex vertical SaaS solutions की बढ़ती संख्या देख रहे हैं
    • Snowflake, Databricks जैसी कंपनियाँ इस डेटा स्टैक के स्थिर हिस्से बनेंगी
      • बेहतरीन product, सक्षम sales teams, कम friction वाला deployment model आदि के कारण
      • क्योंकि यदि ग्राहक इन systems के ऊपर data applications बनाते या integrate करते हैं, तो किसी और चीज़ पर switch करना तर्कसंगत नहीं रहता
    • पिछले कुछ वर्षों में डेटा इन्फ्रास्ट्रक्चर products का बनना और आज भी नए products का सामने आना, शायद platform से जुड़ा हुआ है
    • प्लेटफ़ॉर्म परिकल्पना में competitive dynamics को अधिक अनुमानित बनाने की ताकत है
      • यदि scale बड़ा हो, तो platform का मूल्य बहुत अधिक होता है
      • core data system vendors संभव है कि मौजूदा budget के लिए नहीं, बल्कि दीर्घकालिक platform position लेने के लिए आक्रामक प्रतिस्पर्धा कर रहे हों
    • data ingestion & transformation कंपनियों, या Metrics Layer तथा Reverse ETL क्षेत्र की ऊँची valuations, इस दृष्टि से अधिक तर्कसंगत लग सकती हैं कि वे नए डेटा प्लेटफ़ॉर्म के मुख्य हिस्से हैं
  • आगे की ओर नज़र
    • हम अभी भी analytical और operational डेटा प्लेटफ़ॉर्म को परिभाषित करने के शुरुआती चरण में हैं, और उन्हें बनाने वाले हिस्से लगातार बदल रहे हैं
    • इसलिए इसे एक सख्त परिभाषा से ज़्यादा एक रूपक की तरह उपयोग करना अधिक उपयोगी है
    • फिर भी, यह परिकल्पना Signal को Noise से फ़िल्टर करने के टूल के रूप में उपयोगी है, और यह समझने में मदद करती है कि बाज़ार इस तरह क्यों चल रहा है
    • अब डेटा टीमों के पास DB के आविष्कार के बाद किसी भी समय की तुलना में अधिक tools, resources और organizational momentum है
    • इस नए platform पर app layer विकसित होती है या नहीं, यह देखना बेहद रोमांचक है

4 टिप्पणियां

 
sungwoo 2023-01-10

क्या आप पहले अपलोड किए जाने वाले YouTube लेक्चर वीडियो भी अपडेट करेंगे..? ^^;
https://youtube.com/watch/…

हमेशा धन्यवाद~

 
xguru 2023-01-10

वीडियो प्रोडक्शन भी कर रहा था, लेकिन उसे बीच में रोक देने के बाद अब उसे आगे करना और भी मुश्किल हो गया है T_T शायद निकट भविष्य में अपडेट करना मुश्किल होगा.

 
sungwoo 2023-01-10

अरे नहीं। आपने पहले जो सामग्री साझा की थी, उससे भी मुझे बहुत मदद मिली।
मैं इस अवसर पर आपका धन्यवाद करता हूँ।

 
xguru 2022-04-25

यह नवीनतम डेटा इंफ्रास्ट्रक्चर के लिए नया आर्किटेक्चर लेख का अपडेटेड वर्ज़न है.

इसे व्यवस्थित करके पोस्ट करने की सोच ही रहा था कि देखा, Techit ने भी इस 2.0 लेख का पूरा अनुवाद किया हुआ है। कृपया उसे भी साथ में संदर्भ के तौर पर देखें.
मॉडर्न डेटा आर्किटेक्चर और नए आर्किटेक्चर का युग