2021 का डेटा/ML/AI इंडस्ट्री मैप और नवीनतम ट्रेंड्स
(mattturck.com)→ सभी डेटा को स्टोर करने वाला एक ही रिपॉज़िटरी। structured/unstructured data दोनों को स्टोर करता है और अतीत से लेकर भविष्यवाणी तक हर तरह का analysis करता है<br />
- बेशक कई प्रतिस्पर्धी भी हैं (AWS, GCP जैसे cloud hyperscalers)<br />
- Snowflake और Databricks दोनों ही cloud vendors के लिए दोस्त भी हैं और दुश्मन भी (Friend and Foe)<br /> → AWS के आधार पर बढ़ा Snowflake अब दूसरे cloud तक विस्तार कर रहा है <br /> → Databricks की MS के साथ मजबूत partnership है, लेकिन multi-cloud capabilities के जरिए vendor lock-in से बचने में मदद कर रहा है <br /> → पिछले कुछ वर्षों से आलोचक यह कहते रहे हैं कि Snowflake और Databricks का business model cloud कंपनियों की pricing पर निर्भर होने के कारण margins को प्रभावित करता है <br />
- अगले 5 वर्षों में cloud providers और data behemoths के बीच यह नृत्य देखना एक निर्णायक कहानी होगी <br /> <br />
"Bundling, Unbundling, Consolidation?"<br />
- Snowflake और Databricks, दोनों के उभार को देखते हुए, क्या यह उस consolidation wave की शुरुआत है जिसका उद्योग इंतज़ार कर रहा था?<br />
- data / AI क्षेत्र में "functional consolidation हो रहा है"<br />
- लेकिन सबके साथ यही है। कोई भी single-product company बने रहने के बजाय ज़्यादा bundling और ज़्यादा features चाहता है<br /> → 2021/6 में सूचीबद्ध हुई Confluent भी real-time data क्षेत्र से आगे बढ़कर "moving data और static data की processing को एकीकृत" करना चाहती है <br /> → Dataiku data preparation से लेकर DataOps, MLOps, visualization, AI explainability आदि को एक ही platform में bundle करने पर ज़ोर देता है <br />
- modern data stack का उभरना functional consolidation का एक और उदाहरण है <br /> → इसका मूल data extraction से data warehouse और BI तक जुड़े उद्यमों (ज़्यादातर startups) का वास्तविक "alliance" है <br />
- ऐसी technologies के users के लिए bundling और convergence का काफ़ी स्वागत होगा<br /> → जैसे-जैसे data industry mature हो रही है, उसे "transaction vs. analytics", "batch processing vs. real-time", "BI vs AI" जैसी technology divides से आगे बढ़ते हुए evolve करना होगा <br />
- कंपनियाँ कई vendors/platforms/tools के साथ मिलकर अपनी ज़रूरत के मुताबिक सबसे उपयुक्त combination बनाती रहेंगी<br /> <br />
- इसकी मुख्य वजह है "innovation की रफ़्तार का बेहद विस्फोटक होना"<br /> → लगातार नए startups आ रहे हैं, Big Tech कंपनियाँ भीतर ही data/AI tools बनाकर उन्हें open source कर रही हैं, और हर मौजूदा technology/product के लिए लगभग हर हफ्ते कुछ नया सामने आ रहा है <br /> <br />
- big data warehouse और data lake vendors सभी data को centralize करने के लिए ज़ोर दे रहे हैं, लेकिन "Data Mesh" जैसे नए frameworks भी उभर रहे हैं <br /> → एक distributed approach जिसमें अलग-अलग teams अपनी-अपनी ज़िम्मेदारी लेती हैं <br /> <br />
- functional consolidation के अलावा M&A होगा या नहीं, यह कहना मुश्किल है <br /> → लोगों की पसंदीदा अफ़वाहों में एक यह भी है कि "MS Databricks को acquire करना चाहता है"<br /> <br />
"Financings, IPOs, M&A: A Crazy Market"<br />
- जिसने भी startup market को थोड़ा देखा है, वह जानता होगा कि market पागल हो चुका है <br />
- पिछले साल की तरह इस साल भी data और ML/AI सबसे hot investment categories हैं<br />
- सूचीबद्ध होने वाली कंपनियाँ<br /> → UiPath : RPA और AI automation कंपनी <br /> → Confluent : Kafka <br /> → C3.ai : AI platform <br /> → Couchbase : no-SQL DB <br /> → SentinelOne : automated AI endpoint security platform <br /> → TuSimple : self-driving truck <br /> → Zymergen : bio manufacturing <br /> → Recursion : AI-driven drug manufacturing company<br /> → Darktrace : AI-आधारित cyber security<br />
- SPAC में बढ़ोतरी से AI market की अग्रिम पंक्ति में मौजूद tech कंपनियों को लाभ होगा (autonomous driving, biotech आदि)<br /> <br />
"The 2021 MAD Landscape & What’s New this Year"<br />
- इस साल के map में "Analytics and Machine Intelligence" को “Analytics” और “Machine Learning & Artificial Intelligence” में अलग किया गया है <br />
- नई categories जोड़ी गईं <br /> → Infrastructure<br /> → Reverse ETL : data warehouse से SaaS applications में वापस data भेजने वाले products <br /> → Data Observability : data lineage के आधार पर data quality issues को हल करने पर केंद्रित DataOps का एक घटक <br /> → Privacy & Security : data privacy लगातार अधिक महत्वपूर्ण हो रही है, और इस category में कई startups उभर रहे हैं <br /> → Analytics<br /> → Data Catalogs & Discovery : पिछले 12 महीनों में सबसे व्यस्त category। users को मनचाहा dataset खोजने और manage करने देती है <br /> → Augmented Analytics : BI tools NLG/NLP में हुई प्रगति का उपयोग करके अपने-आप insights पैदा कर रहे हैं, और non-technical audience के लिए data को अधिक accessible बना रहे हैं <br /> → Metrics Stores : प्रमुख business metrics के लिए central repository। data stack में नया प्रवेश<br /> → Query Engines <br /> → Machine Learning and AI <br /> → MLOps category को और विभाजित किया गया : Model Building, Feature Stores, Deployment and Production <br /> → Open Source <br /> → Format, Orchestration, Data Quality & Observability जोड़े गए <br />
- पहले जहाँ अधिकतर startups series C या उससे ऊपर के, या फिर listed companies हुआ करती थीं, इस साल series A/seed stage की कंपनियाँ भी बड़ी संख्या में जोड़ी गई हैं <br /> <br />
"डेटा infrastructure के प्रमुख trends"<br />
-
2020 <br /> → Modern Data Stack mainstream बना <br /> → ETL vs ELT <br /> → data engineering का automation?<br /> → data analysts का उभार <br /> → क्या data lake और data warehouse एक हो जाएंगे?<br /> → अब भी अनसुलझी complexity <br /> <br />
-
2021 <br /> → Data Mesh <br /> → DataOps के लिए व्यस्त साल <br /> → अब real-time का दौर<br /> → Metrics Stores <br /> → Reverse ETL <br /> → Data Sharing <br /> <br /> [Data Mesh]<br />
-
Zhamak Dehghani के 2019 के तर्क "How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh" से निकला विचार <br />
-
2020~21 के बीच काफ़ी momentum मिला<br />
-
data mesh concept ज़्यादातर एक organizational idea है<br />
-
अब तक data infrastructure और teams बनाने का standard तरीका centralization रहा है। एक data team द्वारा managed एक बड़ा platform business requirements को पूरा करता है <br />
-
इसके कई फ़ायदे हैं, लेकिन bottlenecks जैसी समस्याएँ भी पैदा होती हैं <br />
-
decentralization के जरिए डोमेन-आधारित स्वतंत्र data teams बनाना और संगठन के अन्य लोगों को data को "product" के रूप में उपलब्ध कराना इसका लक्ष्य है <br /> → software engineering के microservices concept जैसा <br />
-
इसके कई मायने हैं <br /> → यदि यह संभव होता है, तो distributed data stack में mission-critical tools बनाने वाले startups के लिए बड़ा अवसर होगा<br />
-
कई repositories पर unified query और analytics देने वाले SQL Query Engine Starburst ने खुद को "data mesh के लिए analytics engine" के रूप में rebrand किया है <br />
-
complex pipelines को manage करने वाले orchestration engines (Airflow, Prefect, Dagster) जैसी चीज़ें और भी mission-critical बन जाएँगी <br />
-
स्टोरेज और पाइपलाइन कंप्यूटिंग में डेटा को ट्रैक करना compliance और governance के नज़रिए से और भी ज़्यादा अनिवार्य हो गया है, इसलिए Data Lineage की ज़रूरत मज़बूत हुई है (OpenLineage, DataKin)<br /> <br /> [DataOps के लिए व्यस्त साल]<br />
-
DataOps की अवधारणा कई वर्षों तक मंडराती रही, लेकिन हाल में वास्तव में सक्रिय हुई <br />
-
इसकी कई परिभाषाएँ मौजूद हैं <br /> → डेटा दुनिया का DevOps <br /> → डेटा पाइपलाइन बनाना और उनका रखरखाव करना, data catalog के ज़रिए सही dataset ढूँढना, और डेटा producers व consumers को ज़रूरी काम करने के लिए आवश्यक हर चीज़ <br />
-
कुल मिलाकर, DevOps की तरह यह भी "methodology, process, people, platform और tools का संयोजन" है<br />
-
व्यापक संदर्भ में, "data engineering tools और practices" अब भी software engineering की automation स्तर से काफ़ी पीछे हैं<br />
-
जैसे-जैसे डेटा/AI अधिक महत्वपूर्ण होता जा रहा है, बेहतर tools और practices की ज़रूरत बढ़ रही है <br />
-
हर कोई "डेटा दुनिया का DataDog" बनना चाहता है (असल में DataDog का उपयोग DataOps में भी होता है, लेकिन इसकी नींव मूलतः software engineering पर है)<br />
-
इसमें Data observability, Data Lineage, Data Quality, Data Reliability Engineering, Data Access & Governance जैसे कई sub-parts हैं<br /> <br /> [अब रीयलटाइम का दौर]<br />
-
"रीयलटाइम" या "streaming" डेटा वह डेटा है जिसे बनते ही तुरंत प्रोसेस और consume किया जाता है <br />
-
यह अब तक डेटा इन्फ्रास्ट्रक्चर के प्रमुख paradigm रहे "batch" के विपरीत है <br />
-
रीयलटाइम डेटा प्रोसेसिंग 10-15 साल पहले big data युग की शुरुआत से ही एक hot topic रही है<br /> → खासकर processing speed ने Hadoop MR की तुलना में Spark की सफलता को बढ़ाने में अहम भूमिका निभाई <br />
-
लेकिन कई वर्षों तक यह "बस फटने वाला" बाज़ार माना गया, पर वास्तव में विस्फोट नहीं हुआ <br />
-
Confluent के IPO की बड़ी सफलता ने साबित किया कि संदेह करने वाले ग़लत थे <br />
-
और Confluent से आगे बढ़कर पूरा रीयलटाइम डेटा ecosystem तेज़ी से आगे बढ़ा <br />
-
खास तौर पर "real-time analytics" में काफ़ी गतिविधि दिखी <br /> → रूस की Yandex द्वारा बनाए गए ClickHouse ने अमेरिका में कंपनी स्थापित की और $50M का निवेश जुटाया <br /> → Druid open source आधारित real-time analytics platform Imply ने $70M का निवेश जुटाया <br /> <br /> [Metrics Stores]<br />
-
पिछले कुछ वर्षों में कंपनियों का डेटा, उसके उपयोग की आवृत्ति और उसकी जटिलता बढ़ी है <br />
-
जटिलता बढ़ने के साथ डेटा असंगति से होने वाली परेशानियाँ भी बढ़ी हैं <br />
-
metrics dimension/definition और अन्य कारणों से मामूली बदलाव पर भी ग़लत तरह से align हो सकते हैं<br />
-
डेटा तभी उपयोगी है जब टीमों के इस्तेमाल के समय वह सटीक और भरोसेमंद हो <br />
-
metrics को केंद्रीकृत करने की कोशिश ने AirBnB की Minerva जैसे in-house solutions के विकास को जन्म दिया: "Define Once, Use Anywhere"<br />
-
प्रमुख business metrics और सभी dimensions की परिभाषाओं को standardize करना, और stakeholders को उन्हीं परिभाषाओं के आधार पर सटीक व विश्लेषण-योग्य datasets देना <br />
-
केंद्रीकृत metric definitions के आधार पर डेटा पर भरोसा बनाना, और सभी को metrics तक cross-functional access देना <br />
-
metric store <br /> → data warehouse के ऊपर स्थित होता है और BI platforms, analytics व data science tools, तथा operational applications सहित सभी downstream applications को डेटा उपलब्ध कराता है <br /> → डेटा की consistency बनाए रखता है, ताकि business logic बदलने पर वह अपने-आप परिलक्षित हो जाए <br />
-
Transform, Trace, Supergrain जैसे startup इसमें हैं <br /> <br /> [Reverse ETL]<br />
-
modern data stack में Reverse ETL एक स्वतंत्र category बन गया है <br />
-
data warehouse से CRM, marketing automation systems, customer support platforms जैसी business applications में डेटा वापस ले जाया जाता है <br />
-
इसका मकसद यह है कि वास्तविक operational tools दूसरी business applications से समृद्ध किए गए ताज़ा डेटा का उपयोग कर सकें <br />
-
कई Reverse ETL tools ने funding जुटाई है: Census, Rudderstack, Grouparoo, Hightouch, Headsup, Polytomic <br /> <br /> [Data Sharing]<br />
-
सिर्फ़ कंपनी के भीतर ही नहीं, बल्कि पूरे संगठनात्मक ecosystem में data sharing और data collaboration का उभार <br />
-
supply chain visibility, machine learning model training, और go-to-market योजनाओं की साझेदारी जैसी ज़रूरतों के लिए कंपनियाँ vendors, partners और customers के ecosystem के साथ डेटा साझा करना चाहती हैं <br />
-
संगठनों के बीच data sharing, "data cloud" vendors की एक प्रमुख थीम है <br />
-
2021/5 में Google ने Analytics Hub लॉन्च किया। इसके ज़रिए संगठन के भीतर/बाहर data/insights/dashboards/machine learning models साझा किए जा सकते हैं। साथ ही financial services के लिए DataShare भी पेश किया <br />
-
Google के उसी दिन Databricks ने Delta Sharing पेश किया। यह संगठनों के बीच data sharing के लिए एक open source protocol है <br />
-
2021/6 में Snowflake ने data marketplace के माध्यम से Secure Data Sharing फ़ीचर पेश किया <br />
-
Habr, Crossbeam जैसे startup इसमें हैं </p><p>## "ML/AI के प्रमुख ट्रेंड्स"<br /> 2020<br />
-
Boom time for data science and machine learning platforms (DSML)<br />
-
ML getting deployed and embedded<br />
-
The Year of NLP<br /> <br /> 2021<br />
-
Feature Stores<br />
-
The rise of ModelOps<br />
-
AI content generation<br />
-
The continued emergence of a separate Chinese AI stack<br /> <br />
-
artificial intelligence पर रिसर्च तेज़ रफ़्तार से लगातार आगे बढ़ रही है<br /> → DeepMind Alphafold, OpenAI GTP-3/DALL-E/CLIP <br /> <br /> [Feature Stores]<br />
-
Uber द्वारा 2017 में यह विचार पेश किए जाने के बाद से यह machine learning stack में लगातार अधिक आम होता गया है <br /> → Tecton, Rasgo, Logical Clocks, Kaskada जैसी कंपनियों ने funding rounds जुटाए <br />
-
machine learning में feature (variable या attribute) एक ऐसा गुण या विशेषता है जिसे अलग से मापा जा सकता है और जो data snippet में column के रूप में व्यक्त होती है<br /> → machine learning models एक feature से लेकर लाखों features तक का उपयोग कर सकते हैं <br />
-
जैसे-जैसे अधिक जटिल models और pipelines का उपयोग बढ़ा, काम भी अधिक ad-hoc तरीके से होने लगा <br />
-
engineers और data scientists अक्सर raw data से features को फिर से निकालने में बहुत समय खर्च करते हैं <br />
-
production environment और experiment environment के बीच का अंतर model performance या behavior में असंगति पैदा कर सकता है<br />
-
संगठन machine learning model governance और reproducibility में तो रुचि रखते हैं, लेकिन features का siloed होना इसे और कठिन बना देता है <br />
-
feature store collaboration को बढ़ावा देता है और इन silos को हटाता है <br />
-
training और production दोनों में single source of truth देकर complexity कम करता है और features को standardize व reuse करने देता है <br />
-
संगठन के भीतर curated features को स्टोर करता है, raw data को feature values में बदलने वाली data pipelines चलाता है, और API के ज़रिए तेज़ access देता है <br /> <br /> [The Rise of ModelOps]<br />
-
कई कंपनियों ने पाया कि models को experimentation stage से production में लाना कठिन है, और यह भी कि इस्तेमाल हो रहे models को लगातार monitoring और retraining की ज़रूरत होती है <br />
-
MLOps, DevOps की best practices को लागू करता है। यह बड़े पैमाने पर models के तेज़ और निरंतर development व deployment को सरल बनाता है <br />
-
ModelOps, MLOps का superset है। इसका लक्ष्य ML सहित सभी AI models को training से production तक हर चरण में अधिक तेज़ी से operate करना है <br />
-
ModelOps tools और processes दोनों को कवर करता है, processes को एकीकृत करता है, model orchestration को standardize करता है, और व्यापक governance capabilities के साथ सभी models के लिए एक केंद्रीकृत repository प्रदान करता है <br />
-
सही तरीके से लागू किया गया ModelOps सभी models की deployment/monitoring और management के लिए एकीकृत system देता है, जिससे risk घटता है और compliance बढ़ता है <br /> <br /> [AI Content Generation]<br />
-
पिछले कुछ वर्षों में AI काफी परिपक्व हो गया है, इसलिए इसका उपयोग टेक्स्ट, इमेज, कोड और वीडियो सहित हर तरह के मीडिया में कंटेंट बनाने के लिए हो रहा है<br />
-
OpenAI ने GPT-3 पेश किया। GitHub ने OpenAI Codex का उपयोग करने वाला GitHub Copilot पेश किया <br />
-
OpenAI अंग्रेज़ी-केंद्रित मॉडल्स पर ध्यान दे रहा है, लेकिन कई कंपनियाँ दूसरी भाषाओं पर भी काम कर रही हैं <br /> → जर्मनी की Aleph Alpha, AI21 Labs, Huawei का PanGu, Naver का HyperCLOVA<br /> <br /> [एक अलग Chinese AI stack का लगातार उभरना]<br />
-
अपने घरेलू बाज़ार के साथ, जो दुनिया का सबसे बड़ा डेटा उत्पादक है, चीन एक वैश्विक AI महाशक्ति के रूप में आगे बढ़ता जा रहा है <br />
-
सबसे बेहतरीन recommendation algorithms में से एक TikTok के पश्चिम में सफल होने के साथ, Chinese AI consumer tech पहली बार वास्तव में फैल गई <br />
-
2030 तक AI वर्चस्व का ऐलान और वित्तीय समर्थन मिलने के बाद, अब तक पश्चिमी tools का उपयोग कर रहे चीन में एक अलग घरेलू stack उभरना शुरू हो गया है </p>
3 टिप्पणियां