21 पॉइंट द्वारा xguru 2021-11-01 | 3 टिप्पणियां | WhatsApp पर शेयर करें
<p>1 इमेज में समेटा गया 2021 Data &amp; AI Landscape और उसका विस्तृत विवरण<br /> 1. मैक्रो दृष्टिकोण: इकोसिस्टम की जटिलता को समझना <br /> 2. फंडिंग, IPO और M&amp;A <br /> 3. The 2021 Landscape<br /> 4. डेटा इन्फ्रास्ट्रक्चर के प्रमुख ट्रेंड्स <br /> → Data Mesh <br /> → DataOps के लिए व्यस्त साल <br /> → अब सब कुछ real-time<br /> → Metrics Store<br /> → Reverse ETL <br /> → Data Sharing <br /> 5. Analytics &amp; Enterprise AI के प्रमुख ट्रेंड्स <br /> → Feature Store<br /> → ModelOps का उदय<br /> → AI content generation<br /> → China AI stack का विकास<br /> <br /> ## &quot;मैक्रो दृष्टिकोण: इकोसिस्टम की जटिलता को समझना&quot;<br /> - डेटा&amp;AI कंपनियां लगातार क्यों बन रही हैं, और यह कब तक चलता रहेगा?<br /> - मूलभूत ट्रेंड यह है कि &quot;हर कंपनी सिर्फ एक साधारण software company नहीं, बल्कि data company बन रही है&quot;<br /> - कई संगठनों में &quot;डेटा&quot; का मतलब RDBMS में स्टोर किया गया transactional data और पिछले कुछ महीनों में क्या हुआ उसका analysis करने के लिए कुछ dashboards तक सीमित था <br /> - लेकिन अब कंपनियां ऐसी दुनिया की ओर बढ़ रही हैं जहां &quot;data और AI&quot; को &quot;analysis और operations&quot; के लिए &quot;internal processes और external applications&quot; में embed किया जाता है <br /> - यह मूलभूत विकास आधारभूत तकनीकों में जबरदस्त प्रगति से बना है - खासकर &quot;data infrastructure और machine learning/AI&quot; के symbiotic relationship से<br /> → ये दोनों क्षेत्र एक-दूसरे के साथ लगातार अधिक नज़दीकी से काम कर रहे हैं<br /> → पहला चरण 2010 के शुरुआती दशक का &quot;big data era&quot; था<br /> → जब यह समझ आया कि इस big data को 10 साल से भी पुराने AI algorithms (deep learning) पर लागू करने से हैरान करने वाले परिणाम मिल सकते हैं, तब AI को लेकर उत्साह बढ़ा<br /> → नतीजतन AI, data infrastructure development का एक प्रमुख driver बन गया<br /> → अगर सभी applications को AI-आधारित बनाना है, तो बेहतर data infrastructure की ज़रूरत होगी <br /> - 2021 तक आते-आते Big Data और AI जैसे शब्दों ने कई उतार-चढ़ाव देखे, और आजकल &quot;Automation&quot; की बहुत बात होती है, लेकिन मूल रूप से यह सब एक ही mega trend है<br /> <br /> - आज Data/AI क्षेत्र में जो acceleration दिख रहा है, उसे पिछले कुछ वर्षों में cloud data warehouse की growth से ट्रेस किया जा सकता है<br /> - data warehouse बहुत बुनियादी होते हुए भी data infrastructure के एक ज़रूरी हिस्से, यानी &quot;कहां स्टोर करना है&quot;, की समस्या हल करता है<br /> → Big Data क्रांति शुरू हुए 15 साल से ज़्यादा हो चुके हैं, इसलिए लग सकता है कि यह समस्या हल हो चुकी होगी, लेकिन ऐसा नहीं है <br /> → पीछे मुड़कर देखें तो Hadoop की शुरुआती सफलता कुछ हद तक दिखावटी थी <br /> → विशाल मात्रा के डेटा से वास्तविक value निकाली जा सकती है, इस विचार को फैलाने में उसका महत्व था, लेकिन तकनीकी जटिलता के कारण उसका उपयोग कुछ ही कंपनियों तक सीमित रहा और वह बाजार में गहराई तक नहीं पहुंच सका <br /> - आज के cloud data warehouses (Snowflake, Redshift, BigQuery) और lakehouses (Databricks) <br /> → कम लागत पर<br /> → बहुत बड़ी technical manpower के बिना भी <br /> → विशाल डेटा को उपयोगी तरीकों से स्टोर करने की क्षमता देते हैं <br /> - दूसरे शब्दों में, अब जाकर हम सच में Big Data को स्टोर और प्रोसेस कर पा रहे हैं। यह बहुत महत्वपूर्ण है, और यह साबित हुआ है कि इसने दूसरे Data/AI क्षेत्रों के लिए एक major unlock का काम किया है<br /> → पहला, data warehouse पूरे data और AI ecosystem के market size को बढ़ाता है। ease of use और usage-based pricing की वजह से data warehouse हर कंपनी के data company बनने का gateway बन गया है<br /> → दूसरा, data warehouse अपने आसपास के tools सहित ecosystem के उपयोग को संभव बनाता है <br /> ⇨ ETL, ELT, reverse ETL, warehouse-centric data quality tools, metrics store, augmented analytics आदि <br /> ⇨ &quot;Modern Data Stack&quot; ( https://hi.news.hada.io/topic?id=3055 refer )<br /> ⇨ modern data stack के उभरने से कई startups बने और निवेश केंद्रित हुआ (DBT, Fivetran..)<br /> → तीसरा, क्योंकि data warehouse सबसे बुनियादी storage layer को हल कर देता है, कंपनियां data needs stack में ऊपर की, अधिक value वाली projects पर ध्यान दे सकती हैं<br /> ⇨ अब जब डेटा स्टोर हो चुका है, तो real-time processing, augmented analytics, machine learning जैसे कामों पर आसानी से फोकस किया जा सकता है <br /> ⇨ इससे आगे चलकर हर तरह के data/AI tools और platforms के लिए market demand बढ़ती है <br /> ⇨ ग्राहकों की अधिक मांग data/ML कंपनियों में और innovation पैदा करने वाला flywheel बनाती है <br /> <br /> &quot;data warehouse पूरे data industry का एक महत्वपूर्ण signal है, और जैसे-जैसे DW बढ़ता है, बाकी सब भी साथ में बढ़ता है&quot;<br /> <br /> - data/AI industry के लिए अच्छी खबर यह है कि data warehouse और lakehouse बेहद तेज़ी से और बड़े पैमाने पर बढ़ रहे हैं <br /> → Snowflake ने Q2 announcement के आधार पर YoY 103% growth दिखाई, और Net Revenue Retention 169% का चौंकाने वाला आंकड़ा दिया (यानी मौजूदा ग्राहक लगातार अधिक उपयोग कर रहे हैं)<br /> → 2028 में 12 ट्रिलियन वॉन ($10B) revenue का अनुमान <br /> - कुछ लोग यह भी कहते हैं कि भविष्य में हर कंपनी के पास कम से कम एक cloud data warehouse होगा <br /> <br /> ## &quot;The Titanic Shock: Snowflake vs Databricks&quot;<br /> - Snowflake हाल के समय में data क्षेत्र का प्रमुख खिलाड़ी है। सितंबर 2020 का उसका IPO software IPO के इतिहास में सबसे बड़ा था। यह लिखे जाने के समय कंपनी का मूल्य $95B है<br /> - उद्योग के नए प्रतिद्वंद्वी के रूप में Databricks उभरा है। 8/31 को उसने $38B valuation पर $1.6B funding पूरी की <br /> - हाल तक दोनों कंपनियां बाजार के काफी अलग हिस्सों में थीं (वास्तव में कुछ समय तक वे करीबी partners भी थीं)<br /> - Snowflake एक cloud data warehouse के रूप में, बड़े पैमाने के structured data (जो rows और columns में अच्छी तरह स्टोर हो सके) को स्टोर और प्रोसेस करने वाला DB है <br /> → कंपनियां इसे BI tools से जोड़कर past और present performance से जुड़े सवालों का जवाब पाने के लिए उपयोग करती हैं (&quot;पिछली तिमाही में सबसे तेज़ी से बढ़ने वाला region कौन-सा था?&quot;) <br /> → दूसरे DB की तरह यह SQL का उपयोग करता है, इसलिए इसके करोड़ों संभावित users हैं <br /> - Databricks data world के एक अलग कोने से आया <br /> → 2013 में इसने open source Spark को commercialize करने से शुरुआत की <br /> → इसे आम तौर पर unstructured data (text, audio, video) को प्रोसेस करने के लिए बनाया गया था <br /> → Spark users इसका उपयोग &quot;Data Lake&quot; बनाने में करते थे, जहां data structure या organization की चिंता किए बिना कोई भी data रखा जा सकता है <br /> → data lake का मुख्य उपयोग ML/AI applications को train करना था, ताकि कंपनियां भविष्य से जुड़े सवालों का जवाब दे सकें (&quot;अगली तिमाही में खरीदारी करने की सबसे अधिक संभावना किस ग्राहक की है?&quot; यानी predictive analytics)<br /> → Databricks ने data lake support के लिए Delta बनाया, और ML/AI support के लिए ML Flow बनाया <br /> - लेकिन हाल के समय में दोनों कंपनियां एक-दूसरे की ओर converge कर रही हैं <br /> → Databricks ने data lake में DW functionality जोड़कर analysts के लिए standard SQL queries चलाना और Tableau या MS PowerBI जैसे tools को connect करना संभव बनाया। इसने वह चीज़ बनाई जिसे वह &quot;Lakehouse&quot; कहता है <br /> → Databricks data lake को data warehouse जैसा बना रहा है, और Snowflake ने अपने data warehouse को data lake जैसा दिखाने के लिए unstructured data (audio, video, PDF, images आदि) storage feature का preview जारी किया <br /> → Databricks AI capabilities में BI जोड़ रहा है, और Snowflake BI compatibility features में AI जोड़ रहा है <br /> - अंततः Snowflake और Databricks, दोनों ही &quot;The center of all things data&quot; बनना चाहते हैं<br />

→ सभी डेटा को स्टोर करने वाला एक ही रिपॉज़िटरी। structured/unstructured data दोनों को स्टोर करता है और अतीत से लेकर भविष्यवाणी तक हर तरह का analysis करता है<br />

  • बेशक कई प्रतिस्पर्धी भी हैं (AWS, GCP जैसे cloud hyperscalers)<br />
  • Snowflake और Databricks दोनों ही cloud vendors के लिए दोस्त भी हैं और दुश्मन भी (Friend and Foe)<br /> → AWS के आधार पर बढ़ा Snowflake अब दूसरे cloud तक विस्तार कर रहा है <br /> → Databricks की MS के साथ मजबूत partnership है, लेकिन multi-cloud capabilities के जरिए vendor lock-in से बचने में मदद कर रहा है <br /> → पिछले कुछ वर्षों से आलोचक यह कहते रहे हैं कि Snowflake और Databricks का business model cloud कंपनियों की pricing पर निर्भर होने के कारण margins को प्रभावित करता है <br />
  • अगले 5 वर्षों में cloud providers और data behemoths के बीच यह नृत्य देखना एक निर्णायक कहानी होगी <br /> <br />

"Bundling, Unbundling, Consolidation?"<br />

  • Snowflake और Databricks, दोनों के उभार को देखते हुए, क्या यह उस consolidation wave की शुरुआत है जिसका उद्योग इंतज़ार कर रहा था?<br />
  • data / AI क्षेत्र में "functional consolidation हो रहा है"<br />
  • लेकिन सबके साथ यही है। कोई भी single-product company बने रहने के बजाय ज़्यादा bundling और ज़्यादा features चाहता है<br /> → 2021/6 में सूचीबद्ध हुई Confluent भी real-time data क्षेत्र से आगे बढ़कर "moving data और static data की processing को एकीकृत" करना चाहती है <br /> → Dataiku data preparation से लेकर DataOps, MLOps, visualization, AI explainability आदि को एक ही platform में bundle करने पर ज़ोर देता है <br />
  • modern data stack का उभरना functional consolidation का एक और उदाहरण है <br /> → इसका मूल data extraction से data warehouse और BI तक जुड़े उद्यमों (ज़्यादातर startups) का वास्तविक "alliance" है <br />
  • ऐसी technologies के users के लिए bundling और convergence का काफ़ी स्वागत होगा<br /> → जैसे-जैसे data industry mature हो रही है, उसे "transaction vs. analytics", "batch processing vs. real-time", "BI vs AI" जैसी technology divides से आगे बढ़ते हुए evolve करना होगा <br />
  • कंपनियाँ कई vendors/platforms/tools के साथ मिलकर अपनी ज़रूरत के मुताबिक सबसे उपयुक्त combination बनाती रहेंगी<br /> <br />
  • इसकी मुख्य वजह है "innovation की रफ़्तार का बेहद विस्फोटक होना"<br /> → लगातार नए startups आ रहे हैं, Big Tech कंपनियाँ भीतर ही data/AI tools बनाकर उन्हें open source कर रही हैं, और हर मौजूदा technology/product के लिए लगभग हर हफ्ते कुछ नया सामने आ रहा है <br /> <br />
  • big data warehouse और data lake vendors सभी data को centralize करने के लिए ज़ोर दे रहे हैं, लेकिन "Data Mesh" जैसे नए frameworks भी उभर रहे हैं <br /> → एक distributed approach जिसमें अलग-अलग teams अपनी-अपनी ज़िम्मेदारी लेती हैं <br /> <br />
  • functional consolidation के अलावा M&A होगा या नहीं, यह कहना मुश्किल है <br /> → लोगों की पसंदीदा अफ़वाहों में एक यह भी है कि "MS Databricks को acquire करना चाहता है"<br /> <br />

"Financings, IPOs, M&A: A Crazy Market"<br />

  • जिसने भी startup market को थोड़ा देखा है, वह जानता होगा कि market पागल हो चुका है <br />
  • पिछले साल की तरह इस साल भी data और ML/AI सबसे hot investment categories हैं<br />
  • सूचीबद्ध होने वाली कंपनियाँ<br /> → UiPath : RPA और AI automation कंपनी <br /> → Confluent : Kafka <br /> → C3.ai : AI platform <br /> → Couchbase : no-SQL DB <br /> → SentinelOne : automated AI endpoint security platform <br /> → TuSimple : self-driving truck <br /> → Zymergen : bio manufacturing <br /> → Recursion : AI-driven drug manufacturing company<br /> → Darktrace : AI-आधारित cyber security<br />
  • SPAC में बढ़ोतरी से AI market की अग्रिम पंक्ति में मौजूद tech कंपनियों को लाभ होगा (autonomous driving, biotech आदि)<br /> <br />

"The 2021 MAD Landscape & What’s New this Year"<br />

  • इस साल के map में "Analytics and Machine Intelligence" को “Analytics” और “Machine Learning & Artificial Intelligence” में अलग किया गया है <br />
  • नई categories जोड़ी गईं <br /> → Infrastructure<br /> → Reverse ETL : data warehouse से SaaS applications में वापस data भेजने वाले products <br /> → Data Observability : data lineage के आधार पर data quality issues को हल करने पर केंद्रित DataOps का एक घटक <br /> → Privacy & Security : data privacy लगातार अधिक महत्वपूर्ण हो रही है, और इस category में कई startups उभर रहे हैं <br /> → Analytics<br /> → Data Catalogs & Discovery : पिछले 12 महीनों में सबसे व्यस्त category। users को मनचाहा dataset खोजने और manage करने देती है <br /> → Augmented Analytics : BI tools NLG/NLP में हुई प्रगति का उपयोग करके अपने-आप insights पैदा कर रहे हैं, और non-technical audience के लिए data को अधिक accessible बना रहे हैं <br /> → Metrics Stores : प्रमुख business metrics के लिए central repository। data stack में नया प्रवेश<br /> → Query Engines <br /> → Machine Learning and AI <br /> → MLOps category को और विभाजित किया गया : Model Building, Feature Stores, Deployment and Production <br /> → Open Source <br /> → Format, Orchestration, Data Quality & Observability जोड़े गए <br />
  • पहले जहाँ अधिकतर startups series C या उससे ऊपर के, या फिर listed companies हुआ करती थीं, इस साल series A/seed stage की कंपनियाँ भी बड़ी संख्या में जोड़ी गई हैं <br /> <br />

"डेटा infrastructure के प्रमुख trends"<br />

  • 2020 <br /> → Modern Data Stack mainstream बना <br /> → ETL vs ELT <br /> → data engineering का automation?<br /> → data analysts का उभार <br /> → क्या data lake और data warehouse एक हो जाएंगे?<br /> → अब भी अनसुलझी complexity <br /> <br />

  • 2021 <br /> → Data Mesh <br /> → DataOps के लिए व्यस्त साल <br /> → अब real-time का दौर<br /> → Metrics Stores <br /> → Reverse ETL <br /> → Data Sharing <br /> <br /> [Data Mesh]<br />

  • Zhamak Dehghani के 2019 के तर्क "How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh" से निकला विचार <br />

  • 2020~21 के बीच काफ़ी momentum मिला<br />

  • data mesh concept ज़्यादातर एक organizational idea है<br />

  • अब तक data infrastructure और teams बनाने का standard तरीका centralization रहा है। एक data team द्वारा managed एक बड़ा platform business requirements को पूरा करता है <br />

  • इसके कई फ़ायदे हैं, लेकिन bottlenecks जैसी समस्याएँ भी पैदा होती हैं <br />

  • decentralization के जरिए डोमेन-आधारित स्वतंत्र data teams बनाना और संगठन के अन्य लोगों को data को "product" के रूप में उपलब्ध कराना इसका लक्ष्य है <br /> → software engineering के microservices concept जैसा <br />

  • इसके कई मायने हैं <br /> → यदि यह संभव होता है, तो distributed data stack में mission-critical tools बनाने वाले startups के लिए बड़ा अवसर होगा<br />

  • कई repositories पर unified query और analytics देने वाले SQL Query Engine Starburst ने खुद को "data mesh के लिए analytics engine" के रूप में rebrand किया है <br />

  • complex pipelines को manage करने वाले orchestration engines (Airflow, Prefect, Dagster) जैसी चीज़ें और भी mission-critical बन जाएँगी <br />

  • स्टोरेज और पाइपलाइन कंप्यूटिंग में डेटा को ट्रैक करना compliance और governance के नज़रिए से और भी ज़्यादा अनिवार्य हो गया है, इसलिए Data Lineage की ज़रूरत मज़बूत हुई है (OpenLineage, DataKin)<br /> <br /> [DataOps के लिए व्यस्त साल]<br />

  • DataOps की अवधारणा कई वर्षों तक मंडराती रही, लेकिन हाल में वास्तव में सक्रिय हुई <br />

  • इसकी कई परिभाषाएँ मौजूद हैं <br /> → डेटा दुनिया का DevOps <br /> → डेटा पाइपलाइन बनाना और उनका रखरखाव करना, data catalog के ज़रिए सही dataset ढूँढना, और डेटा producers व consumers को ज़रूरी काम करने के लिए आवश्यक हर चीज़ <br />

  • कुल मिलाकर, DevOps की तरह यह भी "methodology, process, people, platform और tools का संयोजन" है<br />

  • व्यापक संदर्भ में, "data engineering tools और practices" अब भी software engineering की automation स्तर से काफ़ी पीछे हैं<br />

  • जैसे-जैसे डेटा/AI अधिक महत्वपूर्ण होता जा रहा है, बेहतर tools और practices की ज़रूरत बढ़ रही है <br />

  • हर कोई "डेटा दुनिया का DataDog" बनना चाहता है (असल में DataDog का उपयोग DataOps में भी होता है, लेकिन इसकी नींव मूलतः software engineering पर है)<br />

  • इसमें Data observability, Data Lineage, Data Quality, Data Reliability Engineering, Data Access & Governance जैसे कई sub-parts हैं<br /> <br /> [अब रीयलटाइम का दौर]<br />

  • "रीयलटाइम" या "streaming" डेटा वह डेटा है जिसे बनते ही तुरंत प्रोसेस और consume किया जाता है <br />

  • यह अब तक डेटा इन्फ्रास्ट्रक्चर के प्रमुख paradigm रहे "batch" के विपरीत है <br />

  • रीयलटाइम डेटा प्रोसेसिंग 10-15 साल पहले big data युग की शुरुआत से ही एक hot topic रही है<br /> → खासकर processing speed ने Hadoop MR की तुलना में Spark की सफलता को बढ़ाने में अहम भूमिका निभाई <br />

  • लेकिन कई वर्षों तक यह "बस फटने वाला" बाज़ार माना गया, पर वास्तव में विस्फोट नहीं हुआ <br />

  • Confluent के IPO की बड़ी सफलता ने साबित किया कि संदेह करने वाले ग़लत थे <br />

  • और Confluent से आगे बढ़कर पूरा रीयलटाइम डेटा ecosystem तेज़ी से आगे बढ़ा <br />

  • खास तौर पर "real-time analytics" में काफ़ी गतिविधि दिखी <br /> → रूस की Yandex द्वारा बनाए गए ClickHouse ने अमेरिका में कंपनी स्थापित की और $50M का निवेश जुटाया <br /> → Druid open source आधारित real-time analytics platform Imply ने $70M का निवेश जुटाया <br /> <br /> [Metrics Stores]<br />

  • पिछले कुछ वर्षों में कंपनियों का डेटा, उसके उपयोग की आवृत्ति और उसकी जटिलता बढ़ी है <br />

  • जटिलता बढ़ने के साथ डेटा असंगति से होने वाली परेशानियाँ भी बढ़ी हैं <br />

  • metrics dimension/definition और अन्य कारणों से मामूली बदलाव पर भी ग़लत तरह से align हो सकते हैं<br />

  • डेटा तभी उपयोगी है जब टीमों के इस्तेमाल के समय वह सटीक और भरोसेमंद हो <br />

  • metrics को केंद्रीकृत करने की कोशिश ने AirBnB की Minerva जैसे in-house solutions के विकास को जन्म दिया: "Define Once, Use Anywhere"<br />

  • प्रमुख business metrics और सभी dimensions की परिभाषाओं को standardize करना, और stakeholders को उन्हीं परिभाषाओं के आधार पर सटीक व विश्लेषण-योग्य datasets देना <br />

  • केंद्रीकृत metric definitions के आधार पर डेटा पर भरोसा बनाना, और सभी को metrics तक cross-functional access देना <br />

  • metric store <br /> → data warehouse के ऊपर स्थित होता है और BI platforms, analytics व data science tools, तथा operational applications सहित सभी downstream applications को डेटा उपलब्ध कराता है <br /> → डेटा की consistency बनाए रखता है, ताकि business logic बदलने पर वह अपने-आप परिलक्षित हो जाए <br />

  • Transform, Trace, Supergrain जैसे startup इसमें हैं <br /> <br /> [Reverse ETL]<br />

  • modern data stack में Reverse ETL एक स्वतंत्र category बन गया है <br />

  • data warehouse से CRM, marketing automation systems, customer support platforms जैसी business applications में डेटा वापस ले जाया जाता है <br />

  • इसका मकसद यह है कि वास्तविक operational tools दूसरी business applications से समृद्ध किए गए ताज़ा डेटा का उपयोग कर सकें <br />

  • कई Reverse ETL tools ने funding जुटाई है: Census, Rudderstack, Grouparoo, Hightouch, Headsup, Polytomic <br /> <br /> [Data Sharing]<br />

  • सिर्फ़ कंपनी के भीतर ही नहीं, बल्कि पूरे संगठनात्मक ecosystem में data sharing और data collaboration का उभार <br />

  • supply chain visibility, machine learning model training, और go-to-market योजनाओं की साझेदारी जैसी ज़रूरतों के लिए कंपनियाँ vendors, partners और customers के ecosystem के साथ डेटा साझा करना चाहती हैं <br />

  • संगठनों के बीच data sharing, "data cloud" vendors की एक प्रमुख थीम है <br />

  • 2021/5 में Google ने Analytics Hub लॉन्च किया। इसके ज़रिए संगठन के भीतर/बाहर data/insights/dashboards/machine learning models साझा किए जा सकते हैं। साथ ही financial services के लिए DataShare भी पेश किया <br />

  • Google के उसी दिन Databricks ने Delta Sharing पेश किया। यह संगठनों के बीच data sharing के लिए एक open source protocol है <br />

  • 2021/6 में Snowflake ने data marketplace के माध्यम से Secure Data Sharing फ़ीचर पेश किया <br />

  • Habr, Crossbeam जैसे startup इसमें हैं </p><p>## "ML/AI के प्रमुख ट्रेंड्स"<br /> 2020<br />

  • Boom time for data science and machine learning platforms (DSML)<br />

  • ML getting deployed and embedded<br />

  • The Year of NLP<br /> <br /> 2021<br />

  • Feature Stores<br />

  • The rise of ModelOps<br />

  • AI content generation<br />

  • The continued emergence of a separate Chinese AI stack<br /> <br />

  • artificial intelligence पर रिसर्च तेज़ रफ़्तार से लगातार आगे बढ़ रही है<br /> → DeepMind Alphafold, OpenAI GTP-3/DALL-E/CLIP <br /> <br /> [Feature Stores]<br />

  • Uber द्वारा 2017 में यह विचार पेश किए जाने के बाद से यह machine learning stack में लगातार अधिक आम होता गया है <br /> → Tecton, Rasgo, Logical Clocks, Kaskada जैसी कंपनियों ने funding rounds जुटाए <br />

  • machine learning में feature (variable या attribute) एक ऐसा गुण या विशेषता है जिसे अलग से मापा जा सकता है और जो data snippet में column के रूप में व्यक्त होती है<br /> → machine learning models एक feature से लेकर लाखों features तक का उपयोग कर सकते हैं <br />

  • जैसे-जैसे अधिक जटिल models और pipelines का उपयोग बढ़ा, काम भी अधिक ad-hoc तरीके से होने लगा <br />

  • engineers और data scientists अक्सर raw data से features को फिर से निकालने में बहुत समय खर्च करते हैं <br />

  • production environment और experiment environment के बीच का अंतर model performance या behavior में असंगति पैदा कर सकता है<br />

  • संगठन machine learning model governance और reproducibility में तो रुचि रखते हैं, लेकिन features का siloed होना इसे और कठिन बना देता है <br />

  • feature store collaboration को बढ़ावा देता है और इन silos को हटाता है <br />

  • training और production दोनों में single source of truth देकर complexity कम करता है और features को standardize व reuse करने देता है <br />

  • संगठन के भीतर curated features को स्टोर करता है, raw data को feature values में बदलने वाली data pipelines चलाता है, और API के ज़रिए तेज़ access देता है <br /> <br /> [The Rise of ModelOps]<br />

  • कई कंपनियों ने पाया कि models को experimentation stage से production में लाना कठिन है, और यह भी कि इस्तेमाल हो रहे models को लगातार monitoring और retraining की ज़रूरत होती है <br />

  • MLOps, DevOps की best practices को लागू करता है। यह बड़े पैमाने पर models के तेज़ और निरंतर development व deployment को सरल बनाता है <br />

  • ModelOps, MLOps का superset है। इसका लक्ष्य ML सहित सभी AI models को training से production तक हर चरण में अधिक तेज़ी से operate करना है <br />

  • ModelOps tools और processes दोनों को कवर करता है, processes को एकीकृत करता है, model orchestration को standardize करता है, और व्यापक governance capabilities के साथ सभी models के लिए एक केंद्रीकृत repository प्रदान करता है <br />

  • सही तरीके से लागू किया गया ModelOps सभी models की deployment/monitoring और management के लिए एकीकृत system देता है, जिससे risk घटता है और compliance बढ़ता है <br /> <br /> [AI Content Generation]<br />

  • पिछले कुछ वर्षों में AI काफी परिपक्व हो गया है, इसलिए इसका उपयोग टेक्स्ट, इमेज, कोड और वीडियो सहित हर तरह के मीडिया में कंटेंट बनाने के लिए हो रहा है<br />

  • OpenAI ने GPT-3 पेश किया। GitHub ने OpenAI Codex का उपयोग करने वाला GitHub Copilot पेश किया <br />

  • OpenAI अंग्रेज़ी-केंद्रित मॉडल्स पर ध्यान दे रहा है, लेकिन कई कंपनियाँ दूसरी भाषाओं पर भी काम कर रही हैं <br /> → जर्मनी की Aleph Alpha, AI21 Labs, Huawei का PanGu, Naver का HyperCLOVA<br /> <br /> [एक अलग Chinese AI stack का लगातार उभरना]<br />

  • अपने घरेलू बाज़ार के साथ, जो दुनिया का सबसे बड़ा डेटा उत्पादक है, चीन एक वैश्विक AI महाशक्ति के रूप में आगे बढ़ता जा रहा है <br />

  • सबसे बेहतरीन recommendation algorithms में से एक TikTok के पश्चिम में सफल होने के साथ, Chinese AI consumer tech पहली बार वास्तव में फैल गई <br />

  • 2030 तक AI वर्चस्व का ऐलान और वित्तीय समर्थन मिलने के बाद, अब तक पश्चिमी tools का उपयोग कर रहे चीन में एक अलग घरेलू stack उभरना शुरू हो गया है </p>

3 टिप्पणियां

 
ehanmire 2021-11-11
<p>कई वाक्यों से मुझे अच्छे insights मिल रहे हैं और मैं इस पर काफी सोच भी रहा हूँ<br /> धन्यवाद~<br /> <br /> एक पल के लिए मेरे मन में यह विचार आया कि process और data हड्डियों और रक्त जैसे हैं<br /> कहीं न कहीं रक्त इकट्ठा होगा, रक्तवाहिकाएँ बनेंगी और फिर ऊतक बनेंगे<br /> लेकिन कंपनी के पैसे कमाने की बात शायद movement से आती है, ऐसा<br /> एक अजीब-सा रूपक अचानक मेरे मन में आया।</p>
 
sungwoo 2021-11-08
<p>हमेशा इतनी उच्च-गुणवत्ता वाली जानकारी को इतनी साफ़-सुथरी तरह से व्यवस्थित करके साझा करने के लिए धन्यवाद.</p>
 
xguru 2021-11-07
<p>2020 Data &amp; AI Landscape https://hi.news.hada.io/topic?id=2979</p&gt;