1 पॉइंट द्वारा GN⁺ 2024-05-28 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Big Data मर चुका है

मैं कौन हूँ और यह लेख क्यों लिख रहा हूँ?

  • 10 साल से अधिक समय से Big Data के महत्व पर ज़ोर देता रहा हूँ
  • Google BigQuery के founding engineer के रूप में Big Data को संभालने वाली तकनीकों का प्रचार किया
  • ग्राहकों के साथ बातचीत और product analysis के ज़रिए यह समझा कि ज़्यादातर लोग वास्तव में Big Data से काम नहीं करते

अनिवार्य परिचय स्लाइड

  • कई Big Data products की presentations यह संदेश देती हैं कि "Big Data आ रहा है"
  • लेकिन हक़ीक़त में ज़्यादातर applications को बड़े पैमाने के data को process करने की ज़रूरत नहीं होती
  • पारंपरिक database systems फिर से लोकप्रिय हो रहे हैं

ज़्यादातर लोगों के पास इतना ज़्यादा data नहीं है

  • ज़्यादातर customers के पास 1TB से कम data है
  • जिन customers के पास बहुत बड़ा data है, वे भी वास्तव में उसका सिर्फ़ छोटा हिस्सा ही इस्तेमाल करते हैं
  • data का आकार Pareto principle का पालन करता है, और ज़्यादातर data कुछ ही customers पर केंद्रित होता है

storage और computing के separation में storage bias

  • आधुनिक cloud data platforms storage और computing को अलग करते हैं
  • storage capacity तेज़ी से बढ़ती है, लेकिन computing की ज़रूरतें बहुत नहीं बदलतीं
  • बड़े data sets को process करने के लिए distributed processing ज़रूरी नहीं भी हो सकती

काम का आकार पूरे data के आकार से छोटा होता है

  • ज़्यादातर analysis tasks छोटे data sets को process करते हैं
  • बड़े data को process करने वाली queries दुर्लभ होती हैं, और मुख्य रूप से reports बनाने में इस्तेमाल होती हैं
  • data processing cost कम करने के लिए छोटी queries को प्राथमिकता दी जाती है

ज़्यादातर data पर लगभग query नहीं होती

  • ज़्यादातर data बनने के 24 घंटे के भीतर ही अक्सर query किया जाता है
  • पुराना data शायद ही कभी query किया जाता है, और सिर्फ़ storage space घेरता है

Big Data की सीमा लगातार पीछे हट रही है

  • समय के साथ "Big Data" की परिभाषा बदलती रहती है
  • आधुनिक hardware पहले की तुलना में कहीं बड़े data को संभाल सकता है

data एक ज़िम्मेदारी है

  • data को बनाए रखने की लागत सिर्फ़ storage cost से अधिक होती है
  • regulatory compliance और कानूनी ज़िम्मेदारियों पर भी विचार करना पड़ता है
  • पुराने data का maintenance कठिन होता है

क्या आप Big Data के 1% में आते हैं?

  • ज़्यादातर लोगों को Big Data के साथ काम करने की ज़रूरत नहीं होती
  • यह सोचना चाहिए कि data सच में बहुत बड़ा है या नहीं, क्या उसका सारांश बनाया जा सकता है, आदि

GN⁺ की राय

  • data management का महत्व: data के आकार से अधिक उसकी quality और management महत्वपूर्ण है। अनावश्यक data हटाना और महत्वपूर्ण data पर ध्यान देना अधिक प्रभावी है।
  • व्यावहारिक दृष्टिकोण: ज़्यादातर कंपनियों को Big Data technology की ज़रूरत नहीं होती। वास्तविक data size और ज़रूरतों के अनुसार tools चुनना महत्वपूर्ण है।
  • लागत में कमी: cloud environment में storage और computing को अलग करके लागत घटाई जा सकती है। अनावश्यक data processing कम करना आर्थिक रूप से फ़ायदेमंद है।
  • कानूनी ज़िम्मेदारी: data को सुरक्षित रखना कानूनी ज़िम्मेदारियों के साथ आता है। regulatory compliance और data security पर ध्यान देना चाहिए।
  • तकनीकी प्रगति: hardware और software में प्रगति के कारण अब वह data processing संभव है जो पहले असंभव थी। नवीनतम तकनीकों का उपयोग करके दक्षता बढ़ाई जा सकती है।

1 टिप्पणियां

 
GN⁺ 2024-05-28
Hacker News की राय
  • डेटा साइंटिस्ट hiring का अनुभव: 6TiB डेटा को संभालने वाली आर्किटेक्चर के बारे में पूछे गए सवाल में, वह उम्मीदवार सबसे प्रभावशाली लगा जिसने समझा कि इसे smartphone या सस्ते HDD से भी हल किया जा सकता है.

  • MongoDB और PostgreSQL की तुलना: MongoDB में PostgreSQL से बेहतर कुछ नहीं है, और big data solutions आम तौर पर columnar database, Map/Reduce, Cassandra आदि का उपयोग करते हैं.

  • सफलता के लिए योजना: ज़्यादातर बिज़नेस unicorn कंपनी नहीं बनते, लेकिन लक्ष्य वही होना चाहिए, और शुरुआत से scalability को ध्यान में रखकर आर्किटेक्चर चाहिए.

  • डेटा का आकार और query frequency: ज़्यादातर डेटा बहुत बड़ा नहीं होता, और अधिकांश queries छोटे पैमाने की होती हैं. शुरुआत में डेटा को कम करने का काम ज़रूरी होता है.

  • big data और regulation cost: regulation की वजह से डेटा की लागत बढ़ रही है.

  • big data analysis का अनुभव: Large Hadron Collider के अनुभव में, तेज़ local storage global supercomputer network से बेहतर साबित हुआ.

  • big data का paradox: hardware requirements का दिखावा करने के लिए basic software optimization से बचने की प्रवृत्ति रही है.

  • डेटा का information content: डेटा घातीय रूप से बढ़ता है, लेकिन information content उतना नहीं बढ़ता. finance में ज़्यादातर डेटा duplicate होता है, इसलिए dimensionality reduction की ज़रूरत होती है.

  • big data की परिभाषा: big data सिर्फ storage capacity या processing speed की समस्या नहीं है, बल्कि डेटा को integrate करके समझने की cognitive ability की समस्या है.

  • big data tools की over-engineering: कई मामलों में data warehouse और data lake के लिए gigabyte या terabyte स्तर ही काफ़ी होता है, और simple architecture बेहतर performance देता है.

  • big data का trend: big data का trend खत्म हो चुका है, और fashion-sensitive industries में यह आम नतीजा है.

  • big data और संस्थापक का ego: big data का मुख्य driver संस्थापक का ego था, और शुरुआती दौर में एक SQLite DB ही काफ़ी होता है.

  • big data की processing problem: big data, storage से ज़्यादा processing की समस्या है, और अधिकांश queries सिर्फ हाल का डेटा देखती हैं. अगर पूरे डेटा को process करना ज़्यादा आसान हो, तो यह सवाल उठता है कि ज़्यादातर कंपनियाँ अब भी सिर्फ small data ही query क्यों करती हैं.