- मैं कौन हूँ और मुझे इसमें दिलचस्पी क्यों है → BigQuery का शुरुआती engineer
- ज़रूरी परिचय slide → वह ग्राफ़ जिसे सब लोग quote करते हैं: "समय के साथ data विस्फोटक रूप से बढ़ता है"
- ज़्यादातर लोगों के पास इतना अधिक data नहीं होता
- storage और computing अलग हो चुके हैं, और झुकाव storage की ओर है
- workload का आकार कुल data आकार से छोटा होता है
- अधिकांश data पर लगभग कभी query नहीं की जाती
- big data frontier लगातार पीछे हट रहा है
- data एक liability है
→ big data की एक और परिभाषा: "जब data को बनाए रखने की लागत, क्या फेंकना है यह पता लगाने की लागत से कम हो"
- क्या आप big data के 1 प्रतिशत में आते हैं?
- क्या आप सचमुच बहुत विशाल मात्रा में data बना रहे हैं?
- अगर हाँ, तो क्या आपको वास्तव में एक ही बार में इतनी विशाल मात्रा के data का उपयोग करना पड़ता है?
- अगर हाँ, तो क्या data इतना बड़ा है कि वह एक ही system में fit नहीं हो सकता?
- अगर हाँ, तो क्या आपको यक़ीन है कि आप सिर्फ़ data collector (hoarder) नहीं हैं?
- अगर हाँ, तो क्या उसका summary बनाना बेहतर नहीं होगा?
- अगर ऊपर की सूची में किसी एक सवाल का जवाब भी "नहीं" है,
तो हो सकता है कि आपको उस "डरावने पैमाने वाले big data" के बजाय, जो शायद कभी आपके पास आए भी नहीं,
"next-generation data tools, जो आपके पास वास्तव में मौजूद data scale को handle करने दें" का उपयोग करना बेहतर लगे
1 टिप्पणियां
यह ध्यान में रखकर पढ़ना चाहिए कि यह लेख लिखने वाली कंपनी MotherDuck है, जो "DuckDB" बनाती है.
DuckDB - Embedded OLAP DB ओपन सोर्स
इस कंपनी का स्लोगन "Big Data is DEAD. Long live EASY DATA." है.
"Your laptop is faster than your data warehouse. Why wait for the Cloud?" कहकर यह अपनी embedded DB का प्रचार करने वाली कंपनी है.
बेशक, इसका मतलब यह नहीं कि लेख खराब है. कुल मिलाकर इसे एक बार पढ़ने लायक है, और मैं लेख की कई बातों से सहमत हूँ.
काफी कम डेटा के साथ भी "बिग डेटा" करने की बात करने वाली कंपनियाँ बहुत ज़्यादा हैं.