- "डेटा नया तेल है" पिछले 10 वर्षों का एक नारा रहा है
- कंपनियों ने समझ लिया कि डेटा कितना मूल्यवान है, या कितना मूल्यवान हो सकता है
- कंपनियों ने जल्दी-जल्दी modern data stack में निवेश किया और terabyte-स्तर का डेटा data warehouse में संग्रहीत किया
- data science टीमों को metrics का विश्लेषण करना था, और उन विश्लेषणों का उपयोग product decisions में करना था (या कुछ मामलों में recommendation feed जैसी customer-facing features में)
- सफलता की कहानियाँ थीं, लेकिन कई संगठन execution में विफल रहे
- इसके कारण थे siloed data (या data teams), महंगे cloud data warehouses और खराब queries (जो अब कम हो रही हैं), तथा साफ-सुथरी data pipelines की कमी (डेटा को clean state में लाने के लिए काफी operational work चाहिए)
- अब जब "generative AI" का उपयोग किया जा रहा है, क्या डेटा अब भी एक moat है?
- जब synthetic datasets training और inference pipelines में non-zero हिस्सा लेने लगते हैं, तो क्या डेटा का मूल्य बढ़ता है या घटता है?
- एक तरफ, "उच्च-गुणवत्ता वाला डेटा अब भी महत्वपूर्ण है"
- LLM सुधार पर बहुत-सा ध्यान models और dataset size पर केंद्रित है
- शुरुआती सबूत हैं कि LLM जिस डेटा पर train होते हैं, उसकी quality से वे काफी प्रभावित हो सकते हैं
- WizardLM, TinyStories, phi-1 इसके उदाहरण हैं
- इसी तरह RLHF datasets भी महत्वपूर्ण हैं
- दूसरी तरफ, output format और custom style के लिए fine-tuning में "लगभग 100 data points भी बड़ा सुधार ला सकते हैं"
- Databricks, Meta, Spark, Audible के LLM शोधकर्ताओं ने fine-tuning के लिए आवश्यक डेटा की मात्रा पर empirical analysis किया
- इस स्तर का डेटा manually बनाना या curate करना आसान है
- Model distillation व्यावहारिक है और इसे सरलता से किया जा सकता है
- LLM का उपयोग करके synthetic data बनाया जा सकता है, जिससे अपना LLM train या fine-tune किया जा सकता है, और कुछ knowledge transfer हो जाता है
- यह तब समस्या हो सकती है जब raw LLM को सामने वाले के लिए expose किया जाए (अंदरूनी उपयोग में यह उतनी बड़ी समस्या नहीं है), लेकिन इसका मतलब यह भी है कि जो डेटा विशेष रूप से अनोखा नहीं है, उसे आसानी से copy किया जा सकता है
अभी कोई टिप्पणी नहीं है.