2024 में AI स्टार्टअप्स के लिए डेटा संग्रह रणनीतियाँ

(press.airstreet.com)

31 पॉइंट द्वारा xguru 2024-04-29 | 1 टिप्पणियां | WhatsApp पर शेयर करें

[ #1 बड़े जनरेटिव मॉडल (Large Generative Models) ]

LLM और LMM का उपयोग करके सिंथेटिक डेटा जनरेशन

Large Language Model(LLM) टेक्स्ट आउटपुट जनरेट करता है, जबकि Large Multi-Modal Model(LMM) टेक्स्ट, कोड, इमेज आदि जैसे विभिन्न रूपों में सिंथेटिक डेटा जनरेट कर सकता है
यह विशेष रूप से उन क्षेत्रों में व्यापक रूप से उपयोग किया जाता है जहाँ वास्तविक डेटा की कमी हो, प्राइवेसी सुरक्षा संवेदनशील हो, या संग्रह और लेबलिंग की लागत अधिक हो (उदाहरण: NLP, कंप्यूटर विज़न, autonomous driving system development आदि)
सिंथेटिक डेटा आम तौर पर वास्तविक डेटा को पूरक करने या fine-tuning के लिए उपयोग किया जाता है, पूरे डेटा को बदलने के लिए नहीं
चाहे यह कितना भी परिष्कृत हो, यह समस्या क्षेत्र का केवल एक अनुमान ही बना सकता है, और इस पर अत्यधिक निर्भरता से यह जोखिम रहता है कि मॉडल सिंथेटिक डेटा जनरेशन प्रक्रिया में मौजूद विशेषताओं पर overfit हो जाए
सिंथेटिक डेटा जनरेशन के तरीके
1. Self-improvement: मॉडल निर्देश, इनपुट context और response जनरेट करता है; अमान्य या मौजूदा डेटा से बहुत मिलते-जुलते उदाहरणों को फ़िल्टर किया जाता है; और शेष डेटा का उपयोग मूल मॉडल को fine-tune करने के लिए किया जाता है
2. Distillation: एक अधिक शक्तिशाली teacher model का ज्ञान कम शक्तिशाली लेकिन अधिक efficient student model में स्थानांतरित करने की प्रक्रिया। सिंथेटिक डेटा अक्सर पूरी तरह सटीक न होने पर भी instruction-tuning प्रक्रिया में प्रभावी योगदान दे सकता है
Microsoft ने Phi नामक छोटे मॉडलों की एक श्रृंखला जारी की, जिन्हें मुख्य रूप से अन्य LLMs द्वारा जनरेट किए गए सिंथेटिक डेटा पर ट्रेन किया गया था, और इनका प्रदर्शन अधिकांश frontier models से बेहतर रहा
Hugging Face ने Microsoft द्वारा उपयोग किए गए सिंथेटिक training dataset की curation के बारे में जानकारी की कमी के जवाब में, इसे पुन:निर्मित करने के उद्देश्य से Cosmopedia बनाया

LLM का उपयोग करके डेटा लेबलिंग और dataset integration

नवीनतम LLMs टेक्स्ट datasets को मानव annotators के बराबर या उससे बेहतर स्तर पर लेबल कर सकते हैं
मानव annotators के विपरीत, LLMs बिना थकान या पक्षपात के बड़े datasets पर एक ही annotation standard को लगातार लागू कर सकते हैं
Segment Anything जैसे बड़े datasets पर ट्रेन किए गए बड़े जनरेटिव मॉडल semantic segmentation जैसे कार्यों में, पारंपरिक रूप से उपयोग किए जाने वाले specialized non-generative computer vision models की तुलना में zero-shot क्षमता के साथ अक्सर बेहतर प्रदर्शन करते हैं
LLMs का उपयोग dataset stitching के माध्यम से उपलब्ध वास्तविक डेटा पूल का विस्तार करने के लिए भी किया जा सकता है, जहाँ विभिन्न data sources को एकीकृत कर unified dataset बनाया जाता है

Grader के रूप में LLM

Reinforcement Learning from Human Feedback(RLHF) वह प्रमुख fine-tuning तकनीक थी जिसने GPT-3 को chat के माध्यम से उपयोगकर्ताओं के साथ इंटरैक्टिव संवाद के लिए अनुकूलित एक breakthrough system बना दिया
अब एक ऐसा approach उभरा है जिसे Reinforcement Learning from AI Feedback(RLAIF) कहा जाता है, जिसमें मानवों की जगह feedback देने के लिए LLMs का उपयोग किया जाता है
RLAIF का मुख्य लाभ यह है कि मानवों को मशीनों से बदलकर scalability और लागत में कमी हासिल की जा सकती है

[ #2 डेटा लेबलिंग प्लेटफ़ॉर्म ]

शुरुआत में Amazon Mechanical Turk जैसे crowdsourcing और task outsourcing platforms का उपयोग कर कम लागत वाली online workforce से डेटा लेबलिंग या refinement कार्य कराए जाते थे
हाल के वर्षों में V7, Scale AI आदि जैसे automated data labeling और management features प्रदान करने वाले platforms विकसित हुए हैं और लोकप्रिय हुए हैं
ये platforms compliance और quality assurance उपायों के साथ, बड़े पैमाने पर डेटा की मांग रखने वाली कंपनियों को अधिक कुशलता से scale करने और उच्च स्तर की consistency प्रदान करने में सक्षम बनाते हैं

प्लेटफ़ॉर्म-वार विशेषताएँ और नए खिलाड़ी

V7 का झुकाव medical imaging जैसे उच्च स्तर की विशेषज्ञता वाले कार्यों पर अधिक होता है, जबकि Scale autonomous driving क्षेत्र में बढ़ा और फिर defense sector तक विस्तारित हुआ
Invisible जैसे नए खिलाड़ी LLM-विशिष्ट workflows (उदाहरण: supervised fine-tuning, RLHF, human evaluation, red teaming आदि) के लिए विशेषज्ञ workforce की मांग पूरी कर रहे हैं
लोकप्रिय data labeling services में CVAT, Dataloop, Invisible, Labelbox, Scale AI, V7 आदि शामिल हैं

मानव annotation डेटा की गुणवत्ता सुधारने के तरीके

कई platforms अभी भी कुछ हद तक मानव annotators पर निर्भर हैं, इसलिए जैसे-जैसे AI का उपयोग जटिल, व्यक्तिपरक और सामाजिक रूप से प्रासंगिक क्षेत्रों में बढ़ता है, आउटपुट गुणवत्ता के मूल्यांकन पर अधिक प्रयास की आवश्यकता होती है
majority vote, agreement rate, probabilistic modeling approaches आदि का उपयोग करके कई evaluators के inputs से वास्तविक label का अनुमान लगाया जा सकता है और अविश्वसनीय "spammer" evaluators की पहचान की जा सकती है
ऐसी तकनीकें मौजूद हैं जो evaluators के बीच systematic disagreement को पकड़ती हैं और उनका उपयोग training सुधारने के लिए करती हैं (उदाहरण: disagreement deconvolution, multi-annotator modeling आदि)
influence functions, training के दौरान prediction changes tracking आदि के माध्यम से गलत लेबल किए गए data points का पता लगाया जा सकता है

[ #3 ओपन डेटासेट ]

2016 के बाद open data movement और उद्योग, अकादमिक जगत तथा सरकार के बीच data sharing के मूल्य की बढ़ती समझ के कारण open datasets में तेज़ वृद्धि हुई
open datasets अधिकांश क्षेत्रों में मौजूद हैं, लेकिन विशेष रूप से computer vision, NLP, speech/audio processing, robot control और navigation में इनकी उपलब्धता अधिक है
यह community efforts (उदाहरण: Hugging Face, PyTorch, TensorFlow, Kaggle आदि) और बड़ी कंपनियों द्वारा बड़े datasets को सार्वजनिक करने के संयोजन से आगे बढ़ा है

open datasets का उपयोग करते समय ध्यान देने योग्य बातें

यद्यपि ये मुफ़्त होते हैं और benchmarking में मदद करते हैं, फिर भी कुछ विशेष विचारणीय बातें हैं
संवेदनशील या अत्यधिक regulated क्षेत्रों में open datasets अधिक दुर्लभ, पुराने और छोटे आकार के होने की प्रवृत्ति रखते हैं
open data की गुणवत्ता और नवीनता में काफी अंतर हो सकता है, इसलिए तेज़ी से बदलते क्षेत्रों में relevance की समस्या आ सकती है
अत्यधिक उपयोग से लोकप्रिय datasets पर जरूरत से ज़्यादा निर्भरता हो सकती है, जिसके कारण मॉडल benchmarks पर अच्छा प्रदर्शन करे लेकिन वास्तविक applications में performance गिर जाए; यह overfitting का जोखिम है

उपयोगी open dataset resources

Amazon, Google, Microsoft जैसी बड़ी कंपनियों के पास विभिन्न open data hubs और search engines हैं
Hugging Face ने संबंधित tools के साथ उपयोग के लिए तैयार dataset hub बनाया है
Kaggle की dataset search सुविधा
VisualData: computer vision datasets के लिए hub
V7 ने 500 से अधिक open datasets की सूची प्रकाशित की है

[ #4 सिमुलेशन वातावरण ]

simulation environments AI models या agents को नियंत्रित वातावरण में train करने, सिंथेटिक डेटा जनरेट करने और वास्तविक deployment से पहले सिस्टम का परीक्षण करने में सक्षम बनाते हैं
ये वास्तविक डेटा को पूरक करने और ऐसे edge cases को explore करने में विशेष रूप से उपयोगी होते हैं, जिनका वास्तविक दुनिया में सामना करना कठिन या महँगा हो
यही कारण है कि ये robotics या autonomous vehicles जैसे क्षेत्रों में विशेष रूप से लोकप्रिय हैं, जहाँ सिस्टम को सुरक्षित रूप से train करना होता है और वास्तविक दुनिया में उत्पन्न होने वाले असंख्य variables को ध्यान में रखना पड़ता है

simulation environment बनाते समय विचारणीय बातें

समृद्ध और सटीक physical modeling वाली 3D simulation को शुरुआत से बनाना और validate करना काफी संसाधन और infrastructure मांग सकता है
NVIDIA ने Omniverse नामक unified 3D graphics और physics-based workflow platform पर आधारित simulation environments सहित एक शक्तिशाली GPU-accelerated robotics platform ISAAC बनाया है
लागत का बोझ कम करने के लिए open source simulation environments का उपयोग किया जा सकता है
Epic Games का Unreal Engine उच्च-fidelity graphics, यथार्थवादी physics simulation और flexible programming interface के कारण simulation environments बनाने के लिए एक शक्तिशाली tool बन गया है

उपयोग के उदाहरण और open source environments

Applied Intuition: autonomous driving system developers के लिए simulation और validation solutions प्रदान करता है
Sereact: warehouses में pick-and-pack automation के लिए spatial और physical nuances समझने में सक्षम software विकसित करता है, जो simulation environments पर आधारित है
Wayve: UK-आधारित autonomous driving startup जिसने कई 4D simulation environments बनाए हैं
autonomous driving क्षेत्र: CARLA, LG SVL Simulator, AirSim आदि
robotics क्षेत्र: Gazebo, CoppeliaSim, PyBullet, MuJoCo आदि

[ #5 वेब/किताबों और अन्य सामग्रियों की scraping ]

बड़े पैमाने पर टेक्स्ट, ऑडियो और वीडियो scraping foundation model development का एक मुख्य तत्व रहा है
बड़ी कंपनियाँ अपने proprietary systems का उपयोग करती हैं, जबकि startups विभिन्न off-the-shelf और open source tools का उपयोग कर सकते हैं
Apache Nutch जैसे distributed crawling frameworks, Puppeteer या Selenium जैसे headless browsers, Beautiful Soup जैसी parsing libraries, Luminati जैसी proxy और IP management services, तथा सस्ती और प्रभावी OCR तकनीकों में प्रगति हुई है

डेटा गुणवत्ता और मात्रा के बीच trade-off

domain और application के अनुसार data quality और quantity के बीच trade-off बदलता है
language models पर्याप्त मात्रा मिलने पर अपेक्षाकृत noisy और uncurated data पर भी प्रभावी ढंग से train हो सकते हैं
इसके विपरीत, computer vision में छोटे लेकिन उच्च-गुणवत्ता वाले datasets को image transformations (उदाहरण: crop, rotate, noise add करना आदि) के माध्यम से बढ़ाकर अच्छे परिणाम प्राप्त किए जा सकते हैं

curriculum learning और dataset curation

curriculum learning एक learning strategy है जिसमें मॉडल को डेटा अर्थपूर्ण क्रम में दिया जाता है, सरल उदाहरणों से जटिल उदाहरणों की ओर बढ़ते हुए
यह मानव सीखने के तरीके की नकल करता है और कठिन उदाहरणों का सामना करने से पहले मॉडल को अच्छे initial parameters सीखने में मदद करके efficiency बढ़ाता है

उदाहरण

Databricks के हालिया SOTA open LLM, DBRX ने इसका उपयोग करके model quality में उल्लेखनीय सुधार किया
Sync Labs ने अपेक्षाकृत कम गुणवत्ता वाले बड़े पैमाने के वीडियो का उपयोग कर ऐसा मॉडल train किया जो वीडियो के होंठों को नए ऑडियो के साथ फिर से sync कर सकता है
Metalware ने विशेष पाठ्यपुस्तकों से scan की गई अपेक्षाकृत छोटी image set को GPT-2 के साथ जोड़कर firmware engineers के लिए एक copilot बनाया

[ #6 कॉपीराइट मुद्दे और licensing की संभावनाएँ ]

2016 के बाद AI ecosystem की परिपक्वता ने founders के लिए सकारात्मक प्रभाव डाला, लेकिन साथ ही अतिरिक्त जटिलताएँ भी पैदा कीं
foundation model providers द्वारा बड़े पैमाने पर web scraping के कारण media companies, authors और artists विभिन्न copyright lawsuits दायर कर रहे हैं
ये मुकदमे वर्तमान में यूरोप और अमेरिका की अदालत प्रणालियों में चल रहे हैं और बड़ी कंपनियों (उदाहरण: Meta, OpenAI) या अधिक स्थापित होती जा रही labs (उदाहरण: Midjourney, Stability) को लक्षित करते हैं
यह इस बात पर ज़ोर देता है कि startups को अपने data collection methods के प्रति सावधान रहना चाहिए
यदि कंपनियाँ मुकदमे हारती हैं, तो उन्हें training data में copyrighted materials की पहचान करनी पड़ सकती है, creators को compensation देना पड़ सकता है, या ऐसे outputs को नष्ट करके फिर से शुरुआत करनी पड़ सकती है
इसके परिणामस्वरूप कुछ कंपनियाँ creator-friendly data collection strategies को सक्रिय रूप से आगे बढ़ा रही हैं, जैसे media organizations के साथ partnerships करना या content अथवा voice usage के लिए artists को सीधे compensation देना

ethical data sourcing certification frameworks का उभरना

ethically sourced training data के लिए certification frameworks उभर रहे हैं, जिनका नेतृत्व Stability के पूर्व executives आदि कर रहे हैं
ये certification frameworks अभी शुरुआती चरण में हैं, लेकिन दिलचस्प विकल्प हैं और इन पर नज़र रखना उचित है

उदाहरण

ElevenLabs: voice actors के लिए payout और voice data partnerships
Google: Gemini training के लिए Reddit data उपयोग करने की अनुमति देने वाला agreement
OpenAI: Shutterstock की image, video, music और metadata library से DALL-E को train करने के लिए partnership, और Associate Press के news archive के लिए licensing agreement

[ #7 लेबल किए गए बड़े datasets की आवश्यकता में कमी ]

2016 के बाद unsupervised learning और semi-supervised learning तकनीकों में बड़े विकास के कारण, startups अब पारंपरिक रूप से आवश्यक माने जाने वाले बड़े labeled datasets के बिना भी शक्तिशाली models बना सकते हैं
ये approaches 2016 से पहले भी researchers को ज्ञात थे, लेकिन हाल के वर्षों में इनकी accessibility, sophistication और practicality में काफी सुधार हुआ है
unsupervised learning डेटा में निहित statistical patterns और structures को सीखने पर केंद्रित है; पारंपरिक रूप से यह बड़े datasets की exploration (उदाहरण: unsupervised clustering) में उपयोगी था और अब LLM pretraining का मुख्य आधार है
semi-supervised learning कम मात्रा के labeled data के साथ बड़ी मात्रा में unlabeled data का उपयोग करता है, और model performance को सुधारने और बढ़ाने में अत्यंत प्रभावी है
contrastive learning और few-shot learning जैसी techniques इन approaches को और मजबूत कर सकती हैं
- Contrastive Learning मॉडल को समान और असमान data points में भेद करना सिखाकर समृद्ध representations सीखने में सक्षम बनाता है, और यह computer vision tasks में उपयोगी है (उदाहरण: OpenAI का CLIP)
- Few-shot learning मॉडल को बहुत कम उदाहरणों के साथ नए tasks के अनुरूप ढलने में सक्षम बनाता है
मूल scaling laws paper ने दिखाया था कि बड़े models few-shot learning में अधिक सक्षम होते हैं
unsupervised pretraining के लिए अधिक मात्रा में unlabeled data की आवश्यकता होती है, लेकिन यह चरण मॉडल को छोटे non-generative models की तुलना में कम labeled examples के साथ downstream tasks हल करने की क्षमता देता है

सीमाएँ और विचारणीय बातें

unlabeled data का उपयोग करने वाले models को अक्सर अधिक जटिल architectures की आवश्यकता होती है
इसका अर्थ है कि लेबलिंग पर होने वाली लागत को compute पर होने वाली लागत से बदल दिया जाता है
ये न केवल implement और scale करने में अधिक कठिन होते हैं, बल्कि कम interpretable भी होते हैं, जो उन संवेदनशील क्षेत्रों में नुकसान हो सकता है जहाँ decision process को समझना महत्वपूर्ण है
यह जटिलता अधिक computational resources की मांग करती है और कई मामलों में supervised methods की तुलना में performance ceiling कम होती है

[ #8 जो अभी भी शुरुआती चरण में हैं ]

data marketplaces

2016 के बाद डेटा को collect, store, process और share करना आसान और सस्ता होने से कुछ data marketplaces उभरे, लेकिन यह क्षेत्र बड़े पैमाने पर सक्रिय नहीं हो पाया
Datarade, Dawex, AWS Data Exchange, Snowflake आदि जैसे marketplaces और platforms ने image, text, audio और video data को विभिन्न सामान्य उपयोग मामलों में आसानी से खोजने योग्य बनाया, लेकिन यह मुख्य रूप से उन ग्राहकों के लिए अतिरिक्त value देने का तरीका था जिन्होंने अपना data वहाँ host करने का विकल्प चुना
इन marketplaces के अलावा Appen, Scale AI, Invisible, Surge जैसी कंपनियाँ skilled outsourced workforce के माध्यम से custom dataset creation और labeling प्रदान करती हैं
फिर भी specialization और proprietary data के competitive advantage को लेकर चेतावनियाँ अभी भी लागू हैं, और इस बात के बहुत कम प्रमाण हैं कि AI startups इन marketplaces पर बड़े पैमाने पर निर्भर हैं
शुरुआती दौर में यह सुविधाजनक हो सकता है, लेकिन cleaning, customization, filtering और sub-sampling के लिए अभी भी महत्वपूर्ण प्रयास की आवश्यकता होती है
कई startups शुरुआत से अपना proprietary dataset बनाना पसंद करते हैं और उसे competitive advantage के रूप में इस्तेमाल करते हैं

gamification

gamification को data collection strategy के रूप में विभिन्न कंपनियों और संगठनों द्वारा crowdsourcing और citizen science initiatives के संदर्भ में खोजा गया है (उदाहरण: Folding@Home)
लेकिन कुछ उदाहरणों को छोड़कर gamification अपेक्षाकृत niche बना हुआ है
यह केवल उन विशिष्ट user subsets को आकर्षित करता है जो game-like competition से प्रेरित होते हैं और जिनके पास अतिरिक्त समय होता है, इसलिए contributors की संभावित संख्या की ऊपरी सीमा अपेक्षाकृत कम रहती है
प्रेरित लोगों के बीच भी contributed data की quality और accuracy अभी भी समस्या बनी रहती है, विशेषकर edge cases को संभालते समय अतिरिक्त validation और control measures की आवश्यकता होती है

federated learning

2016 में Google द्वारा प्रस्तुत federated learning(FL) ने यह वादा किया कि डेटा को local स्तर पर ही रखते हुए कई distributed servers या mobile devices पर मॉडल train किए जा सकते हैं
सिद्धांततः यह healthcare या finance जैसे संवेदनशील क्षेत्रों में काम करने वाले startups को पारंपरिक privacy समस्याओं से बचते हुए partnerships के माध्यम से महत्वपूर्ण training data तक पहुँच दे सकता है
लेकिन FL को उन्हीं संवेदनशील क्षेत्रों में adoption में बाधाओं का सामना करना पड़ा जिनके लिए इसे डिज़ाइन किया गया था; liability, data ownership और cross-border data transfer समस्याएँ; models और datasets के जटिल होने के साथ distributed training और aggregation से जुड़ा computational और communication overhead एक गंभीर bottleneck बन गया; और यह धारणा भी बनी रही कि data owners को काफी जटिल तकनीक अपनानी होगी जबकि इसकी value proposition पूरी तरह सुनिश्चित नहीं है

[ ## निष्कर्ष ]

2016 के बाद उल्लेखनीय प्रगति के बावजूद, data collection अभी भी startups के लिए एक लगातार चुनौती बना हुआ है
ऐसा नहीं लगता कि community या market इस समस्या को अपने आप हल कर देंगे
अधिकांश AI startups को स्थापना के समय अभी भी data collection की कठिनाइयों का सामना करना पड़ेगा, लेकिन यह differentiation का अवसर भी बन सकता है
रचनात्मक तरीके से सही नींव बनाना अभी भी बहुत वास्तविक competitive advantage का स्रोत है
डेटा स्वयं कभी moat नहीं बन सकता
समय के साथ competitors अपना data हासिल करने या वही परिणाम पाने के लिए अधिक efficient techniques खोजने में सफल हो जाएंगे
पिछले एक वर्ष में छोटे और बड़े models के बीच performance gap के धीरे-धीरे कम होने को LLM evaluations में स्पष्ट रूप से देखा जा सकता है
उत्कृष्ट data collection अंततः आवश्यक है, लेकिन अपने आप में पर्याप्त नहीं
killer product और वास्तविक customer insight के साथ यह सफलता का केवल एक महत्वपूर्ण घटक है

1 टिप्पणियां

thfvkfk 2024-04-29

धन्यवाद, यह बहुत ही शानदार जानकारी है~

2024 में AI स्टार्टअप्स के लिए डेटा संग्रह रणनीतियाँ

[ #1 बड़े जनरेटिव मॉडल (Large Generative Models) ]

LLM और LMM का उपयोग करके सिंथेटिक डेटा जनरेशन

LLM का उपयोग करके डेटा लेबलिंग और dataset integration

Grader के रूप में LLM

[ #2 डेटा लेबलिंग प्लेटफ़ॉर्म ]

प्लेटफ़ॉर्म-वार विशेषताएँ और नए खिलाड़ी

मानव annotation डेटा की गुणवत्ता सुधारने के तरीके

[ #3 ओपन डेटासेट ]

open datasets का उपयोग करते समय ध्यान देने योग्य बातें

उपयोगी open dataset resources

[ #4 सिमुलेशन वातावरण ]

simulation environment बनाते समय विचारणीय बातें

उपयोग के उदाहरण और open source environments

[ #5 वेब/किताबों और अन्य सामग्रियों की scraping ]

डेटा गुणवत्ता और मात्रा के बीच trade-off

curriculum learning और dataset curation

उदाहरण

[ #6 कॉपीराइट मुद्दे और licensing की संभावनाएँ ]

ethical data sourcing certification frameworks का उभरना

उदाहरण

[ #7 लेबल किए गए बड़े datasets की आवश्यकता में कमी ]

सीमाएँ और विचारणीय बातें

[ #8 जो अभी भी शुरुआती चरण में हैं ]

data marketplaces

gamification

federated learning

[ ## निष्कर्ष ]

संबंधित पढ़ाई

1 टिप्पणियां