सामाजिक हित के लिए डेटा साइंस से 10 साल में सीखे गए सबक

xguru · 2025-01-23T09:46:01+09:00

2014 में जब DrivenData की शुरुआत हुई, तब सामाजिक भलाई के लिए data science का उपयोग अभी शुरुआती चरण में था उस समय data science तकनीक का उपयोग मुख्य रूप से Netflix, Amazon जैसी कंपनियों में marketing और content recommendation के लिए होता था, जबकि non-profit संस्थाओं, NGO, social enterprise और government services के लिए इसके उपयोग के उदाहरण बहुत कम थे शुरुआती लक्ष्य और पृष्ठभूमि data science प्रतिभा की भारी कमी थी और hiring cost बहुत अधिक थी, और यह अंतर सामाजिक समस्याओं से निपटने वाले संगठनों में और भी गंभीर था Harvard Innovation Lab से शुरुआत करते हुए, सामाजिक समस्याओं के लिए data science तकनीक की खाई को कम करने का लक्ष्य रखा गया data science और crowdsourcing की अत्याधुनिक तकनीकों का उपयोग करके दुनिया की प्रमुख सामाजिक चुनौतियों का समाधान करना लक्ष्य था उस समय के दृष्टिकोण को दर्शाने वाले दो उद्धरण "Big data को मानवीय निर्णय-निर्माण के लिए उपयोगी बनाना network युग की एक प्रमुख चुनौती और अवसर है" – UN OCHA "मेरी पीढ़ी के सर्वश्रेष्ठ दिमाग लोगों से विज्ञापनों पर click करवाने में अपनी सोच लगा रहे हैं… यह वास्तव में निराशाजनक है." – Jeff Hammerbacher, Facebook के पूर्व data manager पिछले 10 वर्षों में बदलाव data science और AI को social impact पर लागू करने के लिए कई तरह के प्रयास किए गए 150 से अधिक projects, लगभग 80 partners के साथ सहयोग (World Bank, Bill & Melinda Gates Foundation, NASA आदि) 75 से अधिक data science competitions आयोजित की गईं और $4.7 million से अधिक की prize money दी गई DrivenData ने पिछले 10 वर्षों में data science के माध्यम से सामाजिक भलाई का लक्ष्य रखते हुए best practices और lessons संचित किए हैं इस मोड़ पर यह साथ मिलकर सोचने का अवसर है कि क्या प्रभावी रहा, क्या अब भी चुनौतीपूर्ण है, और बेहतर भविष्य के लिए किस दिशा में बढ़ना चाहिए 10 प्रमुख सबकों की झलक वे मामले जहाँ data science ने अच्छा काम किया data science सामाजिक समस्याओं पर सार्थक प्रभाव डालती है अच्छा data अच्छे solutions की ओर ले जाता है जब प्रयास ठोस समस्याओं और मानवीय जरूरतों पर केंद्रित होते हैं, तब वे सबसे अधिक सफल होते हैं जब machine और human strengths को मिलाया जाता है, तब यह सबसे प्रभावी होता है बहुविषयी दृष्टिकोण और लचीलापन संगठनों को लाभ देते हैं जो बातें अब भी चुनौतीपूर्ण हैं data science एक दोहराई जाने वाली R&D गतिविधि है, और social sector इसमें पर्याप्त निवेश नहीं करता data scientists को hire करना और उन्हें अच्छा support देना कठिन है open source में non-developers के लिए solutions के development की कमी है तकनीकी बढ़ा-चढ़ाकर पेश किया गया hype wave जरूरत से ज्यादा ध्यान खींचता है data science और AI के ethical implications बहुत बड़े हैं, लेकिन ethical use को support करने वाले tools और practices पीछे हैं समय बदल रहा है पिछले 10 वर्षों में data और AI तकनीकों के विकास की गति आश्चर्यजनक रूप से तेज रही है। इसे संभव बनाने वाले मुख्य innovation factors इस प्रकार हैं: computing और storage cloud computing और storage के विस्तार से आवश्यक resources अब अधिक सस्ते और आसानी से उपलब्ध हो गए हैं GPU-आधारित experiments से लेकर real-time model execution के लिए scalable cluster deployment तक, शुरुआती लागत कम हुई है deep learning deep learning ने data science में क्रांतिकारी बदलाव लाया Generative Adversarial Networks (GAN), transformer, variational autoencoder, graph neural network जैसी प्रभावी architectures में विस्फोटक वृद्धि हुई PyTorch और TensorFlow केंद्रित ecosystem विकसित हुआ, और tools, libraries, pre-trained models आदि ने विकास की गति को तेज किया तकनीकी पहुंच का लोकतंत्रीकरण data science को "21वीं सदी की सबसे sexy job" कहा जाने लगा, और learning opportunities में विस्फोटक वृद्धि हुई MOOCs, bootcamps, data competitions आदि के माध्यम से अधिक लोगों ने data science की बुनियादी skills हासिल कीं generative AI large language models (LLM) के आगमन से काम करने के तरीके बदल रहे हैं जटिल tasks में लगने वाला समय कम हुआ है और नई संभावनाएँ खुली हैं generative AI अस्थायी trend है या वास्तविक innovation, यह अभी समीक्षा के अधीन है, लेकिन यह स्पष्ट है कि AI का उपयोग जारी रहेगा इन तकनीकी बदलावों के बावजूद, कई ऐसे common patterns देखे गए हैं जो किसी एक विशेष तकनीक से परे हैं। यह लेख पिछले 10 वर्षों में क्या अच्छा काम करता रहा है और क्या अब भी चुनौती बना हुआ है, इसी पर केंद्रित है. वे मामले जहाँ data science ने अच्छा काम किया data science सामाजिक समस्याओं पर सार्थक प्रभाव डालती है 10 साल पहले की स्थिति data science tools की क्षमता स्पष्ट थी, लेकिन social impact के लिए उनका उपयोग सीमित था उस समय की चर्चा कुछ चुनिंदा उदाहरणों तक सीमित थी और भविष्य की संभावनाओं के ideas पर आधारित थी वर्तमान प्रगति machine learning models स्वास्थ्य, प्राकृतिक संसाधन प्रबंधन और अन्य कई क्षेत्रों में decision-making को प्रभावित कर रहे हैं data science harmful algal bloom, अस्थिर fisheries, climate change से पैदा होने वाली प्राकृतिक आपदाओं जैसी समस्याओं के प्रबंधन में मदद कर रही है, और financial inclusion तथा wildlife conservation में योगदान दे रही है public domain में data visualization समाचार कवरेज और संदेश संप्रेषण का एक प्रमुख माध्यम बन गया है उदाहरण: COVID-19 रोकथाम अभियान, WHO dashboard satellite imagery का उपयोग करने वाला एक ठोस उदाहरण यमन में satellite imagery का उपयोग कर crop types और climate risk का विश्लेषण किया गया, जिससे World Bank के food security program को जानकारी मिली AI का वैज्ञानिक प्रगति में योगदान AlphaFold: protein structure prediction model, जिसने वर्षों लगने वाले काम को कुछ घंटों में पूरा किया और वैज्ञानिकों को सभी protein structures मुफ्त में उपलब्ध कराए transformer models: multimodal memes में hate speech detection पर लागू entity identification technology: endangered species tracking में सुधार (जैसे whales) और इसे विभिन्न species तक विस्तारित किया गया social sector में बदलाव 2010 के दशक के मध्य में data उपयोग पर चर्चा मुख्य रूप से "impact measurement" पर केंद्रित थी अब फोकस इस बात पर है कि data science tools संगठनों के काम करने के तरीके को कैसे बदलते हैं और उन्हें नई capabilities कैसे देते हैं वर्तमान चर्चा इस पर केंद्रित है कि data science और AI मापी जा सकने वाली चीजों से आगे बढ़कर क्या "कर सकते हैं" अच्छा data अच्छे solutions की ओर ले जाता है, और data accessibility में बड़ा सुधार हुआ है दैनिक जीवन में data की बढ़ती भूमिका खरीदारी, emergency services का उपयोग, hospital visit जैसी हर गतिविधि में data उत्पन्न होता है घरेलू appliances, wearable devices, vehicles, mobile phones और applications usage data एकत्र करते हैं sensor और camera तकनीक में प्रगति के कारण image और video data का उपयोग बढ़ा है data उपयोग के दो चरण data को digitally record करके उसे observable बनाना data का उपयोग करके सीखना और patterns खोजने के चरण तक विकसित होना AI और machine learning की बुनियाद के रूप में data अधिक मात्रा और बेहतर गुणवत्ता वाला data नए patterns की खोज और algorithms के विकास का समर्थन करता है उदाहरण: cancer detection, Spotify recommendation algorithm, ChatGPT training data Monica Rogati की data science hierarchy data science की उन्नत क्षमताओं के लिए मजबूत data foundation आवश्यक है data infrastructure में समझदारी से किया गया निवेश ऊपरी क्षमताओं को लागू करने की बुनियाद बनता है सामाजिक मूल्य के लिए data का उपयोग governments और बड़े institutions ने public data के प्रकाशन का विस्तार किया है DrivenData द्वारा उपयोग किए गए data types: weather data, transport data, OpenStreetMap data: air traffic planning और disaster resilience support satellite imagery: flood extent mapping, forest biomass estimation mobile transaction data: financial behavior और attitudes का विश्लेषण survey data: बड़े पैमाने पर opinions और behavior insights audio recordings: बच्चों के literacy level का classification high-resolution images: melanoma recurrence की संभावना का prediction text data: doctors' notes में clinical concepts का automatic analysis data accessibility और usability का महत्व केवल data को सार्वजनिक करना ही पर्याप्त नहीं है machine-readable format, स्पष्ट documentation, और use cases उपलब्ध हों तो participation और utilization बढ़ते हैं कई संगठन data collection में निवेश करते हैं, लेकिन उसके उपयोग के लिए आवश्यक अतिरिक्त निवेश को नज़रअंदाज़ करते हैं data documentation और application examples की भूमिका challenge prize जितनी ही महत्वपूर्ण होती है जब प्रयास ठोस समस्याओं और मानवीय जरूरतों पर केंद्रित होते हैं, तब वे सबसे अधिक सफल होते हैं तकनीक-केंद्रित दृष्टिकोण की खामियां सामाजिक प्रभाव वाले संगठन अक्सर नवीनतम तकनीकी ट्रेंड्स के साथ कदम मिलाने की कोशिश करते हैं "Big Data" और AI tools भले ही万能 समाधान जैसे लगें, लेकिन वे वास्तव में तब प्रभावी होते हैं जब फोकस किसी ठोस समस्या के समाधान पर हो सफल project design की कुंजी किसी विशिष्ट उपयोगकर्ता और समस्या को परिभाषित करें, और उसे हल करने के लिए मापने योग्य लक्ष्य तय करें human-centered design tools का उपयोग करके समझें कि लोगों को "क्या चाहिए", और तकनीकी रूप से "क्या संभव है" से आगे बढ़कर solutions विकसित करें ठोस उदाहरण शैवाल प्रस्फुटन पहचान (CyFi) NASA के साथ सहयोग करके satellite images के माध्यम से हानिकारक cyanobacteria शैवाल प्रस्फुटन का पता लगाना जल प्रबंधकों को शैवाल की स्थिति का सटीक आकलन करने और संसाधनों का कुशल आवंटन करने में सहायता वन्यजीव पहचान (Zamba) Max Planck Institute के साथ सहयोग कर camera trap data का उपयोग करने वाला जानवरों की स्वचालित पहचान tool विकसित किया गया शोधकर्ताओं के feedback को शामिल कर UI में सुधार किए गए Zamba Cloud से उपयोग-सुविधा बढ़ी उपयोगकर्ता दृष्टिकोण का महत्व समस्या की परिभाषा user interviews और feedback के माध्यम से समस्या और आवश्यकताओं को स्पष्ट रूप से समझना data points के पीछे मौजूद मानवीय दृष्टिकोण को शामिल करना solution की delivery UI/UX testing और स्पष्ट communication की जरूरत होती है ताकि उपयोगकर्ता solution का प्रभावी उपयोग कर सकें और उसके लाभ समझ सकें model की strengths और limitations को सहज रूप से समझने में सहायता, और वास्तविक उदाहरणों के माध्यम से उपयोग का तरीका समझाना निष्कर्ष data scientist की भूमिका तकनीकी क्षमता और सामाजिक जरूरतों के बीच सेतु बनाने की है नवीनतम तकनीक में उलझने के बजाय, समस्या-समाधान और ठोस परिणामों पर केंद्रित projects सबसे अधिक प्रभावी होते हैं जब मशीन और इंसान की ताकतों को जोड़ा जाता है, तब solutions सबसे प्रभावी होते हैं AI को लेकर बढ़ा-चढ़ा कर की गई अपेक्षाओं का जोखिम data science models और AI सर्वशक्तिमान नहीं हैं, और हर model की कुछ न कुछ सीमाएं होती हैं सिर्फ AI अपनाने भर से सफलता की गारंटी नहीं मिलती सबसे अच्छा solution उस system से आता है जो मशीन और इंसान दोनों की ताकतों को जोड़ता है Zamba tool का उदाहरण Zamba वन्यजीव camera trap videos में जानवर की मौजूदगी की probability का अनुमान लगाता है model कभी-कभी गलत हो सकता है, लेकिन उसके द्वारा दी गई probability की मदद से efficient review strategy बनाई जा सकती है उदाहरण: पहले उन videos की समीक्षा करना जिनमें chimpanzee होने की संभावना अधिक है, या किसी probability threshold के आधार पर videos को खाली मानना नतीजतन, कुल videos में से 5% से भी कम की समीक्षा करके 85% chimpanzee videos की पहचान की जा सकती है मशीन-इंसान सहयोग के परिणाम breast cancer AI screening का उदाहरण: radiologists और AI ने साथ काम करने पर, अकेले काम करने की तुलना में अधिक accuracy हासिल की AI interpretability और explainability पर जोर: ऐसी जानकारी देना ताकि इंसान AI के परिणामों का आकलन कर सके और उन्हें संदर्भ में जोड़ सके उदाहरण: whale identification competition में model ने individual whales को match करने वाली विशेषताओं का visualization प्रदान किया generative AI में समान पैटर्न ChatGPT जैसे उपयोगी tools के विकास में human feedback अनिवार्य है feedback data के जरिए model को धीरे-धीरे अधिक कठिन मामलों को सीखने के लिए बेहतर बनाया जा सकता है error cost और सुधार बिंदुओं का आकलन system design को बेहतर बनाने के लिए दो सवाल: "अगर एक perfect model हो, तो आप उसका उपयोग कैसे करेंगे?" "अगर वह model कभी-कभी गलत हो, तो आप उससे कैसे निपटेंगे?" इससे system की error tolerance और वे हिस्से समझे जा सकते हैं जहां human review की जरूरत है संगठनात्मक सीख 2021 में Netherlands सरकार का उदाहरण: अनुपयुक्त algorithm की वजह से 26,000 परिवारों पर गलत तरीके से social welfare fraud का आरोप लगा उचित human review के बिना algorithm पर निर्भरता बहुत ऊंची सामाजिक लागत पैदा कर सकती है इसके उलट, algorithm और इंसान की ताकतों को मिलाने पर efficiency और effectiveness दोनों को अधिकतम किया जा सकता है बहु-विषयक दृष्टिकोण और लचीलापन संगठनों की मदद करते हैं विभिन्न क्षेत्रों में project अनुभव financial inclusion, climate action, healthcare जैसे कई क्षेत्रों में काम करते हुए बहु-विषयक दृष्टिकोण के लाभों की पुष्टि हुई किसी खास संदर्भ में machine learning patterns को दूसरे क्षेत्रों में भी विस्तार देकर लागू किया जा सकता है उदाहरण: kelp forest संरक्षण के लिए computer vision model और cervical biopsy lesion detection model के बीच अनुप्रयोग दृष्टिकोण में लचीलापन फसलों के कीटों की शुरुआती पहचान और resumes से skills निकालना जैसे अलग-अलग मुद्दे भी named entity recognition (NER) पर आधारित हो सकते हैं मौजूदा approaches से मिली सीख और अनुभव का उपयोग करके दूसरी समस्याओं पर कम लागत में लागू किया जा सकता है ठोस उदाहरण WhatsApp messages में crops, pests, diseases और chemicals की पहचान करने वाला natural language processing approach छोटे किसानों को नए रुझानों की पहचान करने और science-based सलाह को बेहतर बनाने में सहायता विशेषज्ञता और उपयोगकर्ता दृष्टिकोण का संतुलन domain experts के साथ सहयोग से यह सुनिश्चित होता है कि समस्या के लिए सही संदर्भ मौजूद हो data science process में उपयोगकर्ता दृष्टिकोण को शामिल करके उपयुक्त solutions डिजाइन किए जाते हैं "ऐसा काम जो वास्तव में करने लायक हो" की पहचान सिर्फ तकनीकी विशेषज्ञता पर्याप्त नहीं है; empathy, communication, curiosity और flexibility भी जरूरी हैं brainstorming के जरिए उन क्षेत्रों की पहचान करना जहां machine learning मूल्य जोड़ सकती है, और गहराई से समझना कि यह दृष्टिकोण किसके लिए है और कैसे उपयोग होगा संगठनों की विविध जरूरतों को पूरा करना exploratory research से लेकर prototyping और production stage तक, अलग-अलग संगठनों की जरूरतें अलग होती हैं बड़े data provider organizations (Candid, NASA आदि) से लेकर उन संगठनों तक, जो पहली बार data systems बना रहे हैं, विभिन्न partners के साथ सहयोग तकनीक की उपयुक्तता बनाए रखते हुए, समृद्ध अनुभव से लचीलापन निकालना महत्वपूर्ण है जो हिस्से अब भी चुनौतीपूर्ण हैं data science दोहराव-आधारित है, और social sector में R&D में निवेश की कमी है R&D की प्रकृति और मूल्य research and development एक learning process है, जिसके लिए पूंजी निवेश, प्रयोग, आत्मचिंतन और विफलता स्वीकार करने की इच्छा चाहिए निश्चित तरीकों और अल्पकालिक दृष्टिकोण से social sector में जरूरी समस्याओं की व्यापकता को हल करना मुश्किल है दीर्घकालिक निवेश और non-linear innovation ही प्रमुख उपलब्धियां पैदा करते हैं social sector में R&D निवेश की कमी 2022 के NSF survey के अनुसार, बड़े non-profit organizations में 94% कोई भी R&D activity नहीं करते data science मुख्यतः R&D activity होने के बावजूद, इस क्षेत्र में निवेश अपर्याप्त है data science की दोहरावात्मक प्रकृति data science बेहतर परिणाम उत्पन्न करने और services की efficiency बढ़ाने के लिए iterative learning और feedback loops का उपयोग करती है Harvard data science course और CRISP-DM (data mining standard process) जैसे frameworks भी इसी पुनरावृत्ति पर जोर देते हैं human-centered data science का महत्व learning process प्रभावी solution design के इर्द-गिर्द चलता है, और इसे repeatable innovation frameworks के साथ जोड़ा जाता है human-centered design वास्तविक जरूरतों और solutions के बीच संबंध को मजबूत करता है निजी कंपनियों में R&D सफलता के उदाहरण private companies ने R&D processes के माध्यम से data उपयोग के मूल्य को स्पष्ट रूप से पहचाना है हाल की AI innovation उपलब्धियां लगातार R&D निवेश के बिना संभव नहीं होतीं निष्कर्ष data R&D projects के शुरुआती नतीजे अनिश्चित हो सकते हैं, लेकिन data से मूल्य बनाने की process स्वयं एक सिद्ध methodology है R&D में निरंतर और दीर्घकालिक निवेश innovation को तेज करने और social sector की चुनौतियों को हल करने के लिए आवश्यक है data scientists को नियुक्त करना और समर्थन देना कठिन है, और अकेले काम करने वाले data scientists की संतुष्टि कम होती है संगठन के नज़रिए से चुनौतियाँ हायरिंग जब पहले से कोई data scientist न हो, तब उपयुक्त उम्मीदवारों की पहचान करना और उनका मूल्यांकन करना मुश्किल होता है "data scientist" शब्द की परिभाषा स्पष्ट नहीं होती, क्योंकि इसमें कई तरह की skills और अनुभव शामिल होते हैं टैलेंट को आकर्षित करना और बनाए रखना data scientists की ऊँची मांग के कारण भर्ती बाज़ार बहुत प्रतिस्पर्धी है सामाजिक समस्याओं को हल करने की प्रेरणा के अलावा, दिलचस्प technical work, प्रतिस्पर्धी वेतन, और professional development के अवसर भी देने पड़ते हैं शुरुआती चरण की hiring में ये सब उपलब्ध कराना और भी कठिन होता है मैनेजमेंट और समर्थन data scientists की productivity बनाए रखने के लिए समस्या की सीमा को स्पष्ट रूप से परिभाषित करना, दिशा, infrastructure, और data उपलब्ध कराना ज़रूरी है technical background की कमी होने पर काम की कठिनाई को कम या ज़्यादा आँकना आसान हो जाता है डेवलपर के नज़रिए से चुनौतियाँ सीखना और विकास data science तेज़ी से विकसित होने वाला क्षेत्र है, इसलिए टीम के भीतर सीखने और बढ़ने के अवसर महत्वपूर्ण हैं code review, model feedback, और workload बाँटने में कठिनाई वाले माहौल में विकास के अवसर सीमित हो जाते हैं दिशा और समर्थन की कमी काम के लिए उचित समर्थन न मिलने पर data scientists की संतुष्टि और productivity घटती है काम का आनंद सहकर्मियों के साथ समस्याओं पर चर्चा करना और उन्हें मिलकर हल करना काम से संतुष्टि बढ़ाता है इसे बाहरी network के ज़रिए भी हल किया जा सकता है, लेकिन संगठन के भीतर सहयोग ज़्यादा प्रभावी होता है बदलाव के संकेत हाल के वर्षों में social sector संगठनों में अपनी data teams बनाने के उदाहरण बढ़े हैं DrivenData शुरुआती data scientists और engineers की hiring, onboarding, और कार्य-परिवर्तन में सहयोगी partner के रूप में शामिल है बाहरी data science विशेषज्ञ टीमों के साथ सहयोग करके लचीली क्षमता उपलब्ध कराने का तरीका संगठन और data scientists दोनों के लिए फायदेमंद है भविष्य की दिशा कुछ संगठन data team बनाने में सफल होने लगे हैं, लेकिन data science skills की मांग अभी भी बहुत अधिक है शुरू से data team खड़ी करने की चुनौती आगे भी बनी रहने की संभावना है ओपन सोर्स गैर-डेवलपर्स के लिए पर्याप्त समाधान विकसित नहीं करता ओपन सोर्स की सीमाएँ open source software अक्सर इसलिए प्रभावी ढंग से विकसित होता है क्योंकि developer community और users एक ही होते हैं contributors उन tools को बेहतर बनाने के लिए प्रेरित होते हैं जिन्हें वे खुद इस्तेमाल करेंगे लेकिन non-developers या non-experts के लिए बने tools में यह प्रेरणा काम नहीं करती गैर-विशेषज्ञों के लिए tools की चुनौतियाँ data science projects में non-developers के लिए methods और tools विकसित करने के मामले अक्सर आते हैं open source के रूप में जारी कर देने पर भी, अगर लगातार निवेश और विकास न हो, तो project ठहर सकता है या बंद हो सकता है किसी समाधान को वास्तव में सफल बनाने के लिए prototype चरण के बाद अतिरिक्त development और वास्तविक pilot testing की ज़रूरत होती है ठोस उदाहरण: Concept to Clinic 2017-18 में AI का उपयोग करके radiologists को CT scans प्रोसेस करने में मदद करने वाला एक open application विकसित किया गया contributions को बढ़ावा देने के लिए contributors को points और monetary rewards देने वाली एक structured incentive system शुरू की गई संभव है कि इस approach के बिना project का development ही संभव न हो पाता सतत open source सफलता के लिए आवश्यकताएँ केवल किसी चीज़ को open source के रूप में जारी कर देना उसके दीर्घकालिक प्रभाव की गारंटी नहीं देता prototype से end-user solution तक पहुँचने के लिए स्पष्ट roadmap और निरंतर funding की ज़रूरत होती है महत्वपूर्ण applications बनाते समय open source यात्रा का केवल एक हिस्सा है, उसे अंतिम लक्ष्य नहीं बनना चाहिए तकनीकी अतिशयोक्ति (hype wave) को ज़रूरत से ज़्यादा ध्यान मिलता है social sector और तकनीकी innovation social sector पिछले 10 वर्षों में नई तकनीकी innovations की लहरों से गहराई से जुड़ा रहा है सीमित संसाधनों में दक्षता बढ़ाने के लिए संगठन नई technologies अपनाने के प्रलोभन में आते हैं नवीनतम tech trends के साथ न चलने पर पीछे छूट जाने का दबाव रणनीति को बार-बार बदलने पर मजबूर करता है बढ़ा-चढ़ाकर पेश की गई technologies अपनाने की समस्याएँ तकनीकी hype में से वास्तव में महत्वपूर्ण innovations को छाँटना कठिन होता है technology adoption अक्सर अत्यधिक अपेक्षाओं और कमजोर execution में बदल जाती है उदाहरण: blockchain: ऊँची उम्मीदों के बावजूद social sector में इसका वास्तविक लाभ बहुत सीमित रहा mobile apps: ज़रूरी न होने पर भी "अनिवार्य" समझे जाने के दबाव में अक्षम खर्च हुआ विशेषज्ञ तकनीकी संगठनों का महत्व तकनीकी hype को प्रभावी ढंग से संभाल सकने वाले विशेषज्ञ tech organizations सबसे अच्छे परिणाम देते हैं DrivenData, DataKind, DSSG Fellowship, Delta Analytics आदि के साथ सहयोग करते हुए technical expertise का उपयोग करता है लेकिन ऐसे expert groups के लिए भी पिछले tech hype से मिले सबक को व्यवस्थित रूप से संचित करना आसान नहीं है ज़रूरी बदलाव: तकनीकी hype से निपटने वाला ‘breakwater’ अत्यधिक अपेक्षाओं से वास्तविक innovation को अलग करने और मुख्य प्रगति की पहचान करने की क्षमता चाहिए cutting-edge technology की समझ और social sector की गहरी अंतर्दृष्टि, दोनों से लैस technical leadership अनिवार्य है फिलहाल ऐसी leadership और ecosystem की कमी है, जबकि इन्हीं के ज़रिए अधिक सतत और परिपक्व approach बनाई जा सकती है AI जैसी नई technologies के प्रति रणनीतिक approach AI की क्षमता विशाल है, लेकिन इसके लिए केवल उत्साह नहीं बल्कि सावधान रणनीति और गहरी विशेषज्ञता चाहिए data पर आधारित मज़बूत नींव बनाए बिना तकनीकी hype बार-बार दोहराए जाने वाले अक्षम चक्र में बदल सकती है बुनियादी निवेश और योजना के बिना social sector में तकनीकी innovation से वास्तविक परिणाम निकलना कठिन है data science और AI के नैतिक निहितार्थ बड़े हैं, लेकिन तेज़ adoption उन्हें समर्थन देने वाले tools और practices से आगे निकल रहा है data science और AI का विस्तार और नैतिक महत्व data science और machine learning healthcare, disaster response, criminal sentencing जैसे कई क्षेत्रों में एकीकृत हो चुके हैं इनके गलत उपयोग से होने वाले जोखिम पहले की तुलना में कहीं अधिक बड़े हो गए हैं नैतिक विचार की कमी की वास्तविकता data scientists के पास models और pipelines के नैतिक निहितार्थ समझने का एक विशिष्ट दृष्टिकोण होता है लेकिन यह दृष्टिकोण अक्सर data science projects के lifecycle में समाहित नहीं हो पाता नैतिक trade-offs से निपटने के लिए open source checklist का विकास इसे data science workflow में इस तरह जोड़ा गया कि नैतिक trade-offs पर चर्चा की जा सके मुख्य सिद्धांत: नैतिक निर्णयों का लक्ष्य किसी विशेष संदर्भ में सबसे महत्वपूर्ण trade-offs को पहचानना, ज़िम्मेदारी से आगे बढ़ना, और नुकसान को कम करना होना चाहिए data collection, storage, analysis, modeling, deployment सहित project के हर चरण में नैतिक मुद्दे पैदा होते हैं तंग deadlines और demands के कारण नैतिक चर्चाएँ अक्सर प्राथमिकता सूची से बाहर हो जाती हैं इसे रोकने के लिए नैतिक प्रश्नों को workflow के अन्य पहलुओं में एकीकृत करना और उनके लिए जानबूझकर समय निर्धारित करना चाहिए algorithmic fairness और bias mitigation biased data पर trained models असमानता को दोहराते हैं, इसलिए इन्हें पहचानने और कम करने की techniques विकसित की जा रही हैं उदाहरण: Wellcome Trust के साथ मिलकर psychological stress prediction model में fairness को ध्यान में रखते हुए bias mitigation का एक case तैयार किया गया quantified fairness metrics के माध्यम से bias का विश्लेषण किया गया और उसे कम करने के तरीके दिए गए AI युग में नैतिक विचार का महत्व AI के तेज़ विस्तार के साथ ही कंपनियाँ लागत कम करने के लिए responsible AI teams को भी भंग कर रही हैं social sector में beneficiaries के प्रति जवाबदेही अधिक होती है, इसलिए नैतिक विफलता की कीमत भी अधिक होती है अगर ethical practices को मज़बूत नहीं किया गया, तो AI adoption और बड़ी समस्याएँ पैदा कर सकता है निष्कर्ष AI adoption को समर्थन देने वाले ethical tools और practices बनाना आज पहले से कहीं अधिक महत्वपूर्ण है technology के ज़िम्मेदार उपयोग के माध्यम से social sector में trust और sustainability सुनिश्चित की जानी चाहिए आगे की दिशा डेटा साइंस में बदलाव और अवसर पिछले 10 वर्षों में डेटा साइंस ने सामाजिक क्षेत्र में महत्वपूर्ण बदलाव लाए हैं, और इस दौरान सफलता तथा चुनौतियों—दोनों का अनुभव किया है डेटा और AI की संभावनाओं को लेकर जागरूकता बढ़ी है, लेकिन अब भी कुछ बड़े सवाल बाकी हैं: लगातार हो रही तकनीकी प्रगति को सबसे बड़ी सामाजिक समस्याओं पर व्यावहारिक रूप से कैसे लागू किया जाए? यह कैसे सुनिश्चित किया जाए कि इसके लाभ केवल कुछ बड़ी कंपनियों तक सीमित न रह जाएँ? प्रकृति और मानवता के लिए जिम्मेदार तकनीकी तैनाती को कैसे साकार किया जाए? अनुभव से मिले सबक का महत्व अतीत के अनुभवों से मिले सबक पर आधारित प्रयासों ने सबसे बड़े परिणाम दिए हैं DrivenData को इस बात पर गर्व है कि वह डेटा और AI का उपयोग सामाजिक हित के लिए करने वाले partners, clients और developer community का हिस्सा रहा है यदि आपकी रुचि ऐसे ही विषयों में है या आपके पास अतिरिक्त विचार हैं, तो उन्हें साझा करने का स्वागत है भविष्य को लेकर उम्मीदें पिछले 10 वर्ष जितने शानदार रहे, उम्मीद है कि अगले 10 वर्ष उससे भी बड़े बदलाव लेकर आएँगे करने के लिए बहुत काम है, और सीखने के लिए भी बहुत कुछ है इन चुनौतियों का सामना करते हुए नई संभावनाओं की तलाश करने और बेहतर सामाजिक प्रभाव पैदा करने वाले भविष्य की उम्मीद है

(drivendata.co)

13 पॉइंट द्वारा xguru 2025-01-23 | 1 टिप्पणियां | WhatsApp पर शेयर करें

2014 में जब DrivenData की शुरुआत हुई, तब सामाजिक भलाई के लिए data science का उपयोग अभी शुरुआती चरण में था
उस समय data science तकनीक का उपयोग मुख्य रूप से Netflix, Amazon जैसी कंपनियों में marketing और content recommendation के लिए होता था, जबकि non-profit संस्थाओं, NGO, social enterprise और government services के लिए इसके उपयोग के उदाहरण बहुत कम थे
शुरुआती लक्ष्य और पृष्ठभूमि
- data science प्रतिभा की भारी कमी थी और hiring cost बहुत अधिक थी, और यह अंतर सामाजिक समस्याओं से निपटने वाले संगठनों में और भी गंभीर था
- Harvard Innovation Lab से शुरुआत करते हुए, सामाजिक समस्याओं के लिए data science तकनीक की खाई को कम करने का लक्ष्य रखा गया
- data science और crowdsourcing की अत्याधुनिक तकनीकों का उपयोग करके दुनिया की प्रमुख सामाजिक चुनौतियों का समाधान करना लक्ष्य था
उस समय के दृष्टिकोण को दर्शाने वाले दो उद्धरण
- "Big data को मानवीय निर्णय-निर्माण के लिए उपयोगी बनाना network युग की एक प्रमुख चुनौती और अवसर है" – UN OCHA
- "मेरी पीढ़ी के सर्वश्रेष्ठ दिमाग लोगों से विज्ञापनों पर click करवाने में अपनी सोच लगा रहे हैं… यह वास्तव में निराशाजनक है." – Jeff Hammerbacher, Facebook के पूर्व data manager
पिछले 10 वर्षों में बदलाव
- data science और AI को social impact पर लागू करने के लिए कई तरह के प्रयास किए गए
- 150 से अधिक projects, लगभग 80 partners के साथ सहयोग (World Bank, Bill & Melinda Gates Foundation, NASA आदि)
- 75 से अधिक data science competitions आयोजित की गईं और $4.7 million से अधिक की prize money दी गई
DrivenData ने पिछले 10 वर्षों में data science के माध्यम से सामाजिक भलाई का लक्ष्य रखते हुए best practices और lessons संचित किए हैं
इस मोड़ पर यह साथ मिलकर सोचने का अवसर है कि क्या प्रभावी रहा, क्या अब भी चुनौतीपूर्ण है, और बेहतर भविष्य के लिए किस दिशा में बढ़ना चाहिए

10 प्रमुख सबकों की झलक

वे मामले जहाँ data science ने अच्छा काम किया

data science सामाजिक समस्याओं पर सार्थक प्रभाव डालती है
अच्छा data अच्छे solutions की ओर ले जाता है
जब प्रयास ठोस समस्याओं और मानवीय जरूरतों पर केंद्रित होते हैं, तब वे सबसे अधिक सफल होते हैं
जब machine और human strengths को मिलाया जाता है, तब यह सबसे प्रभावी होता है
बहुविषयी दृष्टिकोण और लचीलापन संगठनों को लाभ देते हैं

जो बातें अब भी चुनौतीपूर्ण हैं

data science एक दोहराई जाने वाली R&D गतिविधि है, और social sector इसमें पर्याप्त निवेश नहीं करता
data scientists को hire करना और उन्हें अच्छा support देना कठिन है
open source में non-developers के लिए solutions के development की कमी है
तकनीकी बढ़ा-चढ़ाकर पेश किया गया hype wave जरूरत से ज्यादा ध्यान खींचता है
data science और AI के ethical implications बहुत बड़े हैं, लेकिन ethical use को support करने वाले tools और practices पीछे हैं

समय बदल रहा है

पिछले 10 वर्षों में data और AI तकनीकों के विकास की गति आश्चर्यजनक रूप से तेज रही है। इसे संभव बनाने वाले मुख्य innovation factors इस प्रकार हैं:

computing और storage
- cloud computing और storage के विस्तार से आवश्यक resources अब अधिक सस्ते और आसानी से उपलब्ध हो गए हैं
- GPU-आधारित experiments से लेकर real-time model execution के लिए scalable cluster deployment तक, शुरुआती लागत कम हुई है
deep learning
- deep learning ने data science में क्रांतिकारी बदलाव लाया
- Generative Adversarial Networks (GAN), transformer, variational autoencoder, graph neural network जैसी प्रभावी architectures में विस्फोटक वृद्धि हुई
- PyTorch और TensorFlow केंद्रित ecosystem विकसित हुआ, और tools, libraries, pre-trained models आदि ने विकास की गति को तेज किया
तकनीकी पहुंच का लोकतंत्रीकरण
- data science को "21वीं सदी की सबसे sexy job" कहा जाने लगा, और learning opportunities में विस्फोटक वृद्धि हुई
- MOOCs, bootcamps, data competitions आदि के माध्यम से अधिक लोगों ने data science की बुनियादी skills हासिल कीं
generative AI
- large language models (LLM) के आगमन से काम करने के तरीके बदल रहे हैं
- जटिल tasks में लगने वाला समय कम हुआ है और नई संभावनाएँ खुली हैं
- generative AI अस्थायी trend है या वास्तविक innovation, यह अभी समीक्षा के अधीन है, लेकिन यह स्पष्ट है कि AI का उपयोग जारी रहेगा

इन तकनीकी बदलावों के बावजूद, कई ऐसे common patterns देखे गए हैं जो किसी एक विशेष तकनीक से परे हैं। यह लेख पिछले 10 वर्षों में क्या अच्छा काम करता रहा है और क्या अब भी चुनौती बना हुआ है, इसी पर केंद्रित है.

वे मामले जहाँ data science ने अच्छा काम किया

data science सामाजिक समस्याओं पर सार्थक प्रभाव डालती है

10 साल पहले की स्थिति
- data science tools की क्षमता स्पष्ट थी, लेकिन social impact के लिए उनका उपयोग सीमित था
- उस समय की चर्चा कुछ चुनिंदा उदाहरणों तक सीमित थी और भविष्य की संभावनाओं के ideas पर आधारित थी
वर्तमान प्रगति
- machine learning models स्वास्थ्य, प्राकृतिक संसाधन प्रबंधन और अन्य कई क्षेत्रों में decision-making को प्रभावित कर रहे हैं
- data science harmful algal bloom, अस्थिर fisheries, climate change से पैदा होने वाली प्राकृतिक आपदाओं जैसी समस्याओं के प्रबंधन में मदद कर रही है, और financial inclusion तथा wildlife conservation में योगदान दे रही है
- public domain में data visualization समाचार कवरेज और संदेश संप्रेषण का एक प्रमुख माध्यम बन गया है
  - उदाहरण: COVID-19 रोकथाम अभियान, WHO dashboard
satellite imagery का उपयोग करने वाला एक ठोस उदाहरण
- यमन में satellite imagery का उपयोग कर crop types और climate risk का विश्लेषण किया गया, जिससे World Bank के food security program को जानकारी मिली
AI का वैज्ञानिक प्रगति में योगदान
- AlphaFold: protein structure prediction model, जिसने वर्षों लगने वाले काम को कुछ घंटों में पूरा किया और वैज्ञानिकों को सभी protein structures मुफ्त में उपलब्ध कराए
- transformer models: multimodal memes में hate speech detection पर लागू
- entity identification technology: endangered species tracking में सुधार (जैसे whales) और इसे विभिन्न species तक विस्तारित किया गया
social sector में बदलाव
- 2010 के दशक के मध्य में data उपयोग पर चर्चा मुख्य रूप से "impact measurement" पर केंद्रित थी
- अब फोकस इस बात पर है कि data science tools संगठनों के काम करने के तरीके को कैसे बदलते हैं और उन्हें नई capabilities कैसे देते हैं
- वर्तमान चर्चा इस पर केंद्रित है कि data science और AI मापी जा सकने वाली चीजों से आगे बढ़कर क्या "कर सकते हैं"

अच्छा data अच्छे solutions की ओर ले जाता है, और data accessibility में बड़ा सुधार हुआ है

दैनिक जीवन में data की बढ़ती भूमिका
- खरीदारी, emergency services का उपयोग, hospital visit जैसी हर गतिविधि में data उत्पन्न होता है
- घरेलू appliances, wearable devices, vehicles, mobile phones और applications usage data एकत्र करते हैं
- sensor और camera तकनीक में प्रगति के कारण image और video data का उपयोग बढ़ा है
data उपयोग के दो चरण
1. data को digitally record करके उसे observable बनाना
2. data का उपयोग करके सीखना और patterns खोजने के चरण तक विकसित होना
AI और machine learning की बुनियाद के रूप में data
- अधिक मात्रा और बेहतर गुणवत्ता वाला data नए patterns की खोज और algorithms के विकास का समर्थन करता है
- उदाहरण: cancer detection, Spotify recommendation algorithm, ChatGPT training data
Monica Rogati की data science hierarchy
- data science की उन्नत क्षमताओं के लिए मजबूत data foundation आवश्यक है
- data infrastructure में समझदारी से किया गया निवेश ऊपरी क्षमताओं को लागू करने की बुनियाद बनता है
सामाजिक मूल्य के लिए data का उपयोग
- governments और बड़े institutions ने public data के प्रकाशन का विस्तार किया है
- DrivenData द्वारा उपयोग किए गए data types:
  - weather data, transport data, OpenStreetMap data: air traffic planning और disaster resilience support
  - satellite imagery: flood extent mapping, forest biomass estimation
  - mobile transaction data: financial behavior और attitudes का विश्लेषण
  - survey data: बड़े पैमाने पर opinions और behavior insights
  - audio recordings: बच्चों के literacy level का classification
  - high-resolution images: melanoma recurrence की संभावना का prediction
  - text data: doctors' notes में clinical concepts का automatic analysis
data accessibility और usability का महत्व
- केवल data को सार्वजनिक करना ही पर्याप्त नहीं है
- machine-readable format, स्पष्ट documentation, और use cases उपलब्ध हों तो participation और utilization बढ़ते हैं
- कई संगठन data collection में निवेश करते हैं, लेकिन उसके उपयोग के लिए आवश्यक अतिरिक्त निवेश को नज़रअंदाज़ करते हैं
- data documentation और application examples की भूमिका challenge prize जितनी ही महत्वपूर्ण होती है

जब प्रयास ठोस समस्याओं और मानवीय जरूरतों पर केंद्रित होते हैं, तब वे सबसे अधिक सफल होते हैं

तकनीक-केंद्रित दृष्टिकोण की खामियां
- सामाजिक प्रभाव वाले संगठन अक्सर नवीनतम तकनीकी ट्रेंड्स के साथ कदम मिलाने की कोशिश करते हैं
- "Big Data" और AI tools भले ही万能 समाधान जैसे लगें, लेकिन वे वास्तव में तब प्रभावी होते हैं जब फोकस किसी ठोस समस्या के समाधान पर हो
सफल project design की कुंजी
- किसी विशिष्ट उपयोगकर्ता और समस्या को परिभाषित करें, और उसे हल करने के लिए मापने योग्य लक्ष्य तय करें
- human-centered design tools का उपयोग करके समझें कि लोगों को "क्या चाहिए", और तकनीकी रूप से "क्या संभव है" से आगे बढ़कर solutions विकसित करें
ठोस उदाहरण
- शैवाल प्रस्फुटन पहचान (CyFi)
  - NASA के साथ सहयोग करके satellite images के माध्यम से हानिकारक cyanobacteria शैवाल प्रस्फुटन का पता लगाना
  - जल प्रबंधकों को शैवाल की स्थिति का सटीक आकलन करने और संसाधनों का कुशल आवंटन करने में सहायता
- वन्यजीव पहचान (Zamba)
  - Max Planck Institute के साथ सहयोग कर camera trap data का उपयोग करने वाला जानवरों की स्वचालित पहचान tool विकसित किया गया
  - शोधकर्ताओं के feedback को शामिल कर UI में सुधार किए गए Zamba Cloud से उपयोग-सुविधा बढ़ी
उपयोगकर्ता दृष्टिकोण का महत्व
- समस्या की परिभाषा
  - user interviews और feedback के माध्यम से समस्या और आवश्यकताओं को स्पष्ट रूप से समझना
  - data points के पीछे मौजूद मानवीय दृष्टिकोण को शामिल करना
- solution की delivery
  - UI/UX testing और स्पष्ट communication की जरूरत होती है ताकि उपयोगकर्ता solution का प्रभावी उपयोग कर सकें और उसके लाभ समझ सकें
  - model की strengths और limitations को सहज रूप से समझने में सहायता, और वास्तविक उदाहरणों के माध्यम से उपयोग का तरीका समझाना
निष्कर्ष
- data scientist की भूमिका तकनीकी क्षमता और सामाजिक जरूरतों के बीच सेतु बनाने की है
- नवीनतम तकनीक में उलझने के बजाय, समस्या-समाधान और ठोस परिणामों पर केंद्रित projects सबसे अधिक प्रभावी होते हैं

जब मशीन और इंसान की ताकतों को जोड़ा जाता है, तब solutions सबसे प्रभावी होते हैं

AI को लेकर बढ़ा-चढ़ा कर की गई अपेक्षाओं का जोखिम
- data science models और AI सर्वशक्तिमान नहीं हैं, और हर model की कुछ न कुछ सीमाएं होती हैं
- सिर्फ AI अपनाने भर से सफलता की गारंटी नहीं मिलती
- सबसे अच्छा solution उस system से आता है जो मशीन और इंसान दोनों की ताकतों को जोड़ता है
Zamba tool का उदाहरण
- Zamba वन्यजीव camera trap videos में जानवर की मौजूदगी की probability का अनुमान लगाता है
- model कभी-कभी गलत हो सकता है, लेकिन उसके द्वारा दी गई probability की मदद से efficient review strategy बनाई जा सकती है
  - उदाहरण: पहले उन videos की समीक्षा करना जिनमें chimpanzee होने की संभावना अधिक है, या किसी probability threshold के आधार पर videos को खाली मानना
  - नतीजतन, कुल videos में से 5% से भी कम की समीक्षा करके 85% chimpanzee videos की पहचान की जा सकती है
मशीन-इंसान सहयोग के परिणाम
- breast cancer AI screening का उदाहरण: radiologists और AI ने साथ काम करने पर, अकेले काम करने की तुलना में अधिक accuracy हासिल की
- AI interpretability और explainability पर जोर: ऐसी जानकारी देना ताकि इंसान AI के परिणामों का आकलन कर सके और उन्हें संदर्भ में जोड़ सके
  - उदाहरण: whale identification competition में model ने individual whales को match करने वाली विशेषताओं का visualization प्रदान किया
generative AI में समान पैटर्न
- ChatGPT जैसे उपयोगी tools के विकास में human feedback अनिवार्य है
- feedback data के जरिए model को धीरे-धीरे अधिक कठिन मामलों को सीखने के लिए बेहतर बनाया जा सकता है
error cost और सुधार बिंदुओं का आकलन
- system design को बेहतर बनाने के लिए दो सवाल:
  1. "अगर एक perfect model हो, तो आप उसका उपयोग कैसे करेंगे?"
  2. "अगर वह model कभी-कभी गलत हो, तो आप उससे कैसे निपटेंगे?"
- इससे system की error tolerance और वे हिस्से समझे जा सकते हैं जहां human review की जरूरत है
संगठनात्मक सीख
- 2021 में Netherlands सरकार का उदाहरण: अनुपयुक्त algorithm की वजह से 26,000 परिवारों पर गलत तरीके से social welfare fraud का आरोप लगा
- उचित human review के बिना algorithm पर निर्भरता बहुत ऊंची सामाजिक लागत पैदा कर सकती है
- इसके उलट, algorithm और इंसान की ताकतों को मिलाने पर efficiency और effectiveness दोनों को अधिकतम किया जा सकता है

बहु-विषयक दृष्टिकोण और लचीलापन संगठनों की मदद करते हैं

विभिन्न क्षेत्रों में project अनुभव
- financial inclusion, climate action, healthcare जैसे कई क्षेत्रों में काम करते हुए बहु-विषयक दृष्टिकोण के लाभों की पुष्टि हुई
- किसी खास संदर्भ में machine learning patterns को दूसरे क्षेत्रों में भी विस्तार देकर लागू किया जा सकता है
  - उदाहरण: kelp forest संरक्षण के लिए computer vision model और cervical biopsy lesion detection model के बीच अनुप्रयोग
दृष्टिकोण में लचीलापन
- फसलों के कीटों की शुरुआती पहचान और resumes से skills निकालना जैसे अलग-अलग मुद्दे भी named entity recognition (NER) पर आधारित हो सकते हैं
- मौजूदा approaches से मिली सीख और अनुभव का उपयोग करके दूसरी समस्याओं पर कम लागत में लागू किया जा सकता है
ठोस उदाहरण
- WhatsApp messages में crops, pests, diseases और chemicals की पहचान करने वाला natural language processing approach
- छोटे किसानों को नए रुझानों की पहचान करने और science-based सलाह को बेहतर बनाने में सहायता
विशेषज्ञता और उपयोगकर्ता दृष्टिकोण का संतुलन
- domain experts के साथ सहयोग से यह सुनिश्चित होता है कि समस्या के लिए सही संदर्भ मौजूद हो
- data science process में उपयोगकर्ता दृष्टिकोण को शामिल करके उपयुक्त solutions डिजाइन किए जाते हैं
"ऐसा काम जो वास्तव में करने लायक हो" की पहचान
- सिर्फ तकनीकी विशेषज्ञता पर्याप्त नहीं है; empathy, communication, curiosity और flexibility भी जरूरी हैं
- brainstorming के जरिए उन क्षेत्रों की पहचान करना जहां machine learning मूल्य जोड़ सकती है, और गहराई से समझना कि यह दृष्टिकोण किसके लिए है और कैसे उपयोग होगा
संगठनों की विविध जरूरतों को पूरा करना
- exploratory research से लेकर prototyping और production stage तक, अलग-अलग संगठनों की जरूरतें अलग होती हैं
- बड़े data provider organizations (Candid, NASA आदि) से लेकर उन संगठनों तक, जो पहली बार data systems बना रहे हैं, विभिन्न partners के साथ सहयोग
- तकनीक की उपयुक्तता बनाए रखते हुए, समृद्ध अनुभव से लचीलापन निकालना महत्वपूर्ण है

जो हिस्से अब भी चुनौतीपूर्ण हैं

data science दोहराव-आधारित है, और social sector में R&D में निवेश की कमी है

R&D की प्रकृति और मूल्य
- research and development एक learning process है, जिसके लिए पूंजी निवेश, प्रयोग, आत्मचिंतन और विफलता स्वीकार करने की इच्छा चाहिए
- निश्चित तरीकों और अल्पकालिक दृष्टिकोण से social sector में जरूरी समस्याओं की व्यापकता को हल करना मुश्किल है
- दीर्घकालिक निवेश और non-linear innovation ही प्रमुख उपलब्धियां पैदा करते हैं
social sector में R&D निवेश की कमी
- 2022 के NSF survey के अनुसार, बड़े non-profit organizations में 94% कोई भी R&D activity नहीं करते
- data science मुख्यतः R&D activity होने के बावजूद, इस क्षेत्र में निवेश अपर्याप्त है
data science की दोहरावात्मक प्रकृति
- data science बेहतर परिणाम उत्पन्न करने और services की efficiency बढ़ाने के लिए iterative learning और feedback loops का उपयोग करती है
- Harvard data science course और CRISP-DM (data mining standard process) जैसे frameworks भी इसी पुनरावृत्ति पर जोर देते हैं
human-centered data science का महत्व
- learning process प्रभावी solution design के इर्द-गिर्द चलता है, और इसे repeatable innovation frameworks के साथ जोड़ा जाता है
- human-centered design वास्तविक जरूरतों और solutions के बीच संबंध को मजबूत करता है
निजी कंपनियों में R&D सफलता के उदाहरण
- private companies ने R&D processes के माध्यम से data उपयोग के मूल्य को स्पष्ट रूप से पहचाना है
- हाल की AI innovation उपलब्धियां लगातार R&D निवेश के बिना संभव नहीं होतीं
निष्कर्ष
- data R&D projects के शुरुआती नतीजे अनिश्चित हो सकते हैं, लेकिन data से मूल्य बनाने की process स्वयं एक सिद्ध methodology है
- R&D में निरंतर और दीर्घकालिक निवेश innovation को तेज करने और social sector की चुनौतियों को हल करने के लिए आवश्यक है

data scientists को नियुक्त करना और समर्थन देना कठिन है, और अकेले काम करने वाले data scientists की संतुष्टि कम होती है

संगठन के नज़रिए से चुनौतियाँ
- हायरिंग
  - जब पहले से कोई data scientist न हो, तब उपयुक्त उम्मीदवारों की पहचान करना और उनका मूल्यांकन करना मुश्किल होता है
  - "data scientist" शब्द की परिभाषा स्पष्ट नहीं होती, क्योंकि इसमें कई तरह की skills और अनुभव शामिल होते हैं
- टैलेंट को आकर्षित करना और बनाए रखना
  - data scientists की ऊँची मांग के कारण भर्ती बाज़ार बहुत प्रतिस्पर्धी है
  - सामाजिक समस्याओं को हल करने की प्रेरणा के अलावा, दिलचस्प technical work, प्रतिस्पर्धी वेतन, और professional development के अवसर भी देने पड़ते हैं
  - शुरुआती चरण की hiring में ये सब उपलब्ध कराना और भी कठिन होता है
- मैनेजमेंट और समर्थन
  - data scientists की productivity बनाए रखने के लिए समस्या की सीमा को स्पष्ट रूप से परिभाषित करना, दिशा, infrastructure, और data उपलब्ध कराना ज़रूरी है
  - technical background की कमी होने पर काम की कठिनाई को कम या ज़्यादा आँकना आसान हो जाता है
डेवलपर के नज़रिए से चुनौतियाँ
- सीखना और विकास
  - data science तेज़ी से विकसित होने वाला क्षेत्र है, इसलिए टीम के भीतर सीखने और बढ़ने के अवसर महत्वपूर्ण हैं
  - code review, model feedback, और workload बाँटने में कठिनाई वाले माहौल में विकास के अवसर सीमित हो जाते हैं
- दिशा और समर्थन की कमी
  - काम के लिए उचित समर्थन न मिलने पर data scientists की संतुष्टि और productivity घटती है
- काम का आनंद
  - सहकर्मियों के साथ समस्याओं पर चर्चा करना और उन्हें मिलकर हल करना काम से संतुष्टि बढ़ाता है
  - इसे बाहरी network के ज़रिए भी हल किया जा सकता है, लेकिन संगठन के भीतर सहयोग ज़्यादा प्रभावी होता है
बदलाव के संकेत
- हाल के वर्षों में social sector संगठनों में अपनी data teams बनाने के उदाहरण बढ़े हैं
- DrivenData शुरुआती data scientists और engineers की hiring, onboarding, और कार्य-परिवर्तन में सहयोगी partner के रूप में शामिल है
- बाहरी data science विशेषज्ञ टीमों के साथ सहयोग करके लचीली क्षमता उपलब्ध कराने का तरीका संगठन और data scientists दोनों के लिए फायदेमंद है
भविष्य की दिशा
- कुछ संगठन data team बनाने में सफल होने लगे हैं, लेकिन data science skills की मांग अभी भी बहुत अधिक है
- शुरू से data team खड़ी करने की चुनौती आगे भी बनी रहने की संभावना है

ओपन सोर्स गैर-डेवलपर्स के लिए पर्याप्त समाधान विकसित नहीं करता

ओपन सोर्स की सीमाएँ
- open source software अक्सर इसलिए प्रभावी ढंग से विकसित होता है क्योंकि developer community और users एक ही होते हैं
- contributors उन tools को बेहतर बनाने के लिए प्रेरित होते हैं जिन्हें वे खुद इस्तेमाल करेंगे
- लेकिन non-developers या non-experts के लिए बने tools में यह प्रेरणा काम नहीं करती
गैर-विशेषज्ञों के लिए tools की चुनौतियाँ
- data science projects में non-developers के लिए methods और tools विकसित करने के मामले अक्सर आते हैं
- open source के रूप में जारी कर देने पर भी, अगर लगातार निवेश और विकास न हो, तो project ठहर सकता है या बंद हो सकता है
- किसी समाधान को वास्तव में सफल बनाने के लिए prototype चरण के बाद अतिरिक्त development और वास्तविक pilot testing की ज़रूरत होती है
ठोस उदाहरण: Concept to Clinic
- 2017-18 में AI का उपयोग करके radiologists को CT scans प्रोसेस करने में मदद करने वाला एक open application विकसित किया गया
- contributions को बढ़ावा देने के लिए contributors को points और monetary rewards देने वाली एक structured incentive system शुरू की गई
- संभव है कि इस approach के बिना project का development ही संभव न हो पाता
सतत open source सफलता के लिए आवश्यकताएँ
- केवल किसी चीज़ को open source के रूप में जारी कर देना उसके दीर्घकालिक प्रभाव की गारंटी नहीं देता
- prototype से end-user solution तक पहुँचने के लिए स्पष्ट roadmap और निरंतर funding की ज़रूरत होती है
- महत्वपूर्ण applications बनाते समय open source यात्रा का केवल एक हिस्सा है, उसे अंतिम लक्ष्य नहीं बनना चाहिए

तकनीकी अतिशयोक्ति (hype wave) को ज़रूरत से ज़्यादा ध्यान मिलता है

social sector और तकनीकी innovation
- social sector पिछले 10 वर्षों में नई तकनीकी innovations की लहरों से गहराई से जुड़ा रहा है
- सीमित संसाधनों में दक्षता बढ़ाने के लिए संगठन नई technologies अपनाने के प्रलोभन में आते हैं
- नवीनतम tech trends के साथ न चलने पर पीछे छूट जाने का दबाव रणनीति को बार-बार बदलने पर मजबूर करता है
बढ़ा-चढ़ाकर पेश की गई technologies अपनाने की समस्याएँ
- तकनीकी hype में से वास्तव में महत्वपूर्ण innovations को छाँटना कठिन होता है
- technology adoption अक्सर अत्यधिक अपेक्षाओं और कमजोर execution में बदल जाती है
- उदाहरण:
  - blockchain: ऊँची उम्मीदों के बावजूद social sector में इसका वास्तविक लाभ बहुत सीमित रहा
  - mobile apps: ज़रूरी न होने पर भी "अनिवार्य" समझे जाने के दबाव में अक्षम खर्च हुआ
विशेषज्ञ तकनीकी संगठनों का महत्व
- तकनीकी hype को प्रभावी ढंग से संभाल सकने वाले विशेषज्ञ tech organizations सबसे अच्छे परिणाम देते हैं
- DrivenData, DataKind, DSSG Fellowship, Delta Analytics आदि के साथ सहयोग करते हुए technical expertise का उपयोग करता है
- लेकिन ऐसे expert groups के लिए भी पिछले tech hype से मिले सबक को व्यवस्थित रूप से संचित करना आसान नहीं है
ज़रूरी बदलाव: तकनीकी hype से निपटने वाला ‘breakwater’
- अत्यधिक अपेक्षाओं से वास्तविक innovation को अलग करने और मुख्य प्रगति की पहचान करने की क्षमता चाहिए
- cutting-edge technology की समझ और social sector की गहरी अंतर्दृष्टि, दोनों से लैस technical leadership अनिवार्य है
- फिलहाल ऐसी leadership और ecosystem की कमी है, जबकि इन्हीं के ज़रिए अधिक सतत और परिपक्व approach बनाई जा सकती है
AI जैसी नई technologies के प्रति रणनीतिक approach
- AI की क्षमता विशाल है, लेकिन इसके लिए केवल उत्साह नहीं बल्कि सावधान रणनीति और गहरी विशेषज्ञता चाहिए
- data पर आधारित मज़बूत नींव बनाए बिना तकनीकी hype बार-बार दोहराए जाने वाले अक्षम चक्र में बदल सकती है
- बुनियादी निवेश और योजना के बिना social sector में तकनीकी innovation से वास्तविक परिणाम निकलना कठिन है

data science और AI के नैतिक निहितार्थ बड़े हैं, लेकिन तेज़ adoption उन्हें समर्थन देने वाले tools और practices से आगे निकल रहा है

data science और AI का विस्तार और नैतिक महत्व
- data science और machine learning healthcare, disaster response, criminal sentencing जैसे कई क्षेत्रों में एकीकृत हो चुके हैं
- इनके गलत उपयोग से होने वाले जोखिम पहले की तुलना में कहीं अधिक बड़े हो गए हैं
नैतिक विचार की कमी की वास्तविकता
- data scientists के पास models और pipelines के नैतिक निहितार्थ समझने का एक विशिष्ट दृष्टिकोण होता है
- लेकिन यह दृष्टिकोण अक्सर data science projects के lifecycle में समाहित नहीं हो पाता
नैतिक trade-offs से निपटने के लिए open source checklist का विकास
- इसे data science workflow में इस तरह जोड़ा गया कि नैतिक trade-offs पर चर्चा की जा सके
- मुख्य सिद्धांत:
  - नैतिक निर्णयों का लक्ष्य किसी विशेष संदर्भ में सबसे महत्वपूर्ण trade-offs को पहचानना, ज़िम्मेदारी से आगे बढ़ना, और नुकसान को कम करना होना चाहिए
  - data collection, storage, analysis, modeling, deployment सहित project के हर चरण में नैतिक मुद्दे पैदा होते हैं
  - तंग deadlines और demands के कारण नैतिक चर्चाएँ अक्सर प्राथमिकता सूची से बाहर हो जाती हैं
  - इसे रोकने के लिए नैतिक प्रश्नों को workflow के अन्य पहलुओं में एकीकृत करना और उनके लिए जानबूझकर समय निर्धारित करना चाहिए
algorithmic fairness और bias mitigation
- biased data पर trained models असमानता को दोहराते हैं, इसलिए इन्हें पहचानने और कम करने की techniques विकसित की जा रही हैं
- उदाहरण: Wellcome Trust के साथ मिलकर psychological stress prediction model में fairness को ध्यान में रखते हुए bias mitigation का एक case तैयार किया गया
  - quantified fairness metrics के माध्यम से bias का विश्लेषण किया गया और उसे कम करने के तरीके दिए गए
AI युग में नैतिक विचार का महत्व
- AI के तेज़ विस्तार के साथ ही कंपनियाँ लागत कम करने के लिए responsible AI teams को भी भंग कर रही हैं
- social sector में beneficiaries के प्रति जवाबदेही अधिक होती है, इसलिए नैतिक विफलता की कीमत भी अधिक होती है
- अगर ethical practices को मज़बूत नहीं किया गया, तो AI adoption और बड़ी समस्याएँ पैदा कर सकता है
निष्कर्ष
- AI adoption को समर्थन देने वाले ethical tools और practices बनाना आज पहले से कहीं अधिक महत्वपूर्ण है
- technology के ज़िम्मेदार उपयोग के माध्यम से social sector में trust और sustainability सुनिश्चित की जानी चाहिए

आगे की दिशा

डेटा साइंस में बदलाव और अवसर
- पिछले 10 वर्षों में डेटा साइंस ने सामाजिक क्षेत्र में महत्वपूर्ण बदलाव लाए हैं, और इस दौरान सफलता तथा चुनौतियों—दोनों का अनुभव किया है
- डेटा और AI की संभावनाओं को लेकर जागरूकता बढ़ी है, लेकिन अब भी कुछ बड़े सवाल बाकी हैं:
  - लगातार हो रही तकनीकी प्रगति को सबसे बड़ी सामाजिक समस्याओं पर व्यावहारिक रूप से कैसे लागू किया जाए?
  - यह कैसे सुनिश्चित किया जाए कि इसके लाभ केवल कुछ बड़ी कंपनियों तक सीमित न रह जाएँ?
  - प्रकृति और मानवता के लिए जिम्मेदार तकनीकी तैनाती को कैसे साकार किया जाए?
अनुभव से मिले सबक का महत्व
- अतीत के अनुभवों से मिले सबक पर आधारित प्रयासों ने सबसे बड़े परिणाम दिए हैं
- DrivenData को इस बात पर गर्व है कि वह डेटा और AI का उपयोग सामाजिक हित के लिए करने वाले partners, clients और developer community का हिस्सा रहा है
- यदि आपकी रुचि ऐसे ही विषयों में है या आपके पास अतिरिक्त विचार हैं, तो उन्हें साझा करने का स्वागत है
भविष्य को लेकर उम्मीदें
- पिछले 10 वर्ष जितने शानदार रहे, उम्मीद है कि अगले 10 वर्ष उससे भी बड़े बदलाव लेकर आएँगे
- करने के लिए बहुत काम है, और सीखने के लिए भी बहुत कुछ है
- इन चुनौतियों का सामना करते हुए नई संभावनाओं की तलाश करने और बेहतर सामाजिक प्रभाव पैदा करने वाले भविष्य की उम्मीद है

1 टिप्पणियां

halfenif 2025-01-23

"मेरी पीढ़ी के सबसे बेहतरीन लोग लोगों से ads पर click करवाने के लिए अपना दिमाग लगा रहे हैं… यह सच में बहुत निराशाजनक है।"

अब सच में सोचता हूँ तो बात सही लगती है।

सामाजिक हित के लिए डेटा साइंस से 10 साल में सीखे गए सबक

10 प्रमुख सबकों की झलक

वे मामले जहाँ data science ने अच्छा काम किया

जो बातें अब भी चुनौतीपूर्ण हैं

समय बदल रहा है

वे मामले जहाँ data science ने अच्छा काम किया

data science सामाजिक समस्याओं पर सार्थक प्रभाव डालती है

अच्छा data अच्छे solutions की ओर ले जाता है, और data accessibility में बड़ा सुधार हुआ है

जब प्रयास ठोस समस्याओं और मानवीय जरूरतों पर केंद्रित होते हैं, तब वे सबसे अधिक सफल होते हैं

जब मशीन और इंसान की ताकतों को जोड़ा जाता है, तब solutions सबसे प्रभावी होते हैं

बहु-विषयक दृष्टिकोण और लचीलापन संगठनों की मदद करते हैं

जो हिस्से अब भी चुनौतीपूर्ण हैं

data science दोहराव-आधारित है, और social sector में R&D में निवेश की कमी है

data scientists को नियुक्त करना और समर्थन देना कठिन है, और अकेले काम करने वाले data scientists की संतुष्टि कम होती है

ओपन सोर्स गैर-डेवलपर्स के लिए पर्याप्त समाधान विकसित नहीं करता

तकनीकी अतिशयोक्ति (hype wave) को ज़रूरत से ज़्यादा ध्यान मिलता है

data science और AI के नैतिक निहितार्थ बड़े हैं, लेकिन तेज़ adoption उन्हें समर्थन देने वाले tools और practices से आगे निकल रहा है

आगे की दिशा

संबंधित पढ़ाई

1 टिप्पणियां