- /r/DataScience सबरेडिट पर पोस्ट की गई चर्चा और जवाबों का सार
- लेखक को इस बात पर गहरी शंका है कि Data Science अब बिना किसी validation और evaluation के सिर्फ “Generative AI” नाम के सहारे चलाई जा रही है
- हकीकत में ChatGPT से जनरेट किए गए code से सिर्फ साधारण z-score calculation की गई, और model performance evaluation के बिना ही deployment से ठीक पहले तक बात पहुंच गई
- कम्युनिटी ने आम तौर पर "काम कर रहा है तो deploy कर दो" वाली corporate culture, validation की कमी, जवाबदेही से बचना, और scientific ethics की बलि को मुख्य समस्या बताया
- कई practitioners ने कहा कि वे भी ऐसी ही समस्याओं का सामना कर रहे हैं, और "छद्म-विज्ञान" में बदलती इस प्रवृत्ति पर गंभीर चिंता जताई
- हालांकि कुछ लोगों का कहना था कि तेज़ प्रयोग और सरल समाधान की व्यावहारिक उपयोगिता को भी समझना चाहिए, और संतुलित नज़रिए पर ज़ोर दिया गया
Data Science Has Become a Pseudo-Science
- यूरोप में master's और PhD पूरी करने के बाद लेखक ने 10 साल तक industry और academia के बीच काम करते हुए data science किया
- पिछले 2 साल में "Generative AI" के नाम पर बिना किसी validation के नतीजे पेश करने की प्रवृत्ति बढ़ती जा रही है
- उदाहरण के तौर पर, time-series anomaly detection वाले एक project में ChatGPT से बने code से सिर्फ mean difference का z-score निकाला गया, और बिना किसी performance metric के deployment पर चर्चा होने लगी
- लेखक के अनुसार यह तरीका scientific thinking के बिना black box से सवाल पूछकर उसका जवाब वैसे ही मान लेने वाले छद्म-विज्ञान जैसा है, और सवाल उठाना भी मानो वर्जित हो गया है
- इसी वजह से वे academia में लौटने पर भी विचार कर रहे हैं, और यह जानने के लिए पोस्ट लिखी कि क्या उनके साथियों को भी ऐसा ही अनुभव हो रहा है
टिप्पणियों का सार
मुख्य सहमति वाले विचार
- “बस काम करे तो deploy कर दो” वाली सोच बहुत फैली हुई है (
u/Illustrious-Pound266)
- validation और roadmap के बिना सिर्फ AI पर ज़ोर देकर विफल हुए startups के उदाहरण भी हैं (
u/gothicserp3nt)
- अनजाने bias या discrimination की ठीक से समीक्षा नहीं होती (
u/tehMarzipanEmperor)
- ज़्यादातर कंपनियों में RAG या AI को बढ़ा-चढ़ाकर पेश किया जाता है, और accuracy से ज़्यादा showing पर ध्यान रहता है (
u/castleking, u/flowanvindir)
- कामकाजी माहौल को कई लोगों ने "performance theater" बताया (
u/Ty4Readin, u/faulerauslaender)
- नतीजे दिखाने के दबाव में जल्दबाज़ deployment, सिर्फ दिखावटी reports, और बिना measurement के AI adoption आम हो गया है (
u/glittering_tiger8996, u/Emergency-Job4136)
- कई लोगों का मानना है कि यह समस्या पहले से थी, GenAI ने बस उसे और खुला हुआ बना दिया है (
u/RoomyRoots, u/303uru, u/TARehman)
- कम explainability और कम reliability के बावजूद सिर्फ तेज़ी की वजह से adoption हो रहा है
- corporate decision-making में accountability घटती जा रही है (
u/empathic_psychopath8, u/Jollyhrothgar)
अलग नज़रिए
- अगर कोई सरल approach सच में समस्या हल कर दे, तो उसे व्यावहारिक रूप से स्वीकार करना चाहिए (
u/AnarkittenSurprise)
- कई comments में कहा गया कि DS में शुरू से ही non-scientific तत्व मिले हुए थे, या यह सिर्फ नाम का science है (
u/TaiChuanDoAddct, u/Time-Combination4710, u/LighterningZ)
- AI tools का इस्तेमाल अपने-आप में समस्या नहीं है; उन्हें जिम्मेदारी से इस्तेमाल करने की क्षमता ज़्यादा महत्वपूर्ण है (
u/Dror_sim, u/ResearchMindless6419)
- “data है लेकिन logic नहीं”, और “statistics की समझ के बिना सिर्फ package चलाना” जैसी आलोचनाएँ भी आईं (
u/gyp_casino, u/tmotytmoty)
- कई लोगों ने कहा कि वास्तव में domain knowledge और mathematical thinking ही सबसे महत्वपूर्ण हैं, AI/coding सिर्फ tools हैं (
u/MightBeRong, u/Dror_sim)
व्यवस्था और शिक्षा की समस्या
- MSDS courses शैक्षणिक रूप से उपयोगी हो सकते हैं, लेकिन नौकरी से उनका सीधा संबंध अक्सर नहीं होता (
u/throwaway_ghost_122)
- शिक्षा का स्तर गिर रहा है, और सिर्फ degree पाने की मांग बढ़ने से पूरी industry की quality प्रभावित हो रही है (
u/Yam_Cheap)
- academia में भी unverified papers और सतही analysis बढ़ रहे हैं, यानी वहां भी यह समस्या नहीं टलती (
u/joule_3am, u/Mishtle)
अलग-अलग industries के अनुभव
- insurance और healthcare sectors में कड़े regulations के कारण अब भी validity checks और legal review की ज़रूरत पड़ती है (
u/Mishtle, u/mikka1)
- इसके उलट startup, sales, gaming, और कुछ manufacturing क्षेत्रों में तेज़ी और दिखावे पर ज़्यादा ज़ोर है (
u/Vercingetorex89, u/Brackens_World)
- public sector में भी ChatGPT adoption के कारण पुरानी validation systems कमजोर पड़ रही हैं (
u/TheFluffyEngineer, u/joule_3am)
मोहभंग और बाहर निकलने की सोच
- कई practitioners industry छोड़ने या academia में लौटने के बारे में सोच रहे हैं (
u/thro0away12, u/Emotional_Plane_3500, u/candidFIRE)
- वहीं कुछ लोगों का मानना है कि वास्तविक कौशल वाले लोगों के लिए यह अलग दिखने का मौका भी हो सकता है (
u/OddEditor2467, u/sideshowbob01)
व्यंग्य और थकान
- “आजकल सिर्फ
import pandas कर लो तो data scientist बन जाते हो” (u/vesnikos)
- probabilistic thinking और scientific validation की जगह boss को खुश रखने की संस्कृति हावी होती जा रही है (
u/tmotytmoty, u/WignerVille)
- कई लोगों की यथार्थवादी राय थी कि “पहले भी ऐसा था, अब भी है; corporate दुनिया में DS को science कहना हमेशा थोड़ा मुश्किल रहा है” (
u/TaiChuanDoAddct, u/LighterningZ)
निष्कर्ष
- यह पोस्ट और टिप्पणियाँ दिखाती हैं कि हाल के data science practice में scientific rigor और validation की तुलना में तेज़ delivery और AI marketing का दबाव ज़्यादा हावी है
- “Generative AI” का label तर्कसंगत आलोचना को रोक रहा है, और बिना validation वाला code सीधे deployment तक पहुँच रहा है, इसे लेकर गहरी चिंता है
- academia और industry दोनों ही परफेक्ट नहीं हैं, लेकिन अगर data science को सच अर्थों में ‘science’ बनाना है, तो community के भीतर critical thinking, education, और work culture पर गंभीर आत्ममंथन ज़रूरी है
2 टिप्पणियां
लिंक काम नहीं कर रहा है
https://reddit.com/r/datascience/…
धन्यवाद। मैंने इसे ठीक कर दिया है।