Bayesian सांख्यिकी: तीन संस्कृतियाँ

(statmodeling.stat.columbia.edu)

1 पॉइंट द्वारा GN⁺ 2024-07-28 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Bayesian सांख्यिकी पर बहस सिर्फ़ prior distribution की समस्या नहीं है, बल्कि यह इस बात के अंतर तक जाती है कि subjective, objective, और pragmatic Bayes मॉडल और समीक्षा प्रक्रिया को कैसे देखते हैं
subjective Bayes, data-generating distribution मानकर, parameters के बारे में पूर्व विश्वास को prior distribution में encode करता है और फिर posterior inference की ओर बढ़ता है — यह पारंपरिक तरीका है
objective Bayes मानता है कि inference केवल मान लिए गए मॉडल और data पर निर्भर होना चाहिए, और prior distribution सूचना-सैद्धांतिक अर्थ में सबसे कम informative होना चाहिए
pragmatic Bayes, observed और unobserved quantities का joint probability model बनाता है, data पर condition करता है, फिर model fit और निष्कर्षों की समीक्षा करता है, और ज़रूरत पड़ने पर इसे दोहराता है
यह पुनरावृत्त प्रक्रिया engineering के iterative design और machine learning के सामान्य काम करने के तरीके के अधिक करीब है, इसलिए Bayesian analysis को एक स्थिर दर्शन से अधिक एक वास्तविक modeling workflow के रूप में देखा जाता है

तीन Bayes संस्कृतियों का भेद

subjective Bayes पहले data-generating distribution मानता है, यानी parameter का function मानें तो likelihood
इस मान्यता के तहत parameters के बारे में पहले से मौजूद विश्वास को prior distribution के रूप में व्यक्त करता है
इसके बाद posterior inference किया जाता है और आम तौर पर वापस लौटकर पुनर्विचार नहीं किया जाता
इस दर्शन का सख्ती से पालन करने वाला कोई व्यक्ति वास्तव में था या नहीं, और आज कोई स्वयं को subjective Bayesian कहेगा भी या नहीं, यह अनिश्चित है

objective Bayes की प्रेरणा और reference prior

objective Bayes को hypothesis testing, खासकर Bayes factor का उपयोग करने की इच्छा, और “Bayesian cringe” के मेल से निकला दर्शन माना जा सकता है
Berger, Bernardo, Sun का 2009 reference prior पेपर कहता है कि reference analysis, objective Bayesian inference बनाता है
- inference कथन केवल मान लिए गए मॉडल और उपलब्ध data पर निर्भर होने चाहिए
- प्रयुक्त prior distribution किसी विशेष information-theoretic अर्थ में सबसे कम informative होना चाहिए
यह धारा आज भी conferences और “objective Bayes” शीर्षक वाली किताबों के ज़रिए जारी है
BUGS उदाहरणों में इस्तेमाल हुए विस्तृत gamma(epsilon, epsilon) और normal(0, 10_000) prior distributions भी कुछ हद तक इसी प्रवाह के पीछे हैं

pragmatic Bayes और BDA के तीन चरण

Andrew Gelman के approach को pragmatic Bayes कहा जा सकता है
Gelman, Carlin, Stern, Rubin की Bayesian Data Analysis के पहले संस्करण ने Bayesian data analysis की प्रक्रिया को तीन चरणों में आदर्शीकृत किया
- observed और unobserved quantities सभी के लिए एक पूर्ण probability model, यानी joint probability distribution स्थापित करना
- observed data पर condition करके रुचिकर unobserved quantities की posterior distribution की गणना और व्याख्या करना
- model fit, posterior distribution से निकलने वाले निष्कर्षों की वैधता, और modeling assumptions के प्रति sensitivity का मूल्यांकन करना
अगर समस्या मिले तो मॉडल को बदलकर या विस्तारित करके वही तीन चरण फिर दोहराए जाते हैं
यहाँ probability model में prior distribution और likelihood दोनों शामिल होते हैं, यानी यह एक joint model है
input को “belief” की बजाय “knowledge” के रूप में व्यक्त किया जाता है
मॉडल data पर कितना फिट बैठता है और prediction परिणाम कैसे हैं, इसका मूल्यांकन करना, और समस्या होने पर फिर से कोशिश करना — यही प्रक्रिया बाद में “workflow” कहलाने लगी

engineering और machine learning में परिचित iterative design

यह तरीका engineering में iterative design कहलाने वाली मानक operating procedure जैसा है
लगभग सारी machine learning भी इसी तरह की जाती है
computer science और machine learning पृष्ठभूमि से देखने पर यह चौंकाने वाली बात है कि statisticians हमेशा से इस तरह नहीं सोचते थे

BDA की रणनीति और दार्शनिक बहस से बचाव

Andrew Gelman ने BDA का पहला संस्करण लिखते समय दर्शन पर लंबी चर्चा करने के बजाय विज्ञान को वास्तव में “करने” वाले पक्ष को चुना
Gelman और Rubin ने अपनी iterative design प्रक्रिया को कोई अलग नाम नहीं दिया
दूसरे लोगों के दार्शनिक विश्वासों को सही-सही परिभाषित करना कठिन है, और बहस से उन्हें बदलना उससे भी कठिन, इसलिए यह चुनाव समझदारी भरा लगता है
“show, don’t tell” की तरह, यह दर्शन-बहस की जगह वास्तविक modeling और विज्ञान के अभ्यास के जरिए पद्धति दिखाने का दृष्टिकोण है

prior distribution और likelihood को साथ देखना चाहिए

चर्चा का एक हिस्सा prior distribution के बारे में है, लेकिन prior distribution का चुनाव, likelihood के चुनाव से न तो अधिक subjective है, न कम
Andrew Gelman की पोस्ट “Straining on the gnat of the prior distribution while swallowing the camel that is the likelihood” इस दृष्टिकोण का सार देती है
दार्शनिक रूप से prior distribution और likelihood को “belief” की बजाय knowledge जैसी epistemic भाषा में देखना अधिक पसंद किया जाता है
यह framing पहले Laplace ने दी थी, John Stuart Mill ने इसे और गहराई से परखा, और Gelman आदि ने भी BDA में इसका अनुसरण किया

शीर्षक की वंशावली और Breiman की two cultures

1959 में C.P. Snow ने कला और विज्ञान के विरोध पर “The two cultures” लिखा
2001 में L. Breiman ने प्रभावशाली लेख “Statistical modeling: the two cultures” लिखा
Breiman का भेद उस तरीके के बीच था जो generating process को स्पष्ट रूप से model करता है, और उस तरीके के बीच जो machine learning की भाषा में high-capacity models जैसे बहुत लचीले मॉडल इस्तेमाल करता है
Breiman ने अपने शोध में decision forests का समर्थन किया था, और Kaggle प्रतियोगिताओं में, जहाँ नवीनतम neural networks को ठीक से फिट करने लायक data पर्याप्त नहीं होता, यह approach अब भी जीतती है
लेख का समापन इस प्रश्न से होता है कि क्या decision forests और neural networks, Andrew के शब्दों में, “unfolding flower” वाले उदाहरण में आते हैं

1 टिप्पणियां

GN⁺ 2024-07-28

Hacker News की राय

लेखक Bayesian दृष्टिकोण को दो अक्षों में बाँटता है: (1) दुनिया के बारे में ज्ञान या विश्वास के आधार पर prior distribution को कितना informative रखा जाता है, (2) fit और output की वैधता·उपयोगिता देखकर model के functional form को बार-बार बदला जाता है या नहीं
इन संयोजनों में से 3 को informative+iterative=pragmatic, informative+non-iterative=subjective, non-informative+non-iterative=objective कहा गया है, लेकिन non-informative+iterative वाला खाँचा खाली होना ही सबसे कम स्वीकार्य लगता है
इंडस्ट्री में खुद को Bayesian कहने वाले ज़्यादातर लोग मेरी नज़र में इसी खाँचे में आते हैं. Model का functional form, यानी मान लिया गया data-generating process, को बार-बार बेहतर बनाना स्वाभाविक रूप से अच्छा और ज़रूरी है, और कई बार data इतना बड़ा होता है कि वह prior distribution पर भारी पड़ जाता है, इसलिए prior आमतौर पर non-informative या weakly informative होता है
इसलिए पूरा non-iterative कॉलम ही strawman जैसा लगता है, लेकिन लेखक साफ़ लिखता है कि वह भी पहले ऐसा ही सोचता था, फिर “यह जानकर चौंक गया कि statisticians ऐसा नहीं सोचते”
- non-iterative दृष्टिकोण सचमुच मौजूद है, और वह हमेशा बुरी वजहों से ही नहीं होता. Model को बार-बार बेहतर बनाना किसी भी मानक से उसे बेहतर बनाने के लिए होता है, लेकिन scientific research में significance thresholds और positive results के इर्द-गिर्द विकृत incentives बहुत मज़बूती से काम करते हैं
  “garden of forking paths” की तरह data के अनुसार analysis बदलने वाली स्थिति आज के विज्ञान के statistical और epistemological संकट का सीधा कारण भी मानी जा सकती है. Iteration अपने-आप में बुरी नहीं है, लेकिन जिस objective function को optimize किया जाता है, वह अक्सर वैज्ञानिक रूप से वांछित चीज़ से अलग होता है
  वास्तविक वैज्ञानिक शोधकर्ताओं को model को बार-बार adjust करना किसी तरह की बेईमानी जैसा महसूस हो सकता है, और यह कई क्षेत्रों में जम चुकी उस दोषपूर्ण epistemology से भी गहराई से जुड़ा दिखता है, यानी p<0.05 तो सच, नहीं तो झूठ
  दूसरे शब्दों में, analyst के नियंत्रण में मौजूद degrees of freedom ही असहजता का मूल हो सकती हैं. Bayesian संदर्भ में belief या पुराने data के आधार on prior distribution चुनने से analyst के पास नतीजे कैसे आएँगे इस पर बहुत बड़ा नियंत्रण आ जाता है
  इसलिए कई क्षेत्र अच्छे statistical models बनाने के बजाय ‘standard’ tests के सेट की ओर झुक गए. ये tests ज़्यादातर adjustment knobs analyst के हाथ से छीन लेते हैं और आम तौर पर ज़्यादा conservative तरीके से काम करते हैं
- मैं Bayesian पक्ष को बहुत गहराई से नहीं जानता, लेकिन जिज्ञासा है कि Bayesian nonparametric methods क्या “non-informative + iterative” दृष्टिकोण में आते हैं
  हो सकता है मैं पूरी तरह गलत दिशा में देख रहा हूँ, लेकिन समझ नहीं पा रहा कि मेरी सोच या समझ कहाँ चूक रही है
- दिलचस्प बात यह है कि मेरे अनुभव में आधुनिक machine learning लगभग पूरी तरह pragmatic Bayesian तरीके से चलती है. ELBO ढूँढा जाता है, समस्या क्षेत्र को सबसे अच्छी तरह model करने वाले नए latent-variable trend को चुना जाता है, और आजकल आम तौर पर Transformer इस्तेमाल करके experiments शुरू कर दिए जाते हैं
यूनिवर्सिटी के दिनों में professors को Bayesian बनाम frequentist पर अंतहीन बहस करते देखना याद आता है
यह लेख बहुत संक्षिप्त है, फिर भी समझाता है कि Bayesian professors आपस में भी research और analysis के approach में अलग क्यों थे. मुझे तीसरे खेमे, यानी pragmatic Bayesian, के बारे में पता नहीं था, लेकिन यह निश्चित रूप से उस professor के शोध से मेल खाता है जो prior distribution और joint probability density function को ठीक से फिट करने के लिए probabilistic fitting और बहुत सारी iteration बेहद गंभीरता से करते थे
Andrew Gelman का “Andrew Gelman - Bayes, statistics, and reproducibility (Rutgers, Foundations of Probability)” व्याख्यान भी data scientists के लिए ज़ोरदार सिफारिश है
- व्याख्यान लिंक: https://youtu.be/xgUBdi2wcDI
- frequentist बनाम Bayesian बहस पर थोड़ा उकसाने वाले अंदाज़ में कहूँ तो, ये तीन संस्कृतियाँ कुछ ऐसी दिखती हैं
  subjective Bayesian वह strawman है जिस पर frequentist academia हमला करना पसंद करती है, objective Bayesian वह भोली आत्म-छवि है जो कई Bayesian scholars रखते हैं, और pragmatic Bayesian वह approach है जिसे statistics को किसी वास्तविक चीज़ पर लागू करने वाले practitioners, या Gelman की भाषा में कहें तो science करने वाले लोग, अपनाते हैं
- हाल में मैंने Fiducial Statistics को भी तीसरे खेमे के रूप में सुना है. Harvard Business Review के editor-in-chief वाले Super Data Science podcast का episode 581 काफ़ी दिलचस्प था
- जिस देश से मैं आता हूँ वहाँ frequentist approach काफ़ी हद तक हावी है, लेकिन Bayesian के साथ कोई असली लड़ाई नहीं है, इसलिए यह मुझे हमेशा अजीब लगता है. आखिर यह बस गणितीय सिद्धांतों और tools का एक set है, जो उपयोगी हो उसे इस्तेमाल करो
  अब भी मुझे लगता है कि Americans में frequentist नज़रिये के प्रति नापसंदगी शायद इसलिए ज़्यादा है क्योंकि वह ज़्यादा मज़बूत mathematical background माँगता है
यह माहौल कि आपको तय करना चाहिए कि आप किस “club” में हैं, किस “side” पर हैं, मुझे हमेशा नापसंद रहा है. यह विचार भी पसंद नहीं कि आज के विज्ञान की समस्याओं को किसी inference philosophy को अपनाने तक सीमित किया जा सकता है
कई मायनों में मैं information-theoretic दिशा के क़रीब हूँ, और अगर ज़बरदस्ती कहें तो objective Bayesian हो सकता हूँ, लेकिन वास्तव में न frequentist हूँ न Bayesian
यह “three cultures” वाला विभाजन थोड़ा hand-waving जैसा लगता है. “pragmatic” संस्कृति subjective और objective Bayesian से परस्पर विरोधी नहीं है, इसलिए यह इस बारे में ज़्यादा नहीं बताती कि prior distribution को कैसे specify या interpret करना चाहिए
Gelman शायद कहें कि बेहतर शब्द “flexibility” जैसा कुछ होगा, लेकिन तब भी सवाल बचता है कि कब objective होना है, कब subjective, और क्यों. उसे formalize करना, उसे धुँध की तरह छोड़ देने से बेहतर लगता है
और devil’s advocate बनकर कहूँ तो, “pragmatic” संस्कृति यह भी दिखाती है कि Bayesian दृष्टिकोण संदेहास्पद क्यों लग सकता है. “prior distribution चुनो”, “देखो कितना अच्छा fit बैठता है”, “फिर iterate करो” — यह क्रम model fine-tuning या p-hacking जैसा लग सकता है
मैं जानता हूँ कि मंशा वह नहीं है, और यह भी कि fine-tuning के बिना modeling नहीं की जा सकती, लेकिन इस तरह देखने पर prior नतीजों को हल्का-सा धकेलकर निकालने के लिए एक और degree of freedom जैसा दिखता है
मैंने Bayesian inference पर papers लिखे और edit भी किए हैं, और समस्या कभी मज़बूत theory में नहीं रही. समस्या इस बात में है कि लोग इसे व्यवहार में कैसे इस्तेमाल और दुरुपयोग करते हैं
अगर आप आधुनिक frequentist methods पर एक सही नज़रिया पाना चाहते हैं, तो Yudi Pawitawn की “In All Likelihood” की सिफारिश की जाती है
शुरुआती अध्यायों में frequentist और Bayesian paradigm के बीच का अंतर, खासकर अच्छी तरह डिज़ाइन किए गए frequentist या likelihood-based model की ताकत, काफ़ी सुरुचिपूर्ण ढंग से समझाई गई है
कुछ अपवादों को छोड़ दें, तो अगर Bayesian वास्तव में non-informative prior का इस्तेमाल कर रहा है, तो उसी analyst को Bayesian model इस्तेमाल करने पर भी और frequentist model इस्तेमाल करने पर भी एक ही उत्तर मिलना चाहिए। मेरे काम के क्षेत्र में तो मैं यह भी कहूँगा कि Bayesian methods इस्तेमाल करने वाले 99% शोधकर्ता non-informative prior का उपयोग करते हैं, इसलिए कभी-कभी लगता है कि कहीं Bayesian का इस्तेमाल सिर्फ़ स्मार्ट दिखने और peer review आसानी से पार करने के लिए तो नहीं हो रहा
जटिल models, जैसे सैकड़ों या हज़ारों parameters वाले models में, किसी खास dataset के संदर्भ में prior वास्तव में non-informative है या नहीं, यह जानना बेहद कठिन हो सकता है। Model run होने का इंतज़ार करना पड़ता है, और अगर prior को व्यवस्थित रूप से बदला जाए, तो high-performance computing resources के साथ भी इसमें बहुत समय लग सकता है
और Bayesian setting में, जिस model को frequentist approach में positive definite न होने वाले Hessian की वजह से फेल होकर यह निदान मिलता कि “model शायद गलत है या dataset की तुलना में बहुत जटिल है”, उसे एक या कई priors की वजह से संयोग से चलवा देना आसान हो सकता है
ऐसे complexity वाले models का मज़ाक उड़ाया जा सकता है, लेकिन कई applied settings में यही वास्तविकता है। उदाहरण के लिए “large n” समस्या का सामना करने वाले spatiotemporal models, या resource status और sustainability की जानकारी देने वाले integrated fisheries assessment models
इसलिए, भले ही मैं graduate level पर Bayesian inference पढ़ाता हूँ, Bayesian statistics को लेकर मेरी मुख्य शिकायत यह है कि इसका दुरुपयोग non-statisticians और beginners बहुत आसानी से कर सकते हैं। खासकर अब, जब biologists जैसे non-statisticians के लिए भी बहुत flexible software उपलब्ध है
कुल मिलाकर, Gelman का यह दावा कि दोनों paradigms subjective हैं, और आखिर तक turtles all the way down यानी subjectivity पर ही टिके हैं, सटीक है और उससे मैं काफ़ी सहमत हूँ
- “In All Likelihood” की सिफारिश से सहमत हूँ, लेकिन यह भी कहना चाहिए कि वह किताब subjective probability या objective probability, किसी पर भी निर्भर न रहने वाले तीसरे approach की व्याख्या करती है
- अगर समस्या यह है कि non-statisticians और beginners Bayesian statistics का आसानी से दुरुपयोग कर सकते हैं, तो क्या frequentist statistics के साथ ऐसा नहीं है? :-)
मेरे विचार से प्रायिकता ठीक से परिभाषित नहीं है और यह एक ऐसा विचार है जिसे खंडित नहीं किया जा सकता। फिर भी अनुभवजन्य रूप से यह दुनिया के कुछ पहलुओं को काफ़ी अच्छी तरह मॉडल करती हुई लगती है। लेकिन क्या यह हमें गुमराह भी कर सकती है?
p(X)=0.5, यानी घटना X की प्रायिकता 0.5 है — इस कथन का वास्तव में क्या अर्थ है? क्या यह एक प्रतिज्ञप्ति है? अगर है, तो क्या इसे खंडित किया जा सकता है, और कैसे?
अगर यह प्रतिज्ञप्ति नहीं है, तो इसका अर्थ क्या है? यदि अधिक सैद्धांतिक रूप से मज़बूत पृष्ठभूमि वाला कोई व्यक्ति समझाए तो आभारी रहूँगा। कहने को और भी बहुत कुछ है, लेकिन पहले मैं कठोर पृष्ठभूमि वाले लोगों के उत्तर सुनना चाहता हूँ
- गणितीय सिद्धांत के रूप में प्रायिकता अच्छी तरह परिभाषित है। प्रायिकता, अधिक व्यापक विषय measure theory का एक अनुप्रयोग है, और measure theory ही calculus की सैद्धांतिक नींव भी देती है
  हर प्रायिकता तीन चीज़ों से परिभाषित होती है: एक समुच्चय, उस समुच्चय के उपसमुच्चयों का एक समुच्चय — सरल शब्दों में, चीज़ों को समूहित करने का तरीका — और एक फलन जो उन उपसमुच्चयों को 0 और 1 के बीच की संख्याओं पर मैप करता है। मान्य होने के लिए, उन उपसमुच्चयों के समुच्चय को, जिन्हें घटनाएँ भी कहा जाता है, अतिरिक्त नियमों को पूरा करना होता है
  p(X)=0.5 जैसे उदाहरण का मतलब बस इतना है कि कोई फलन X नामक किसी उपसमुच्चय को 0.5 का मान देता है
  यह वास्तविक दुनिया की modeling के लिए उपयोगी क्यों लगता है, इसका कारण इस सिद्धांत की उत्पत्ति में है। यह शून्य से पैदा नहीं हुआ; इसे वास्तविक दुनिया की यादृच्छिक दिखने वाली घटनाओं को औपचारिक रूप देने के लिए बनाया गया था
- व्यक्तिगत रूप से मैं इस निष्कर्ष पर पहुँचा हूँ कि प्रायिकता केवल उन्हीं स्थितियों में अच्छी तरह परिभाषित और परीक्षण योग्य अवधारणा है जहाँ किसी विशेष सटीक symmetry से तर्क किया जा सकता है
  सिक्का उछालना, chance games, और statistical physics की कई समस्याएँ इसमें आती हैं। इसके विपरीत, वास्तविक दुनिया में inference, prediction, और estimation में प्रायिकता व्यक्तिपरक होती है, और statisticians, Bayesians सहित, जितना सोचते हैं उससे कहीं कम मात्रात्मक की जा सकती है
  क्या प्रायिकता हमें गुमराह कर सकती है? मेरे हिसाब से हाँ। जो भी विज्ञान statistical hypothesis testing पर अपने मुख्य अनुभवजन्य तरीक़े के रूप में निर्भर करता है, वह मूलतः एक विशाल कचरे के ढेर के क़रीब है, और reproducibility crisis तो सिर्फ़ हिमशैल का सिरा भर है — ऐसा मुझे बढ़ते हुए लगता है। इसमें economics, social psychology, medicine का बड़ा हिस्सा, data science आदि शामिल हैं
  p(X)=0.5 जैसे कथन को मैं अधिकांश मामलों में खंडित न की जा सकने वाली प्रतिज्ञप्ति मानता हूँ। सिक्का उछालने जैसे मामलों में भी, जहाँ सस्ते में बहुत सारे प्रयोग किए जा सकते हैं, दस लाख बार चलाने पर भी आप गणितीय प्रायिकता को लगभग 1% precision तक ही “verify” कर पाते हैं। precision science के मानकों से यह बहुत ख़राब है, और यदि assumptions कम मज़बूत हों, sample space अधिक जटिल हो, या reproduction की लागत अधिक हो, तो स्थिति और भी बदतर होती है
- प्रायिकता एक अकेली अवधारणा नहीं, बल्कि संबंधित अवधारणाओं का एक परिवार है। subjective Bayesianism में epistemic probability, frequentist probability से अलग अवधारणा है, हालांकि कुछ अर्थों में उससे जुड़ी हुई है
  यदि आप एक-दूसरे से असंगत परिभाषाओं को एक साथ मिला देंगे, तो यह “अस्पष्ट परिभाषा वाली और खंडित न की जा सकने वाली अवधारणा” जैसी लगे, इसमें आश्चर्य नहीं
  subjective Bayesian दृष्टिकोण से p(X) वह मान है जो मेरे या किसी विशिष्ट व्यक्ति के उस विश्वास की मात्रा को दर्शाता है कि कोई प्रतिज्ञप्ति सत्य है; या उसके पक्ष-विपक्ष के प्रमाण के भार का आकलन; या सत्य/असत्य के बारे में मेरे ज्ञान की मात्रा
  0.5 का अर्थ है कि किसी भी तरफ़ निश्चितता नहीं है, किसी भी तरफ़ प्रमाण नहीं है या दोनों तरफ़ के प्रमाण पूरी तरह एक-दूसरे को काट देते हैं, और उस प्रतिज्ञप्ति के सत्य होने के बारे में कोई ज्ञान नहीं है
  यह उसी अर्थ में एक प्रतिज्ञप्ति है जिस अर्थ में “पोप मानते हैं कि ईश्वर मौजूद है” एक प्रतिज्ञप्ति है। ईश्वर वास्तव में मौजूद हों या न हों, यह कि पोप ऐसा मानते हैं, बहुत सम्भवतः सत्य है
  इसलिए मेरे विश्वास के बारे में दावा मेरे आत्म-निरीक्षण से आसानी से खंडित किया जा सकता है, और किसी दूसरे व्यक्ति के विश्वास के बारे में दावा भी उससे पूछा जा सकता है, और यदि वह उत्तर देने को तैयार हो तथा झूठ बोलने का कारण न हो, तो उसे भी खंडित किया जा सकता है
- यह सही है कि p(X=x)=a जैसे विशिष्ट दावे सामान्यतः खंडित नहीं किए जा सकते। लेकिन संपूर्ण फलनों p की आपस में तुलना की जा सकती है, और कहा जा सकता है कि कौन-सा डेटा पर बेहतर फिट बैठता है
  उदाहरण के लिए, मान लें Nate Silver और Andrew Gelman नवंबर के चुनाव में सभी race results के लिए अपनी-अपनी प्रायिकताएँ प्रकाशित करते हैं। चुनाव परिणाम आने के बाद यह नहीं कहा जा सकता कि किसी एक व्यक्तिगत प्रायिकता का दावा सही था या ग़लत, लेकिन यह कहा जा सकता है कि कौन अधिक सटीक था
- यदि 1000 coin tosses के परिणाम 99% heads और 1% tails हों, और आपको पूरा भरोसा हो कि हर toss में वही प्रक्रिया इस्तेमाल हुई, तथा आपको tails पर 50% odds के साथ दाँव लगाने का मौका मिले, तो क्या आप दाँव लगाएंगे?
  यह P(X)=0.5 को अस्वीकार करने वाला एक व्यावहारिक उत्तर है। और फिर आप इस व्यावहारिक निर्णय को किसी सिद्धांत के माध्यम से समझने की कोशिश कर सकते हैं। साथ ही, बिल्कुल 0.5 होना लगभग असंभव है, इसलिए यह देखना अधिक सार्थक है कि क्या यह (0.49, 0.51) जैसे interval में आता है
  central limit theorem कहता है कि यदि आप independent trials करते हैं, तो X की प्रायिकता प्राप्त की जा सकती है, और limit में X के घटित होने की औसत संख्या p(X) के क़रीब पहुँचती है
  लेकिन ‘limit’ का अर्थ अनंत बार परीक्षण है, इसलिए कोई भी प्रारंभिक अनुक्रम अपने आप उस limit को निर्धारित नहीं करता। किसी बड़े N को चुनकर औसत लेना पड़ता है
  पर क्या यह सिर्फ़ प्रायिकता के लिए ही विशिष्ट है? दुनिया के बारे में “स्थान G पर एक पेड़ है” जैसे कथन भी होते हैं, और उन्हें जाँचने की प्रक्रियाएँ भी होती हैं — जैसे “G पर जाओ और पेड़ ढूँढो”। क्या आप कह सकते हैं कि वह प्रक्रिया अनिवार्य रूप से कथन का सत्य या असत्य तय कर देगी? हमेशा कुछ बाधाएँ हो सकती हैं, जैसे “पेड़ जैसा दिखने वाला भ्रम”। उन सभी बाधाओं को हटाने के लिए आपको एक idealized observation process माननी पड़ती है
  प्रायिकता के verification में जो idealization काम करती है, वह अनंत स्वतंत्र अवलोकन हैं, और वही p(X) देती है
  मेरा उद्देश्य frequentism का बचाव करना नहीं है; बस इतना कहना है कि observational process के idealization की आवश्यकता को कोई असाध्य बाधा नहीं मानना चाहिए। हाँ, यदि quantum mechanics में position और momentum के simultaneous observation जैसी कोई सैद्धांतिक बाधा हो, तो शायद प्रायिकता की अवधारणा को छोड़ना पड़े
यह याद रखना चाहिए कि Breiman का विवादास्पद लेख generative methods बनाम discriminative methods के बारे में था। यानी विश्लेषण की शुरुआत इस बात से नहीं होनी चाहिए कि data generation को कैसे मॉडल किया जा सकता है, बल्कि prediction से होनी चाहिए
उसी धारा से boosting trees, bagging, random forests, XGBoost जैसी non-generative black-box methods आईं
आज भी classical machine learning के अधिकांश tools generative नहीं हैं
Bayesian statistics की अच्छी बात यह है कि यह व्यक्तिपरक है। इसके लिए ज़रूरी नहीं कि आप व्यक्तिपरकता वाले किसी विशेष स्कूल से हों; आप अपने subjective judgment के अनुसार interpretation चुन सकते हैं
मैं इसे Bayesianism की ताकत मानता हूँ। किसी भी statistical task में किसी न किसी व्यक्ति का subjective judgment घुसा होता है। इस न बदलने वाले तथ्य से बचने की कोशिश न करना ही शायद ज़्यादा objective है
- कौन-सा approach उपयुक्त है, यह काफी हद तक इस बात पर निर्भर करता है कि आप क्या मॉडल कर रहे हैं और उससे जुड़ी errors के consequences क्या हैं
Bayesian hacking: अपने शोध के लिए सबसे बड़ी significance देने वाली पुनरावृत्ति ढूँढना
Deep learning कहाँ फिट होता है?
- लेखक द्वारा उल्लेखित practitioners के बीच साझा implicit belief यह है कि वे किसी underlying “data generating process” के अनुरूप मॉडल बनाने की कोशिश करते हैं
  machine learning practitioners Bayesian statisticians जैसे मॉडल, यहाँ तक कि वही मॉडल भी इस्तेमाल कर सकते हैं, लेकिन डेटा उन मानों को क्यों लेता है इस बारे में intuition की तुलना में prediction performance को केंद्र में रखकर, या पूरी तरह उसी आधार पर, मॉडल का मूल्यांकन करने की प्रवृत्ति रखते हैं
  इस लेख के शीर्षक में संदर्भित Breiman का क्लासिक पेपर “Two Cultures” देखें: https://projecteuclid.org/journals/statistical-science/volum...
- अधिकांश मॉडल शास्त्रीय probability theory, frequentist·Bayesian statistics, और computer science की कई बुनियादी बातों के मिश्रण, यानी machine learning principles से निकले हैं
  फिर भी Bayesian inference और Bayesian deep learning में भी प्रगति हुई है, इसलिए PyTorch के ऊपर बने Pyro जैसे framework पर किए गए काम को देखना उपयोगी होगा
- ऊँचे स्तर पर देखें तो Bayesian statistics और deep learning का साझा लक्ष्य model parameters को fit करना है
  खासकर variational inference ऐसी तकनीकों का एक परिवार है जो इस तरह की समस्याओं को computationally tractable बनाता है. यह variational autoencoders से लेकर time-series state-space modeling और reinforcement learning तक हर जगह दिखाई देता है
  और सीखना हो तो Murphy की machine learning textbook की सिफारिश है: https://probml.github.io/pml-book/book2.html
- deep neural networks बहुत जटिल data models भर हैं, और उनके parameter estimation तथा नए डेटा पर prediction को आप कैसे संभालते हैं, यही तय करता है कि दृष्टिकोण Bayesian है या frequentist
  Bayesian पक्ष parameters पर distribution assign करता है, फिर डेटा पर condition करके posterior distribution प्राप्त करता है, और इसके आधार पर नए डेटा के लिए posterior predictive distribution पाता है
  दूसरी ओर frequentist parameters को fixed quantity मानता है और केवल likelihood से उनका estimation करता है. उदाहरण के लिए maximum likelihood का उपयोग करता है, और regularization जैसी तरकीबें भी अपना सकता है, जिन्हें Bayesian interpretation भी दिया जा सकता है
- https://en.wikipedia.org/wiki/Statistical_learning_theory

Bayesian सांख्यिकी: तीन संस्कृतियाँ

तीन Bayes संस्कृतियों का भेद

objective Bayes की प्रेरणा और reference prior

pragmatic Bayes और BDA के तीन चरण

engineering और machine learning में परिचित iterative design

BDA की रणनीति और दार्शनिक बहस से बचाव

prior distribution और likelihood को साथ देखना चाहिए

शीर्षक की वंशावली और Breiman की two cultures

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय