Deep Learning उतनी रहस्यमय या अलग नहीं है

(arxiv.org)

30 पॉइंट द्वारा GN⁺ 2025-03-18 | 1 टिप्पणियां | WhatsApp पर शेयर करें

यह धारणा मौजूद है कि deep learning मॉडलों में generalization की घटना पारंपरिक मॉडलों से अलग और रहस्यमय है
overfitting, double descent, overparametrization आदि को अक्सर deep learning की विशिष्ट विशेषताओं के रूप में बताया जाता है
लेकिन ये घटनाएँ केवल neural networks तक सीमित नहीं हैं, और इन्हें PAC-Bayes तथा countable hypothesis bounds जैसे पुराने generalization frameworks से समझाया जा सकता है
"soft inductive biases" की अवधारणा इन generalization घटनाओं को समझाने का एक प्रमुख सिद्धांत है

Soft Inductive Biases

पारंपरिक inductive bias, generalization performance बेहतर करने के लिए hypothesis space को सीमित करता है
soft inductive bias, hypothesis space की flexibility बनाए रखते हुए कुछ विशेष solutions को प्राथमिकता देता है
जैसे CNN में parameter sharing के जरिए locality और translation invariance बनाए रखी जाती है, उसी तरह कुछ गुणों के लिए soft regularization जोड़ी जाती है
overparameterized models में भी generalization अच्छा होने का कारण soft inductive bias का काम करना है

Generalization Frameworks

PAC-Bayes और Countable Hypothesis Bounds

PAC-Bayes, generalization risk को empirical risk और model compressibility के आधार पर समझाता है
मॉडल बड़ा हो तब भी, अगर मॉडल सरल और compressible है, तो अच्छी generalization performance की गारंटी मिल सकती है
सूत्र:
- expected risk ≤ empirical risk + compressibility से संबंधित पद

Effective Dimensionality

effective dimensionality = मॉडल के loss function के Hessian के eigenvalues में बड़े मानों की संख्या
effective dimensionality जितनी कम होगी, मॉडल उतना सरल होगा और उसकी generalization performance उतनी बेहतर होगी

अन्य Generalization Frameworks

Rademacher complexity, VC dimension आदि deep learning की घटनाओं को अच्छी तरह नहीं समझा पाते
PAC-Bayes और countable hypothesis bounds इन समस्याओं का समाधान दे सकते हैं

प्रमुख घटनाएँ

Benign Overfitting

ऐसी घटना जिसमें मॉडल noise तक को पूरी तरह सीख लेता है, फिर भी उसकी generalization performance अच्छी रहती है
साधारण linear models से भी benign overfitting को पुन: निर्मित किया जा सकता है
इसे PAC-Bayes और countable hypothesis bounds से समझाया जा सकता है

Overparametrization

parameters की संख्या data की संख्या से अधिक होने पर भी मॉडल की generalization performance उत्कृष्ट हो सकती है
बड़े मॉडल training के बाद अधिक सरल संरचना में compress हो जाते हैं, इसलिए generalization अच्छा रहता है

Double Descent

मॉडल की complexity बढ़ने पर loss पहले घटता है, फिर बढ़ता है, और उसके बाद फिर घटता है
इसे linear models में भी पुन: निर्मित किया जा सकता है
effective dimensionality और model compressibility से इसे समझाया जा सकता है

वैकल्पिक दृष्टिकोण

deep learning का generalization रहस्यमय है, यह पारंपरिक दृष्टिकोण सीमित generalization frameworks पर निर्भर होने के कारण बना है
PAC-Bayes और countable hypothesis bounds के जरिए इन generalization घटनाओं को समझाया जा सकता है
deep learning का generalization रहस्यमय है, यह धारणा एक गलत पूर्वाग्रह हो सकती है

Deep Learning की विशिष्ट विशेषताएँ

Representation Learning

neural networks में data की similarity सीखने की क्षमता होती है
high-dimensional data में यह Euclidean distance से बेहतर similarity measure प्रदान कर सकता है
high dimensions में interpolation और extrapolation के लिए यह लाभकारी है

Universal Learning

deep learning models विभिन्न domains में लगातार अच्छा प्रदर्शन दिखाते हैं
transfer learning और in-context learning में ये उत्कृष्ट प्रदर्शन करते हैं

Mode Connectivity

अलग-अलग initializations से trained models को एक साधारण curve के along जोड़ा जा सकता है
SWA(Stochastic Weight Averaging) जैसी training techniques में इसका उपयोग होता है

निष्कर्ष और आगे की दिशा

benign overfitting, overparametrization, और double descent केवल neural networks तक सीमित घटनाएँ नहीं हैं
इन्हें PAC-Bayes और countable hypothesis bounds से समझाया जा सकता है
deep learning की अलग पहचान representation learning, universal learning, और mode connectivity जैसी विशेषताओं में है
generalization performance, मॉडल की complexity से नहीं बल्कि उसकी compressibility और simplicity से उत्पन्न होती है

1 टिप्पणियां

GN⁺ 2025-03-18

Hacker News राय

अगर आपकी मशीन लर्निंग में रुचि है, तो Stanford का "Probability for computer scientists" कोर्स एक बेहतरीन संसाधन है
- यह कोर्स probability theory और machine learning की सैद्धांतिक बुनियाद को गहराई से कवर करता है
- Andrew Ng के lectures भी मशहूर हैं, लेकिन उनके लिए linear algebra की गणितीय समझ ज़रूरी है
- deep learning के लिए 3b1b का visual introduction उपयोगी है
PAC-Bayes या VC theory की परंपरा की तुलना में algorithmic stability ज़्यादा भरोसेमंद व्याख्या देती है
- संबंधित सामग्री arXiv के papers में देखी जा सकती है
अगर आप machine learning को समझना चाहते हैं, तो Josh Starmer की "The StatQuest Illustrated Guide to Machine Learning" की सिफारिश है
- वे जटिल विचारों को साफ़ और संक्षिप्त ढंग से समझाने वाले उत्कृष्ट शिक्षक हैं
- यह बच्चों की किताब जैसे फ़ॉर्मैट में है, इसलिए पढ़ना और समझना आसान है
- neural networks पर उनकी हाल में प्रकाशित किताब भी अनुशंसित है
DNN में कोई विशेष generalization क्षमता नहीं होती
- बल्कि SVM जैसी गणितीय रूप से principled techniques की तुलना में इसकी generalization कमजोर हो सकती है
- UCI Machine Learning Repository के "Wine Quality" dataset पर DNN को train करने पर खराब नतीजे और overfitting देखने को मिलती है
- LLM का "जादू" उसके training paradigm से आता है
- विशाल datasets का इस्तेमाल करके बिना overfitting के बहुत बड़े models का उपयोग किया जा सकता है
- 10 साल पहले "reusability" का सिद्धांत इतना स्पष्ट नहीं था
overfitting से बचने के लिए hypothesis space को सीमित करने के बजाय flexible hypothesis space को स्वीकार करना, और data से मेल खाने वाले सरल solutions को प्राथमिकता देना महत्वपूर्ण है
- सवाल यह है कि deep learning यह काम कैसे करती है
- पहले likelihood-based approach का उपयोग होता था जिसमें penalty दी जाती थी
- deep learning में complexity को penalize करने का तरीका अधिक जटिल और कम सहज लगता था
जब मैंने पहली बार deep learning में प्रवेश किया, तो universal approximation theorem का proof सीखना बहुत मददगार रहा
- अगर आप समझ लें कि neural networks functions को approximate क्यों कर सकते हैं, तो उसके ऊपर बनी बाकी चीज़ों को समझना आसान हो जाता है
एक दिलचस्प उदाहरण जहाँ "deep" networks की ज़रूरत पड़ती है, हाल के RNN paper में चर्चा की गई है
- minGRU और minLSTM models state dependency को स्पष्ट रूप से model नहीं करते, लेकिन पर्याप्त depth होने पर उसे सीख सकते हैं
text data इकट्ठा करके, शब्दों के बीच की दूरी को store करके prediction algorithm बनाने का एक विचार है
- यह तरीका GPT 2 के कितना करीब है, यह जानने की जिज्ञासा है
यह जानने की जिज्ञासा है कि किस बिंदु पर किसी चीज़ को 'AI' माना और regulate किया जाता है
artificial neuron मूल रूप से linear regression में activation function जोड़कर उसे nonlinear बनाना है
- इन्हें network के रूप में जोड़ने पर दिलचस्प परिणाम सामने आते हैं

Deep Learning उतनी रहस्यमय या अलग नहीं है

Soft Inductive Biases

Generalization Frameworks

PAC-Bayes और Countable Hypothesis Bounds

Effective Dimensionality

अन्य Generalization Frameworks

प्रमुख घटनाएँ

Benign Overfitting

Overparametrization

Double Descent

वैकल्पिक दृष्टिकोण

Deep Learning की विशिष्ट विशेषताएँ

Representation Learning

Universal Learning

Mode Connectivity

निष्कर्ष और आगे की दिशा

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय