- यह धारणा मौजूद है कि deep learning मॉडलों में generalization की घटना पारंपरिक मॉडलों से अलग और रहस्यमय है
- overfitting, double descent, overparametrization आदि को अक्सर deep learning की विशिष्ट विशेषताओं के रूप में बताया जाता है
- लेकिन ये घटनाएँ केवल neural networks तक सीमित नहीं हैं, और इन्हें PAC-Bayes तथा countable hypothesis bounds जैसे पुराने generalization frameworks से समझाया जा सकता है
- "soft inductive biases" की अवधारणा इन generalization घटनाओं को समझाने का एक प्रमुख सिद्धांत है
Soft Inductive Biases
- पारंपरिक inductive bias, generalization performance बेहतर करने के लिए hypothesis space को सीमित करता है
- soft inductive bias, hypothesis space की flexibility बनाए रखते हुए कुछ विशेष solutions को प्राथमिकता देता है
- जैसे CNN में parameter sharing के जरिए locality और translation invariance बनाए रखी जाती है, उसी तरह कुछ गुणों के लिए soft regularization जोड़ी जाती है
- overparameterized models में भी generalization अच्छा होने का कारण soft inductive bias का काम करना है
Generalization Frameworks
PAC-Bayes और Countable Hypothesis Bounds
- PAC-Bayes, generalization risk को empirical risk और model compressibility के आधार पर समझाता है
- मॉडल बड़ा हो तब भी, अगर मॉडल सरल और compressible है, तो अच्छी generalization performance की गारंटी मिल सकती है
- सूत्र:
- expected risk ≤ empirical risk + compressibility से संबंधित पद
Effective Dimensionality
- effective dimensionality = मॉडल के loss function के Hessian के eigenvalues में बड़े मानों की संख्या
- effective dimensionality जितनी कम होगी, मॉडल उतना सरल होगा और उसकी generalization performance उतनी बेहतर होगी
अन्य Generalization Frameworks
- Rademacher complexity, VC dimension आदि deep learning की घटनाओं को अच्छी तरह नहीं समझा पाते
- PAC-Bayes और countable hypothesis bounds इन समस्याओं का समाधान दे सकते हैं
प्रमुख घटनाएँ
Benign Overfitting
- ऐसी घटना जिसमें मॉडल noise तक को पूरी तरह सीख लेता है, फिर भी उसकी generalization performance अच्छी रहती है
- साधारण linear models से भी benign overfitting को पुन: निर्मित किया जा सकता है
- इसे PAC-Bayes और countable hypothesis bounds से समझाया जा सकता है
Overparametrization
- parameters की संख्या data की संख्या से अधिक होने पर भी मॉडल की generalization performance उत्कृष्ट हो सकती है
- बड़े मॉडल training के बाद अधिक सरल संरचना में compress हो जाते हैं, इसलिए generalization अच्छा रहता है
Double Descent
- मॉडल की complexity बढ़ने पर loss पहले घटता है, फिर बढ़ता है, और उसके बाद फिर घटता है
- इसे linear models में भी पुन: निर्मित किया जा सकता है
- effective dimensionality और model compressibility से इसे समझाया जा सकता है
वैकल्पिक दृष्टिकोण
- deep learning का generalization रहस्यमय है, यह पारंपरिक दृष्टिकोण सीमित generalization frameworks पर निर्भर होने के कारण बना है
- PAC-Bayes और countable hypothesis bounds के जरिए इन generalization घटनाओं को समझाया जा सकता है
- deep learning का generalization रहस्यमय है, यह धारणा एक गलत पूर्वाग्रह हो सकती है
Deep Learning की विशिष्ट विशेषताएँ
Representation Learning
- neural networks में data की similarity सीखने की क्षमता होती है
- high-dimensional data में यह Euclidean distance से बेहतर similarity measure प्रदान कर सकता है
- high dimensions में interpolation और extrapolation के लिए यह लाभकारी है
Universal Learning
- deep learning models विभिन्न domains में लगातार अच्छा प्रदर्शन दिखाते हैं
- transfer learning और in-context learning में ये उत्कृष्ट प्रदर्शन करते हैं
Mode Connectivity
- अलग-अलग initializations से trained models को एक साधारण curve के along जोड़ा जा सकता है
- SWA(Stochastic Weight Averaging) जैसी training techniques में इसका उपयोग होता है
निष्कर्ष और आगे की दिशा
- benign overfitting, overparametrization, और double descent केवल neural networks तक सीमित घटनाएँ नहीं हैं
- इन्हें PAC-Bayes और countable hypothesis bounds से समझाया जा सकता है
- deep learning की अलग पहचान representation learning, universal learning, और mode connectivity जैसी विशेषताओं में है
- generalization performance, मॉडल की complexity से नहीं बल्कि उसकी compressibility और simplicity से उत्पन्न होती है
1 टिप्पणियां
Hacker News राय
अगर आपकी मशीन लर्निंग में रुचि है, तो Stanford का "Probability for computer scientists" कोर्स एक बेहतरीन संसाधन है
PAC-Bayes या VC theory की परंपरा की तुलना में algorithmic stability ज़्यादा भरोसेमंद व्याख्या देती है
अगर आप machine learning को समझना चाहते हैं, तो Josh Starmer की "The StatQuest Illustrated Guide to Machine Learning" की सिफारिश है
DNN में कोई विशेष generalization क्षमता नहीं होती
overfitting से बचने के लिए hypothesis space को सीमित करने के बजाय flexible hypothesis space को स्वीकार करना, और data से मेल खाने वाले सरल solutions को प्राथमिकता देना महत्वपूर्ण है
जब मैंने पहली बार deep learning में प्रवेश किया, तो universal approximation theorem का proof सीखना बहुत मददगार रहा
एक दिलचस्प उदाहरण जहाँ "deep" networks की ज़रूरत पड़ती है, हाल के RNN paper में चर्चा की गई है
text data इकट्ठा करके, शब्दों के बीच की दूरी को store करके prediction algorithm बनाने का एक विचार है
यह जानने की जिज्ञासा है कि किस बिंदु पर किसी चीज़ को 'AI' माना और regulate किया जाता है
artificial neuron मूल रूप से linear regression में activation function जोड़कर उसे nonlinear बनाना है