Deep Learning का वैज्ञानिक सिद्धांत उभरेगा
(arxiv.org)- डीप लर्निंग सीखने की प्रक्रिया की mechanics न्यूरल नेटवर्क ट्रेनिंग को parameter, data, task और learning rule की परस्पर क्रिया से बनने वाली dynamics के रूप में देखता है, और एक एकीकृत वैज्ञानिक सिद्धांत के रूप में आकार लेना शुरू कर रहा है
- मुख्य कठिनाई अपारदर्शिता से अधिक जटिलता में है; न्यूरल नेटवर्क non-convex, overparameterized संरचना और structured internal representations सीखने की वजह से केवल पारंपरिक classical theory से पर्याप्त रूप से समझाए नहीं जा सकते
- विश्लेषण योग्य सेटिंग्स, अनंत width·depth limit, सरल empirical laws, hyperparameter theory, और universal phenomena जैसे अक्षों पर बार-बार नियमितताएँ सामने आ रही हैं, जिससे learning mechanics की नींव बन रही है
- deep linear network, NTK, mean-field और lazy-rich भेद जैसे परिणाम learning dynamics, generalization, feature learning, और scaling law को मात्रात्मक रूप से समझने में सक्षम बनाते हैं
- ऐसे सिद्धांत model design, optimization, hyperparameter selection, AI safety और mechanistic interpretability तक के लिए अधिक predictable और controllable आधार देने में महत्वपूर्ण हैं
परिचय
- डीप लर्निंग बहुत शक्तिशाली है, लेकिन इसके भीतर की कार्यप्रणाली को एकीकृत रूप से समझाने वाला वैज्ञानिक ढांचा अभी भी अधूरा है
- न्यूरल नेटवर्क अनेक कार्यों में मानव-से-ऊपर प्रदर्शन दिखाते हैं, लेकिन वे ऐसा क्यों करते हैं और ऐसा प्रदर्शन कैसे उभरता है, इस पर एकीकृत सिद्धांत अब भी अनुपस्थित है
- व्यवहार में ट्रेनिंग के तरीके आज भी first principles की तुलना में काफी हद तक trial-and-error पर निर्भर हैं, और रोज़मर्रा के deep learning practice में theory की भूमिका सीमित है
- बड़े language model और diffusion model के युग में यह रहस्य और गहरा हुआ है, लेकिन deep learning का वैज्ञानिक सिद्धांत वास्तव में आकार लेना शुरू कर चुका है, और उसका रूप learning process की mechanics के अधिक करीब है
- deep learning theory का फोकस समय के साथ बदलता रहा है
- शुरुआती दौर में ध्यान इस पर था कि मॉडल कौन-से functions व्यक्त कर सकते हैं और data के माध्यम से वे कैसे सीखते हैं
- बाद में यह इस प्रश्न की ओर बढ़ा कि finite samples में generalization कब होता है, और इसी क्रम में classical learning theory, computational learning theory, PAC theory, और classical optimization theory विकसित हुईं
- इसी के साथ सरल मॉडलों के औसत व्यवहार को समझने वाली statistical physics of machine learning की परंपरा भी बनी
- multi-layer network, backpropagation, और data व compute resources के बड़े पैमाने पर विस्तार ने मौजूदा सिद्धांतों की सीमाएँ उजागर कर दीं
- न्यूरल नेटवर्क non-convex, overparameterized संरचना रखते हैं, और उन सरल व convex मॉडलों से अलग हैं जिन्हें classical theory अपेक्षाकृत अच्छी तरह संभालती थी
- वे केवल कम training error तक सीमित नहीं रहते, बल्कि structured internal representations सीखते हैं और tasks व scale के पार नियमितताएँ दिखाते हैं
- इस बदलाव के साथ deep learning theory, क्या संभव है यह गणितीय रूप से पूछने के चरण से आगे बढ़कर, जटिल empirical systems के व्यवहार का वर्णन और पूर्वानुमान करने वाले वैज्ञानिक चरण में प्रवेश कर रही है
- इसलिए ऐसी वैज्ञानिक पद्धति की ज़रूरत है जो empirical observations को समाहित करे, एकीकृत सिद्धांत खोजे, और बार-बार उभरने वाले patterns की पहचान करे
- आगे का रास्ता शुद्ध गणित के किसी उपक्षेत्र के विकास की तुलना में, एक वैज्ञानिक क्षेत्र के परिपक्व होने की प्रक्रिया के अधिक समान होगा
learning mechanics क्या है
- न्यूरल नेटवर्क learning को उस mechanics की तरह देखा जा सकता है जिसमें वस्तुएँ space और time में चलती हैं
- जैसे कोई वस्तु बल के प्रभाव में भौतिक space में लगातार चलती है, वैसे ही मॉडल discrete updates के ज़रिए parameter space में आगे बढ़ता है
- जिस तरह physics में बल system के घटकों की परस्पर क्रिया से निकलता है, उसी तरह deep learning में parameter, dataset, task और learning rule की परस्पर क्रिया learning को आकार देती है
- physics के field और deep learning के gradient के बीच भी एक समानता है
- जैसे कोई भौतिक system आंतरिक interactions और बाहरी constraints से तय होने वाले potential के local minima पर स्थिर होता है, वैसे ही न्यूरल नेटवर्क architecture और training data से बनने वाले loss landscape के local minima की ओर converge करता है
- यह उपमा केवल अलंकार नहीं है, बल्कि चल रहे शोध प्रवाह से भी मेल खाती है
- जैसे mechanics की विभिन्न शाखाएँ विश्लेषण योग्य सेटिंग्स, सरलीकृत limit, summary statistics, system parameter analysis, और universal phenomena का उपयोग करती हैं, वैसे ही learning mechanics भी इन्हीं औज़ारों का इस्तेमाल करती है
- खासकर continuum mechanics और statistical mechanics की तरह, जो बहुत-से interacting elements को संभालती हैं, deep learning में भी हर individual element की बजाय बड़े पैमाने के statistics को समझाना अधिक उपयोगी है
- इस शोध कार्यक्रम को learning mechanics नाम से समेटा जा सकता है
learning mechanics के लिए 7 आवश्यक शर्तें
-
मूलभूतता
- न्यूरल नेटवर्क training को first principles से शुरू करके तार्किक रूप से विकसित किया जाना चाहिए
- बीच के चरणों में weights, dynamics और performance के बारे में मान्यताओं को औज़ार की तरह इस्तेमाल किया जा सकता है, लेकिन अंततः इन्हें भी first principles से समझाया जाना चाहिए
-
गणितीयता
- महत्वपूर्ण न्यूरल नेटवर्क गुणों के बारे में अस्पष्टता-रहित मात्रात्मक कथन बनाने चाहिए
- केवल गुणात्मक वर्णन से mechanics स्थापित नहीं होती
-
पूर्वानुमेयता
- ऐसे दावे होने चाहिए जिन्हें सरल और दोहराए जा सकने वाले empirical measurements से सत्यापित किया जा सके
- क्योंकि system पर experimental control बहुत उच्च स्तर का है, इसलिए प्रमुख प्रगति को experiments से स्पष्ट रूप से परखा जा सकना चाहिए
-
व्यापकता
- training process, internal representations और अंतिम weights को एक ही तस्वीर में जोड़ा जाना चाहिए
- हर विवरण को समेटने की कोशिश करने के बजाय, कुछ विवरण छोड़कर भी insight देने वाला उपयुक्त resolution चुना जाना चाहिए
-
सहजता
- तकनीकी जटिलता की तुलना में सरल और illuminating insight को प्राथमिकता मिलनी चाहिए
- यह ऐसा सिद्धांत होना चाहिए जो deep learning के रहस्य को कुछ हद तक हटाकर बौद्धिक संतोष दे
-
उपयोगिता
- जैसे physics अन्य इंजीनियरिंग क्षेत्रों की नींव बनती है, वैसे ही यह applied deep learning की वैज्ञानिक आधारशिला बननी चाहिए
- इसमें hyperparameter tuning में कमी, dataset design के लिए predictive tools, और AI safety की rigorous foundation जैसे ठोस लक्ष्य शामिल हैं
-
विनम्रता
- यह स्पष्ट होना चाहिए कि सिद्धांत क्या अच्छी तरह समझाता है और क्या नहीं समझा पाता
- यथार्थवादी deep learning पर लागू होने वाली mechanics भी छोटे और हाथ से डिज़ाइन किए गए विशेष मामलों में टूट सकती है, और इसे उस क्षेत्र में सरल तस्वीर पाने की कीमत के रूप में देखा जाना चाहिए जहाँ हमारी रुचि है
learning mechanics क्यों महत्वपूर्ण है
-
वैज्ञानिक कारण
- बड़े न्यूरल नेटवर्क की इंजीनियरिंग सफलता संकेत देती है कि वे अब तक पूरी तरह न समझे गए learning और representation के गहरे सिद्धांतों का उपयोग कर रहे हैं
- ऐसे उदाहरण दिए जाते हैं जहाँ तकनीक सिद्धांत से पहले आई, जैसे steam engine और thermodynamics, तथा airplane और aerodynamic theory
- artificial neural network के learning principles, biological intelligence को समझने में भी रोशनी डाल सकते हैं, और इससे neuroscience व cognitive science पर भी प्रभाव पड़ सकता है
-
व्यावहारिक कारण
- एक परिपक्व deep learning theory model design, optimization, scaling और deployment को अधिक विश्वसनीय सिद्धांतों के आधार पर मार्गदर्शित कर सकती है
- कुछ क्षेत्रों में theory ने पहले ही भूमिका निभानी शुरू कर दी है
- empirical scaling laws
- hyperparameter scaling के लिए गणितीय prescriptions
- सैद्धांतिक प्रेरणा से डिज़ाइन किए गए optimizer और data attribution methods
- अधिक गहरा और अधिक पूर्ण सिद्धांत ऐसे मार्गदर्शन को बढ़ा सकता है, और उसे अधिक सटीक व पूर्वानुमेय बना सकता है
-
सुरक्षा संबंधी कारण
- लगातार अधिक शक्तिशाली होते AI systems का वर्णन, characterization और control करने के लिए, संबंधित variables, mechanisms और organizing principles को स्पष्ट रूप से पहचान पाना ज़रूरी है
- जिस तकनीक का स्पष्ट वर्णन ही न किया जा सके, उसे regulate करना कठिन होता है; fundamental theory reliability, oversight और control के लिए आवश्यक स्पष्टता दे सकती है
- खास तौर पर यह संभावना उठाई गई है कि यह mechanistic interpretability का समर्थन करने वाले तरीके से AI safety में योगदान दे सकती है
इस बात के प्रमाण कि learning mechanics उभर रही है
- deep learning के मुख्य घटक explicit हैं और measurable हैं
- architecture को सरल रैखिक·अैरैखिक transformations की composition से परिभाषित neural network f(x; θ) के रूप में दिया जाता है
- data को अज्ञात data-generating distribution से आए samples के समुच्चय D = {(xi, yi)} के रूप में दिया जाता है
- task को dataset पर performance मापने वाले objective function L(θ) से परिभाषित किया जाता है
- learning rule को, उदाहरण के लिए,
θ(t+1) = θ(t) −η∇L(θ(t))जैसे gradient-आधारित update, initialization, और optimization hyperparameters से वर्णित किया जाता है
- learning process में लगभग कुछ भी छिपा हुआ नहीं है
- कई complex systems के विपरीत, deep learning उन equations of motion को सीधे सामने लाती है जो dynamics को नियंत्रित करती हैं
- हर weight, activation, gradient, loss को रिकॉर्ड किया जा सकता है, और उनसे मनचाहे statistics भी बनाए जा सकते हैं
- experiment design, reproduction, और verification आसान हैं, इसलिए empirical regularities खोजने और theoretical predictions को सख्ती से test करने में यह अनुकूल है
- केंद्रीय कठिनाई opacity नहीं बल्कि complexity में है
- architecture, data, task, learning rule की परस्पर क्रिया nonlinear, coupled, और high-dimensional learning dynamics बनाती है
- यह hyperparameter selection के प्रति संवेदनशील है, और data distribution स्वयं भी सरलता से characterize नहीं की जा सकती
- फिर भी इस complexity के नीचे regularities छिपी हुई हैं, और इसके समर्थन में पाँच observations पेश की जाती हैं
-
विश्लेषणात्मक रूप से हल की जा सकने वाली settings
-
अंतर्दृष्टि देने वाली limits
-
सरल empirical laws
-
hyperparameter theory
- universal phenomena
-
विश्लेषणात्मक रूप से हल की जा सकने वाली settings
- complex systems में वैज्ञानिक समझ तेज़ी से बढ़ती है जब simplified लेकिन representative settings में quantitative calculations संभव हों
- physics के harmonic oscillator या hydrogen atom की तरह, deep learning में भी minimal models अधिक वास्तविक systems को समझने के लिए intuition देते हैं
- deep learning इस approach के लिए खास तौर पर उपयुक्त है, और ऐसी कई settings मिली हैं जहाँ learning dynamics सरल हो जाती है और मुख्य quantities की गणना की जा सकती है
-
data के संबंध में linearization
- deep linear network nonlinearity को हटाकर ऐसा model बनता है जो input x के संबंध में linear है, लेकिन parameters θ के संबंध में अब भी अत्यधिक nonlinear है
- ऐसे models साधारण दिखने पर भी deep learning के विशिष्ट behavior को बनाए रखते हैं
- saddle-point-dominated loss landscape
- स्पष्ट phase transitions और अलग-अलग timescales वाली dynamics
- gradient descent में edge-of-stability oscillation
- initialization पर बहुत अधिक निर्भर inductive bias
- analysis आमतौर पर gradient descent की continuous-time limit, यानी gradient flow, के तहत किया जाता है, और data distribution तथा initialization पर simplifying assumptions रखने पर exact solutions या low-dimensional dynamical systems में reduction मिलती है
- बार-बार सामने आने वाला मुख्य बिंदु greedy low-rank bias है
- learning task के कुछ components को दूसरे components से पहले हासिल करती है
- [Saxe et al. 2014] के परिणामों में input-output correlation के singular vectors को क्रमशः सीखा जाता है, और बड़े singular value वाले modes पहले सीखे जाते हैं
- इस bias को signal और noise को अलग करने से जोड़कर देखा गया है, जिससे generalization में मदद मिल सकती है
- यह nonlinear networks में इस घटना से मिलता-जुलता है कि सरल functions को complex functions से पहले सीखा जाता है
- छोटे initialization, अधिक depth, अधिक मजबूत mini-batch noise, और explicit ℓ2 regularization इस greedy bias को और मजबूत करते हैं
-
parameters के संबंध में linearization
- linearized network initial parameters के आसपास Taylor expansion में nonlinear terms को काटकर प्राप्त किया जाता है; यह data x के लिए nonlinear रहता है, लेकिन parameters θ के लिए linear हो जाता है
- कुछ settings में पूरे training के दौरान मूल model इस linearization से अच्छी तरह approximate होता है, और ऐसे में learning dynamics वस्तुतः linear regression जैसी हो जाती है
- अंतर यह है कि Gram kernel की जगह neural tangent kernel, NTK dynamics को नियंत्रित करता है
- least squares और छोटे step size वाले gradient descent में अंतिम predictor को NTK का उपयोग करने वाले kernel ridge regression के रूप में लिखा जा सकता है, जिससे interpretability बढ़ती है
- यह setting दिखाती है कि architecture, NTK structure के माध्यम से, inductive bias को कैसे निर्धारित करती है
- input data structure को भी शामिल किया जाए तो arbitrary target functions के लिए expected generalization error का अनुमान भी लगाया जा सकता है, और Figure 1 के नतीजे भी दिखाते हैं कि ऐसे predictions और experiments अच्छी तरह मेल खाते हैं
- साथ ही double descent और scaling laws को भी capture किया जा सकता है
- लेकिन इसकी realism और limitations भी स्पष्ट हैं
- यह generic neural networks की मजबूत feature learning को capture नहीं कर पाती
- यह sample complexity के बारे में अत्यधिक pessimistic predictions दे सकती है
- learning को linear problem में बदलकर यह deep learning की खास non-convex optimization phenomena को bypass कर देती है
-
linearization से आगे
- theory का एक महत्वपूर्ण मोर्चा ऐसे toy models को interpretable बनाना है जो data और parameters दोनों के संबंध में सचमुच nonlinear हों
- यहाँ data distribution का प्रभाव कहीं अधिक जटिल हो जाता है, इसलिए एक unified framework बनाना कठिन है, लेकिन कई दिशाओं में प्रगति दिख रही है
- Gaussian inputs और structured targets वाले single-index, multi-index model परिवारों में fully nonlinear neural networks, kernel methods की तुलना में कम samples के साथ बेहतर काम करते हैं
- क्योंकि वे target function की structure का उपयोग करके relevant features सीखते हैं
- statistical physics methods ऐसे models में Bayes-optimal inference और learning dynamics के exact asymptotic behavior की गणना भी संभव बनाते हैं
- quadratic activation वाले 2-layer neural networks में exact asymptotics, training dynamics, और scaling laws तक की characterization की जा चुकी है
- इसके अलावा कई nonlinear phenomena को अलग-अलग करके analyze किया गया है
- logistic loss से trained homogeneous networks का max-margin solution की ओर converge होना
- teacher-student models में training dynamics का low-dimensional summary statistics में reduce हो जाना
- associative memory models में memorization
- modular arithmetic tasks में सीखी जाने वाली algorithmic structure
- attention के nonlinear interpretable models
- ऐसे मामले जहाँ nonlinear feature learning बेहतर scaling law बनाती है
- वर्तमान nonlinear toy models पूर्ण nonlinear learning के अलग-अलग पहलुओं को पकड़ते हैं, लेकिन अभी तक कोई unified framework सामने नहीं आया है
अंतर्दृष्टि देने वाली सीमाएँ
- आधुनिक deep learning सिस्टम सैकड़ों अरब या उससे अधिक parameters और विशाल डेटा से बने होते हैं, इसलिए individual parameter को ट्रैक करने वाला सूक्ष्म सिद्धांत लगभग असंभव लगता है
- लेकिन complex systems अक्सर उस सीमा में सरल हो जाते हैं जहाँ आकार को व्यावहारिक रूप से अनंत तक भेज दिया जाता है, और यही सरल संरचना वास्तविक finite systems के लिए भी उपयोगी अंतर्दृष्टि देती है
- यह उसी तर्क जैसा है कि ideal gas law अनंत particle संख्या की सीमा से निकाला जाता है, फिर भी वास्तविक finite gas पर अच्छी तरह लागू होता है
- deep learning में भी ऐसी सीमाएँ जटिलता से निपटने का एक मुख्य गणितीय tool हैं, और इनकी बार-बार सफलता को स्वयं उभरते हुए सिद्धांत के मजबूत प्रमाण के रूप में पेश किया जाता है
-
infinite width limit और lazy-rich द्विभाजन
- hidden layer में neuron की संख्या को अनंत तक ले जाने पर individual neuron के बजाय पूरे neuron समूह के distribution evolution को ही देखना पर्याप्त होता है, और mean-field behavior प्रकट होता है
- लेकिन deep layers के activation के divergence को रोकने के लिए width बढ़ने के साथ initialization scale को घटाना पड़ता है, और इस घटने की दर के अनुसार दो अलग-अलग तरह की limit dynamics सामने आती हैं
-
lazy या kernel या linearized regime
- initialization पर हर parameter का आकार [width]−1/2 तक घटाने पर hidden neuron input न तो गायब होता है और न ही अनियंत्रित रूप से बढ़ता है
- ऐसे network को train करने पर weight और hidden representation लगभग नहीं बदलते, लेकिन उनका छोटा बदलाव जमा होकर output function को काफी बदल देता है
- नतीजतन learning dynamics parameters के सापेक्ष linear हो जाती है, और output function का evolution पूरी तरह NTK से व्यक्त होता है
- इसकी interpretability अधिक है, लेकिन hidden representation लगभग नहीं बदलती, इसलिए यह feature learning नहीं दिखाता
- बाद में इस limit को lazy नाम से व्यवस्थित किया गया
-
rich या active या feature-learning regime
- अगर last-layer weight को [width]−1 से और अधिक मजबूती से छोटा किया जाए, तो model को training के दौरान अधिक बदलना पड़ता है, जिससे feature learning संभव करने वाली एक अलग limit उभरती है
- इस स्थिति में initial output infinite width पर 0 हो जाता है, लेकिन training के दौरान हर gradient step पर यह order-one स्तर तक अर्थपूर्ण रूप से बढ़ सकता है
- shallow mean-field network से शुरू हुआ यह विचार arbitrary depth वाले network तक बढ़ाया गया, और संबंधित scaling का संबंध Maximal Update Parameterization, µP से जुड़ता है
- अब यह व्यापक रूप से स्वीकार किया जाता है कि infinite-width network भी feature सीख सकते हैं
-
rich regime में दिखाई देने वाला व्यवहार
- hidden feature समय के साथ बदलते हैं और input data की संरचना के अनुरूप ढलते हैं
- internal representation की geometry training के दौरान बदलती है
- neuron के उपसमूह अलग-अलग latent feature में विशेषज्ञता हासिल करते हैं
- जब optimal prediction high-dimensional data के low-dimensional subspace में हो, तो first-layer weight distribution उस महत्वपूर्ण subspace को बढ़ाने की दिशा में evolve करता है
- initialization scale को और छोटा करने पर पहले बताए गए greedy low-rank bias का फिर से बार-बार प्रकट होना देखा जाता है
-
finite width में भी दिखाई देने वाला lazy-rich transition
- output scale घटाने पर feature learning को बढ़ावा मिलता है और मॉडल rich regime की ओर जाता है
- output scale बढ़ाने पर training dynamics अधिक linearized हो जाती है और lazy behavior दिखाई देता है
- एक ही finite network भी output scale के अनुसार lazy या rich learning दिखा सकता है, और Figure 2 इस अंतर को visualize करता है
-
infinite depth limit और अन्य hyperparameter limits
- deep residual network में अगर हर layer के योगदान को उचित रूप से घटाया जाए, तो एक स्थिर infinite depth limit तक पहुँचा जा सकता है
- हर layer को [depth]−1 से दबाने पर ऐसी limit मिलती है जिसमें residual stream depth के साथ smooth तरीके से बदलती है, जो Neural ODE की याद दिलाती है
- हर layer को [depth]−1/2 से दबाने पर ऐसी limit मिलती है जिसमें residual stream ऐसे diffuse होती है मानो उसे stochastic differential equation चला रही हो
- ये दोनों limits transformer जैसे realistic architecture में गुणात्मक रूप से अलग solutions पर converge करती हैं, और इनमें से कौन अधिक महत्वपूर्ण है यह अभी स्पष्ट नहीं है
-
अन्य आकार सीमाएँ
- recurrent architecture में feedforward layer की संख्या के बजाय recurrent संरचना की infinite limit का विश्लेषण किया जा सकता है
- नवीनतम transformer में multi-head self-attention और mixture-of-expert MLP जैसे अधिक expressive blocks शामिल होते हैं
- attention में head count, head size, context length जैसे कई scaling directions होते हैं
- mixture-of-expert में expert count, expert size, sparsity जैसे कई scaling directions होते हैं
- इन अलग-अलग infinite limits की परस्पर क्रिया को स्पष्ट करना आधुनिक व्यावहारिक उपयोग से जुड़ने और initialization तथा optimization से जुड़े hyperparameters को अलग-अलग समझने के लिए महत्वपूर्ण है
तालिका और चित्रों से उभरता सार
- Table 1 यह व्यवस्थित करता है कि deep learning के मुख्य research tools physics के tools से काफ़ी मिलते-जुलते हैं
- solvable settings का संबंध deep linear network, kernel regression, multi-index model से है, और physics में यह harmonic oscillator, hydrogen atom, Ising model के समानांतर रखा जाता है
- simplifying limits का संबंध lazy vs rich learning, width और depth की infinite limits, small initialization से है, जबकि physics में इन्हें thermodynamic limit, classical limit, hydrodynamic limit के साथ रखा जाता है
- simple empirical laws neural scaling laws, edge of stability, neural feature ansatz के रूप में सामने आते हैं, और physics के Kepler, Snell, Boyle, Hooke, Newton, Faraday, Ohm, Poiseuille, Planck, Hubble जैसे नियमों के साथ रखे जाते हैं
- system parameters adhyayan step size को sharpness regularization के रूप में देखने वाले दृष्टिकोण, µP और width scaling से जुड़ा है, और physics के scaling analysis, nondimensionalization, chaotic vs ordered regime जैसी अवधारणाओं से मिलता-जुलता है
- universal phenomena अलग-अलग models में साझा inductive bias और representation के रूप में दिखते हैं, और physics के critical phenomena, renormalization group flow से मेल खाते हैं
- Figure 1 इस बात पर ज़ोर देता है कि linearization exact solution देता है और experiments से अच्छी तरह मेल खाता है
- deep linear network में task-aligned initialization और whitened input के तहत singular mode क्रमिक रूप से सीखे जाते हैं
- nonlinear network को initialization point पर Taylor expansion से linearize करने पर वह NTK के माध्यम से kernel ridge regression में सिमट जाता है, और test performance की भविष्यवाणी CIFAR-5m की कई binary classification tasks में experiments के क़रीब बैठती है
- Figure 2 दिखाता है कि सिर्फ़ बड़े output scale और छोटे output scale से ही lazy और rich training dynamics उत्पन्न की जा सकती है
- उसी shallow student network में
α = 0.1होने पर student weight काफ़ी हिलते हैं और teacher feature direction के आसपास इकट्ठा होते हुए rich dynamics दिखाते हैं α = 30होने पर loss घटता है, लेकिन student weight लगभग नहीं हिलते, इसलिए lazy dynamics दिखाई देती है
- उसी shallow student network में
1 टिप्पणियां
Hacker News की रायें
इस क्षेत्र में काम करने वाले के नज़रिए से देखें तो यह लेख अभी सबसे ज़्यादा चर्चा में रहने वाले research topics का काफ़ी अच्छा सार देता है
खासकर अंत में दिए गए open problems ने लगभग सभी मुख्य research directions को छू लिया है, इसलिए वही हिस्सा सबसे उपयोगी लगा
टिप्पणियों में इतनी skepticism देखकर अफ़सोस होता है, क्योंकि इससे पता चलता है कि इस तरह का research आम लोगों तक लगभग पहुँच ही नहीं रहा
अभी भी ऐसे बहुत कम mechanisms हैं जो mathematically सीधे optimal network design निकाल दें, लेकिन अक्सर इसकी वजह यह है कि theory से experiment तेज़ चलता है, इसलिए बाद में explanation देने की नौबत आती है
फिर भी, यह सवाल कि neural networks दूसरे models से बेहतर क्यों काम करते हैं, अब उसका काफ़ी मज़बूत जवाब नज़दीक आता दिख रहा है
समस्या यह है कि असल में लोग जिस सवाल को लेकर सचमुच जिज्ञासु थे, वह यह नहीं था, इसलिए अब शायद हम उस चरण में हैं जहाँ अगला सवाल क्या होना चाहिए, यह तय करना है
यह सवाल कि यह क्यों काम करता है, मोटे तौर पर हल हो चुका है, और असली बात यह है कि noise floor की तुलना में irreversible information loss को efficiently कैसे minimize किया जाए
गणित ज़्यादा efficient रास्ता दिखाता है, लेकिन industry कई सालों से सिर्फ़ बड़े models को धकेलने में लगी रही, जिससे काफ़ी बर्बादी हुई
एक अच्छी तरह बनाया गया 70B model भी capability loss के बिना लगभग 16GB स्तर पर चलाया जा सकता है और उसमें आगे training भी संभव हो सकती है, लेकिन funding लगातार सिर्फ़ bigger पर ही गई
अब industry ने लक्ष्य को Agency और Long-horizon Persistence की ओर शिफ्ट कर दिया है, और predictive calculator से लंबे समय तक टिकने वाले systems की ओर यह बदलाव non-equilibrium thermodynamics की समस्या के ज़्यादा क़रीब है
इसमें ऐसे गणित और नियम हैं जो AI पर भी सीधे लागू होते हैं, और model के अंदर signal के टिके रहने का सिद्धांत और agent के टिके रहने का सिद्धांत लगभग उसी गणित से जुड़ते हैं
मेरी विशेषज्ञता भी यही persistence है, और AI क्षेत्र को दूसरे क्षेत्रों में पहले से सीखे गए first principles को फिर से मुश्किल से सीखते देखना ईमानदारी से कहूँ तो कभी-कभी निराशाजनक लगता है
इसलिए मैं ऐसे documents लिखकर साझा करता हूँ जो बताते हैं कि यह गणित कैसे काम करता है और इसे अलग-अलग domains में कैसे apply किया जाए; उन्हें पढ़ने के बाद intuition से अंदाज़ा लगाने के बजाय ठीक-ठीक समझ आता है कि persistence बढ़ाने के लिए क्या सुधारना है
model को कुछ घंटे तक काम कराते रहना जैसे सवाल तो लगभग प्यारे लगते हैं; इससे कहीं ज़्यादा मूलभूत सवाल अलग हैं
classical perspective से देखें तो overparameterization या दूसरी neural network structures के effects ईमानदारी से कहूँ तो सहज नहीं लगते
मैं मानता हूँ कि double descent empirically काम करता है, लेकिन सहज रूप से लगता है कि ऐसा नहीं होना चाहिए
Hastie आदि की Elements को पसंद करने वाले व्यक्ति के तौर पर, सिर्फ़ bias-variance tradeoff देखकर भी ऐसे नतीजे आना मुश्किल लगता है
यह बात कई वर्षों से मन में अटकी हुई है, इसलिए अगर इसमें प्रगति हुई है तो वह दार्शनिक स्तर पर भी बेहद उपयोगी होगी
मैंने अभी सिर्फ़ introduction पढ़ा है, लेकिन लेखन अच्छा है और इस तरह के research program को पूरा समर्थन देने का मन होता है
यह कुछ वैसा ही लगता है जैसे bagging या boosting पहले theory के बिना empirically सफल हुए थे
शायद इसका बड़ा कारण यह है कि neural networks को अक्सर classically interpretable linear regression के ठीक उलट के रूप में पेश किया गया
engineering इतनी तेज़ी से आगे बढ़ती है कि अगर research तुरंत नतीजे न दे तो उसे इंतज़ार देने का माहौल ही नहीं बनता
यहाँ तक कि interpretability researchers भी कभी-कभी ऐसा लगता है कि अगर जल्दी कोई दिखने वाला परिणाम न मिले तो बहुत जल्द हार मान लेते हैं
अगर non-experts के लिए भी कोई reference material हो तो जानना चाहूँगा
यह सही है कि वे image जैसे उन problem classes को कहीं व्यापक रूप से संभाल सकते हैं जहाँ traditional ML को मुश्किल होती है, लेकिन जहाँ fair comparison संभव है, वहाँ gradient boosting कई बार बेहतर निकलता है, ऐसा मैंने समझा है
मेरी समझ में न आने वाली बात यह है
neural network का विचार तो दशकों से था, लेकिन उसे ख़ास ध्यान नहीं मिला; फिर 2017 के Attention Is All You Need के बाद deep learning विस्फोटक रूप से बढ़ गया
मुझे पता है कि GPU deep learning को accelerate करते हैं, लेकिन transformer की अवधारणा खुद कहीं धीमे hardware पर भी पहले आज़माई जा सकती थी, ऐसा लगता है
AlexNet ने https://en.wikipedia.org/wiki/AlexNet के अनुसार ImageNet classification competition में पहले की तुलना में बिल्कुल अलग स्तर का performance gain दिखाया, और उसके बाद बड़े ML image labs सभी deep CNN की ओर मुड़ गए
कुछ ही वर्षों में दूसरे approaches SOTA image competitions से लगभग ग़ायब हो गए, और फिर deep neural networks ने ML के दूसरे क्षेत्रों पर भी प्रभुत्व जमा लिया
प्रचलित समझ आखिरकार दो चीज़ों के मेल पर टिकी है
पहली, पहले की तुलना में बहुत ज़्यादा compute; दूसरी, ImageNet जैसे कहीं बड़े और hand-curated, labeled high-quality datasets
attention text जैसी relatively free order structure वाली sequences में complex relations सीखने के लिए विशेष रूप से उपयोगी था, लेकिन अब बहुत से लोग architecture को learning के essence से ज़्यादा data और compute की कमी होने पर एक tradeoff विकल्प की तरह देखते हैं
आखिरकार https://en.wikipedia.org/wiki/Bitter_lesson की तरह ज़्यादा compute और ज़्यादा data, ऐसे supposedly smarter models को भी हरा देते हैं जो अच्छी तरह scale नहीं करते
इंसानों में लगभग 10^11 neurons होते हैं, कुत्तों में 10^9, और चूहों में 10^7 के आसपास, और यहाँ ध्यान देने वाली बात यह है कि ये सब बहुत बड़े अंक हैं
चूहे जैसी सीमित intelligence को भी करोड़ों neurons चाहिए, और intelligence शायद तभी उभरती है जब computation capacity एक निश्चित सीमा से ऊपर पहुँचती है
शायद ऐसा इसलिए है क्योंकि complex learning environments की intrinsic complexity संभालने के लिए बहुत सारे parameters चाहिए
इसके उलट, simple या highly structured problems में कम parameters वाले methods काफ़ी अच्छे चलते हैं, और कुछ मामलों में optimal भी साबित किए जा चुके हैं
हम जिस learning और intelligence की बात करते हैं, वह आम तौर पर complex environments को मानकर चलती है, और ऐसी complexity स्वाभाविक रूप से बहुत बड़े parameter counts माँगती है
उसने competition पर दबदबा बना लिया और कुछ ही सालों में image tasks में वही approach लगभग standard बन गई
शायद Jeremy Howard थे, जिन्होंने 2017 के आसपास लिखा था कि NLP में ऐसा transfer learning कब आएगा जो image में convnet जितना असरदार हो
उस साल attention paper ने तुरंत दुनिया पर राज नहीं कर लिया था; उस समय hardware भी कमज़ोर था और scale सब कुछ हल कर देगा, इस पर भी consensus नहीं था
GPT-3 के उभरने तक लगभग 5 साल और लगे, और तभी आज की लहर सच में शुरू हुई
और लोग इन दानवों को train करने में लगने वाले compute scale को अक्सर बहुत कम आँकते हैं; एक 1GHz single processor पर इस स्तर के model को train करने में लगभग 10 करोड़ साल लगेंगे
GPT-3 स्तर के model को भी लगभग 25,000 GPUs लेकर कई महीने लगते हैं, और 10 साल पुराने GPUs की कमज़ोर memory पर बड़े transformers की training लगभग असंभव थी
पुराने k80 में लगभग 12GB memory थी, जबकि आज के H100/H200 सैकड़ों GB स्तर पर हैं; इसलिए बड़े transformers को 2020 के शुरुआती वर्षों से पहले व्यावहारिक रूप से बनाया ही नहीं जा सकता था
2010 के दशक के उत्तरार्ध में gamers का यह शिकायत करना भी याद आता है कि ML की वजह से GPU की क़ीमतें आसमान छू रही हैं
दिलचस्प बात यह है कि उससे पहले neural networks को लगभग महत्वहीन चीज़ माना जाता था
जब मैंने 2000 के आसपास इससे जुड़ी classes ली थीं, तब भी माहौल लगभग ऐसा ही था
फिर से चिंगारी भड़कने के लिए आखिरकार ImageNet जैसे विशाल training data और तेज़ processors दोनों की ज़रूरत थी
उसके बाद specific architectures पर लगातार follow-up improvements आते गए और चीज़ें snowball की तरह बढ़ती गईं
व्यापक community की नज़र में AlexNet बड़ा turning point है, लेकिन academia के भीतर हवा उससे 2–3 साल पहले ही बदलने लगी थी
मैंने 2008–09 के आसपास workshops में neural network से जुड़े talks को अब अनदेखा न किया जाता देखना शुरू कर दिया था
matrices तो 400 साल पहले से थीं, लेकिन linear algebra, ख़ासकर numerical linear algebra, का विस्फोट computers के आने के बाद हुआ
पहले systems of equations को minors theory से हल करना standard माना जाता था, लेकिन computer आने पर Gaussian elimination और Krylov spaces जैसी theory ने तेज़ी से प्रगति की
लोगों ने कल्पना तो की होगी, पर hardware न होने के कारण उसे व्यवहार में उतार नहीं सके
सरल शब्दों में, LLM मूलतः transformer के साथ बहुत विशाल मात्रा का data जोड़ने का नतीजा है, और इतने बड़े data को वास्तव में train करने योग्य बनाने के लिए पर्याप्त शक्तिशाली hardware अनिवार्य था
यह बात रोचक लगती है कि हम एक learning tool यानी मस्तिष्क का उपयोग दूसरे learning tool को समझने के लिए कर रहे हैं
SGD पहले से ही काफ़ी अच्छी तरह काम करता है, और उसे कुछ गुना बेहतर बना देने से शायद यह बुनियादी सवाल हल न हो कि black box वास्तव में क्या कर रहा है
learning कैसे होती है और model वास्तव में क्या कर रहा है, ये अलग-अलग सवाल हैं, और हमारा मस्तिष्क भी कई मायनों में एक black box ही है
इसलिए learning mechanisms पर research, psychology, और thought तथा language की प्रकृति से जुड़े philosophical ideas के बीच और मज़बूत कड़ी की ज़रूरत लगती है
यह उत्साहजनक है, लेकिन मुझे title थोड़ा बढ़ा-चढ़ाकर कहा हुआ लगता है
deep learning वास्तव में क्या कर रही है, इसे समझने के attack points जैसा कुछ ज़्यादा सटीक होता, लेकिन शायद उतना आकर्षक नहीं लगता
अगर इससे यह मापने के तरीक़े निकलें कि deep learning systems कब hallucination पैदा करते हैं, तो इसकी बहुत बड़ी क़ीमत होगी
तब तक deep learning systems को केवल उन्हीं कामों तक सीमित रखना पड़ेगा जहाँ इनके बकवास output से नुक़सान कम हो
उदाहरण के लिए hallucination जैसा शब्द ही LLM output पर जबरन मानवीय अर्थ थोपता है
वास्तविक mathematical working के हिसाब से देखें तो hallucination भी बस एक और output है, और उसका दूसरे outputs से कोई स्पष्ट boundary परिभाषित नहीं है
यह मेरे मुख्य research directions में से एक भी है, इसलिए मेरा bias हो सकता है
आम approach OOD detection है, लेकिन मुझे हमेशा लगा है कि इसकी problem formulation ही अस्थिर है
इसलिए मैं सहकर्मियों के साथ model misspecification को मापने वाले ज़्यादा मूलभूत approach पर काम कर रहा हूँ, लेकिन उसका compute cost इतना अधिक है कि अभी यह niche topic जैसा ही है
किसी भी दिशा से breakthrough आने में शायद अभी और समय लगेगा
यह देखकर मुझे लगा कि यह conceptually vibecoding जैसा है
पहले किसी तरह चीज़ को काम करने लायक बनाओ, और उसके बाद यह समझना कि वह क्यों और कैसे काम करती है, वह बिल्कुल अलग काम है
ज़रा ठहरिए, ऐसी चीज़ बना लेने के बाद जिसे अभी तक न ठीक से समझते हैं और न ही समझा पाते हैं, अब उसे science कहा जाएगा?
दशकों से biology, ख़ासकर neurobiology, की terminology उधार ली जाती रही है, और अंत में यह कुछ हद तक बंदर की नकल की तरह copy paste जैसा भी लगता है
ईमानदारी से कहूँ तो, इस तरह की universal theory की दो कोशिशें मुझे और ज़्यादा दिलचस्प लगीं
https://arxiv.org/abs/2510.12269
https://www.mdpi.com/1099-4300/28/3/332
fuzzy logic से इसका संबंध भी जानने की उत्सुकता है
neural networks मानो अस्पष्ट तरीक़े से reasoning करते दिखते हैं, लेकिन औपचारिक रूप से उसे क्या कहा जाए, यह स्पष्ट नहीं है
कई वर्षों तक fuzzy reasoning को formalize करने की कोशिशें हुईं, लेकिन अब लगता है कि कोई उसकी परवाह नहीं करता
मुझे neural networks और transformers, ML के OOP जैसे लगते हैं
बेहद लोकप्रिय, व्यवहार में काफ़ी उपयोगी, लेकिन बुनियादी स्तर अब भी धुंधला; और ऐसा लगता है मानो जो पहले भी व्यक्त किया जा सकता था, उसे नई भाषा में फिर से व्यक्त कर रहे हों, मगर असली फ़ायदा कहाँ से आ रहा है, यह पकड़ना कठिन है
मैंने अभी पूरा paper नहीं पढ़ा है, लेकिन लेखन सचमुच immersive है और काफ़ी विचारपूर्ण लगा
इसमें पचाने के लिए बहुत कुछ है, लेकिन यह सब एक ही जगह संकलित देखना बेहद दिलचस्प है
मुझे लगता है कि high level पर deep learning के अच्छी तरह काम करने की वजह आखिरकार यह है कि वह और अधिक data पर लगातार learning करने में दूसरे approaches से बेहतर है
लेकिन अगर आज उपलब्ध विशाल मात्रा का data न होता, तो architecture इतना महत्वपूर्ण नहीं होता
model-data समीकरण के दोनों पक्षों को साथ समझाए बिना, उदाहरण के लिए reasoning models क्यों reason करते हैं, इस पर कोई ठोस scientific theory बनाना मुश्किल लगता है
model, architecture और training data दोनों का संयुक्त उत्पाद है
अभी यह समस्या उतनी ही कठिन लगती है जितनी यह समझाना कि इंसान या जानवर इतने बड़े input data के बीच से कुछ खास चीज़ें कैसे सीखते हैं
empirical understanding बेहतर होगी, लेकिन मूल बात शायद फिर भी पूरी तरह computer science तक सीमित न की जा सके
असली complexity का केंद्र architecture से ज़्यादा giga-datasets में है, ऐसा मुझे लगता है
theory तब निर्णायक रूप से महत्वपूर्ण हो जाती है जब failure modes की prediction ज़रूरी हो
ऐसा decision-support system जो ज़्यादातर समय ठीक चले लेकिन edge cases में चुपचाप विफल हो जाए, वह अपनी सीमाएँ साफ़ बताने वाले साधारण system से भी ज़्यादा ख़तरनाक है
bias mechanisms को समझने से यह अलग करने में मदद मिलती है कि model कब सचमुच confident है और कब सिर्फ़ pattern matching कर रहा है
stakes ऊँचे होने वाले environments में यह फ़र्क़ ख़ास तौर पर महत्वपूर्ण है