Deep learning पर एक वैज्ञानिक सिद्धांत उभरेगा
(arxiv.org)- यह पेपर दावा करता है कि deep learning के learning process, hidden representations, final weights, performance जैसी प्रमुख विशेषताओं को characterise करने वाला एक scientific theory आकार ले रहा है
- इसके मुख्य आधार के रूप में पाँच research directions पेश की गई हैं: solvable idealized settings, tractable limits, simple mathematical laws, theories of hyperparameters, universal behaviors
- यह theory learning process की dynamics पर फ़ोकस करती है, मोटे aggregate statistics का वर्णन करती है, और falsifiable quantitative predictions पर ज़ोर देती है
- इस नए theoretical framework के लिए learning process की dynamics को "learning mechanics" नाम देने का प्रस्ताव है
- deep linear network, NTK, mean-field, और lazy-rich distinction जैसे नतीजे learning dynamics, generalization, feature learning, scaling law को quantitative तरीके से समझने योग्य बनाते हैं
- पेपर statistical·information-theoretic viewpoints और mechanistic interpretability के साथ symbiotic relationship की संभावना बताता है, और deep learning theory की future direction को देखता है
पेपर का मुख्य दावा
- scientific theory जो deep learning के learning process, hidden representations, final weights, performance जैसी महत्वपूर्ण properties और statistics को characterise करती है, अब उभर रही है
- deep learning theory में चल रहे प्रमुख research streams को समेटते हुए, यह पेपर इस theory के अस्तित्व के समर्थन में पाँच research directions पहचानता है
- (a) solvable idealized settings: realistic systems की learning dynamics के लिए intuition देती हैं
- (b) tractable limits: मूल learning phenomena पर insight देती हैं
- (c) simple mathematical laws: महत्वपूर्ण macroscopic observables को पकड़ती हैं
- (d) theories of hyperparameters: hyperparameters को learning process के बाकी हिस्सों से अलग कर, एक अधिक सरल system छोड़ती हैं
- (e) universal behaviors: systems और settings के बीच साझा phenomena के माध्यम से स्पष्ट करती हैं कि किन चीज़ों को explanation की ज़रूरत है
- उभरती हुई theory को learning process की dynamics के रूप में देखना सबसे उपयुक्त है, और इसके लिए "learning mechanics" नाम प्रस्तावित किया गया है
- deep learning theory बनाने के लिए statistical viewpoint, information-theoretic viewpoint जैसे अन्य approaches के साथ इसके संबंध पर चर्चा की गई है
- खास तौर पर learning mechanics और mechanistic interpretability के बीच symbiotic relationship की संभावना जताई गई है
परिचय
- deep learning बेहद शक्तिशाली है, लेकिन इसकी internal working को एकीकृत रूप से समझाने वाला scientific framework अभी भी कमज़ोर है
- neural networks कई tasks में superhuman performance दिखाते हैं, लेकिन वे ऐसा क्यों करते हैं और ऐसी performance कैसे उत्पन्न होती है, इसके लिए कोई unified theory मौजूद नहीं है
- practical training methods भी अब तक first principles की तुलना में trial-and-error पर बहुत अधिक निर्भर हैं, और theory की भूमिका रोज़मर्रा के deep learning practice में सीमित है
- large language models और diffusion model के युग में यह रहस्य और गहरा हुआ है, लेकिन scientific deep learning theory वास्तव में बनना शुरू हो चुकी है, और उसका रूप learning process की mechanics के काफ़ी करीब है
- deep learning theory का फ़ोकस समय के साथ बदलता रहा है
- शुरुआती दौर में केंद्र यह था कि models कौन-से functions represent कर सकते हैं और data के माध्यम से कैसे सीखते हैं
- उसके बाद फ़ोकस इस ओर गया कि finite samples में generalization कब होती है, और classical learning theory, computational learning theory, PAC theory, classical optimization theory विकसित हुईं
- इसी दौरान simple models के average behavior से निपटने वाली statistical physics of machine learning की परंपरा भी विकसित हुई
- multi-layer networks, backpropagation, data और compute resources के बड़े पैमाने ने पुरानी theories की सीमाएँ उजागर कर दीं
- neural networks non-convex और overparameterized संरचना रखते हैं, इसलिए वे उन सरल और convex models से अलग हैं जिन्हें classical theory अच्छी तरह संभालती थी
- वे कम learning error से आगे बढ़कर structured internal representations सीखते हैं, और tasks व scales के पार regularity दिखाते हैं
- इस बदलाव के साथ deep learning theory इस सवाल से आगे बढ़ी कि mathematically क्या संभव है, और अब यह complex empirical systems के behavior को describe और predict करने वाले वैज्ञानिक चरण की ओर जा रही है
- इसलिए एक scientific approach की ज़रूरत है जो empirical observations को अपनाए, unifying principles खोजे, और बार-बार उभरने वाले patterns पहचाने
- आगे का रास्ता किसी शुद्ध mathematics field के विकास से अधिक, एक scientific field के mature होने की प्रक्रिया जैसा होगा
learning mechanics क्या है
- neural network learning को उस mechanics की तरह देखा जा सकता है जिसमें वस्तुएँ space और time में चलती हैं
- जैसे कोई वस्तु forces के प्रभाव में physical space में लगातार चलती है, वैसे ही model discrete updates के ज़रिए parameter space में चलता है
- physics में force system के components के बीच interaction से आती है; उसी तरह deep learning में parameters, dataset, task, और learning rule की interaction learning को shape करती है
- physics के field और deep learning के gradient के बीच भी एक correspondence है
- जैसे physical system internal interactions और external constraints से तय potential के local minima पर टिकता है, वैसे ही neural network architecture और training data से बने loss landscape के local minima की ओर converge करता है
- यह analogy सिर्फ़ भाषण शैली नहीं है, बल्कि चल रहे research trends से भी मेल खाती है
- जैसे mechanics की कई शाखाएँ interpretable settings, simplified limits, summary statistics, system parameter analysis, universal phenomena का उपयोग करती हैं, वैसे ही learning mechanics भी वही tools इस्तेमाल करती है
- खास तौर पर continuum mechanics और statistical mechanics की तरह, जो बहुत से interacting elements से निपटती हैं, deep learning में भी हर individual element के बजाय बड़े पैमाने की statistics को समझाना उपयोगी है
- इस research program को learning mechanics नाम से बाँधा जा सकता है
learning mechanics के लिए 7 ज़रूरी शर्तें
-
मौलिकता
- neural network training को first principles से शुरू करके तार्किक रूप से विकसित किया जाना चाहिए
- बीच के चरणों में weights, dynamics, performance के बारे में assumptions tools के रूप में इस्तेमाल हो सकती हैं, लेकिन अंततः इन्हें भी first principles से explain करना होगा
-
गणितीयता
- महत्वपूर्ण neural network properties के बारे में अस्पष्टता रहित quantitative statements बनाने होंगे
- केवल qualitative description से mechanics नहीं बनती
-
पूर्वानुमेयता
- दावों की जाँच सरल और repeatable empirical measurements से होनी चाहिए
- system पर experimental control बहुत मज़बूत है, इसलिए मुख्य प्रगति को experiments से स्पष्ट रूप से verify किया जा सकना चाहिए
-
व्यापकता
- training process, internal representations, और final weights को एक ही picture में जोड़ना होगा
- हर detail को समेटने के बजाय, insight देने के लिए उपयुक्त resolution चुनना होगा, भले कुछ details छोड़ी जाएँ
-
सहजता
- technical complexity से ऊपर simple और illuminating insight को प्राथमिकता मिलनी चाहिए
- theory ऐसी होनी चाहिए जो deep learning के रहस्य को कम करने का संतोष दे
-
उपयोगिता
- जैसे physics अन्य engineering disciplines की foundation बनती है, वैसे ही यह applied deep learning की scientific foundation बननी चाहिए
- इसमें hyperparameter tuning में कमी, dataset design के लिए predictive tools, AI safety के लिए rigorous foundation जैसे ठोस लक्ष्य शामिल हैं
-
विनम्रता
- यह स्पष्ट होना चाहिए कि theory क्या अच्छी तरह समझाती है और क्या नहीं
- realistic deep learning पर लागू mechanics छोटे, hand-crafted special cases में टूट सकती है; इसे रुचिकर क्षेत्रों में सरल picture पाने की कीमत के रूप में देखा गया है
learning mechanics क्यों महत्वपूर्ण है
-
वैज्ञानिक कारण
- बड़े neural networks की engineering success यह संकेत देती है कि वे learning और representation के गहरे सिद्धांतों का उपयोग कर रहे हैं जिन्हें अभी पूरी तरह समझा नहीं गया है
- technology के theory से पहले आने के उदाहरण के रूप में steam engine और thermodynamics, airplane और aerodynamic theory दिए गए हैं
- artificial neural networks के learning principles, biological intelligence को समझने में भी रोशनी डाल सकते हैं, जिसका neuroscience और cognitive science पर प्रभाव हो सकता है
-
व्यावहारिक कारण
- mature deep learning theory model design, optimization, scaling, deployment को अधिक भरोसेमंद principles से guide कर सकती है
- कुछ क्षेत्रों में theory ने पहले ही भूमिका निभानी शुरू कर दी है
- empirical scaling laws
- hyperparameter scaling के mathematical prescriptions
- theoretically motivated optimizer और data attribution methods
- अधिक गहरी और पूर्ण theory ऐसे guidance को और बढ़ा सकती है, और उन्हें अधिक sharp व predictive बना सकती है
-
safety से जुड़े कारण
- लगातार अधिक शक्तिशाली होते AI systems को describe, characterise, और control करने के लिए relevant variables, mechanisms, और organizing principles को स्पष्ट करना ज़रूरी है
- जिस technology को साफ़ तौर पर describe नहीं किया जा सकता, उसे regulate करना मुश्किल है; fundamental theory reliability, oversight, और control के लिए ज़रूरी clarity दे सकती है
- खास तौर पर यह संभावना उठाई गई है कि यह mechanistic interpretability को support करने वाले तरीके से AI safety में योगदान दे सकती है
learning mechanics के उभरने के प्रमाण
- deep learning के मुख्य components explicit और measurable हैं
- architecture को simple linear·nonlinear transformations की composition से परिभाषित neural network f(x; θ) के रूप में दिया जाता है
- data को अज्ञात data-generating distribution से आए sample set D = {(xi, yi)} के रूप में दिया जाता है
- task को dataset पर performance मापने वाले objective function L(θ) से परिभाषित किया जाता है
- learning rule को, उदाहरण के लिए,
θ(t+1) = θ(t) −η∇L(θ(t))जैसे gradient-based update, initialization, और optimization hyperparameters से describe किया जाता है
- learning process में लगभग कुछ भी छिपा नहीं है
- कई complex systems के विपरीत, deep learning सीधे उन equations of motion को सामने रखता है जो dynamics को govern करती हैं
- हर weight, activation, gradient, loss को record किया जा सकता है, और उनसे मनचाही statistics भी बनाई जा सकती है
- experiment design, reproduction, verification आसान हैं, इसलिए empirical regularities ढूँढने और theoretical predictions को rigorously test करने के लिए यह अनुकूल है
- केंद्रीय कठिनाई opacity नहीं बल्कि complexity है
- architecture, data, task, learning rule की interaction nonlinear, combinatorial, और high-dimensional learning dynamics बनाती है
- यह hyperparameter choices के प्रति sensitive है, और data distribution को भी सरल तरीके से characterise करना कठिन है
- इसके बावजूद, इस complexity के नीचे regularities छिपी हैं, और उनके समर्थन में पाँच observations दी गई हैं
- (a) solvable idealized settings
- (b) tractable limits
- (c) simple mathematical laws
- (d) theories of hyperparameters
- (e) universal behaviors
=== पेपर की बाकी सामग्री संक्षेपित ===
- अतिरिक्त introductory materials, viewpoints, और open questions learningmechanics.pub पर उपलब्ध हैं
- पेपर 41 पन्नों का है
2 टिप्पणियां
वे इसे dynamics के नज़रिए से देखकर हल करना चाहते हैं, लेकिन सबसे पहले यही सवाल है कि क्या वे ऐसा समीकरण बना भी पाएंगे जिसका general solution निकाला जा सके।
Hacker News की रायें
इस क्षेत्र में काम करने वाले के नज़रिए से देखें तो यह लेख अभी सबसे ज़्यादा चर्चा में रहने वाले research topics का काफ़ी अच्छा सार देता है
खासकर अंत में दिए गए open problems ने लगभग सभी मुख्य research directions को छू लिया है, इसलिए वही हिस्सा सबसे उपयोगी लगा
टिप्पणियों में इतनी skepticism देखकर अफ़सोस होता है, क्योंकि इससे पता चलता है कि इस तरह का research आम लोगों तक लगभग पहुँच ही नहीं रहा
अभी भी ऐसे बहुत कम mechanisms हैं जो mathematically सीधे optimal network design निकाल दें, लेकिन अक्सर इसकी वजह यह है कि theory से experiment तेज़ चलता है, इसलिए बाद में explanation देने की नौबत आती है
फिर भी, यह सवाल कि neural networks दूसरे models से बेहतर क्यों काम करते हैं, अब उसका काफ़ी मज़बूत जवाब नज़दीक आता दिख रहा है
समस्या यह है कि असल में लोग जिस सवाल को लेकर सचमुच जिज्ञासु थे, वह यह नहीं था, इसलिए अब शायद हम उस चरण में हैं जहाँ अगला सवाल क्या होना चाहिए, यह तय करना है
यह सवाल कि यह क्यों काम करता है, मोटे तौर पर हल हो चुका है, और असली बात यह है कि noise floor की तुलना में irreversible information loss को efficiently कैसे minimize किया जाए
गणित ज़्यादा efficient रास्ता दिखाता है, लेकिन industry कई सालों से सिर्फ़ बड़े models को धकेलने में लगी रही, जिससे काफ़ी बर्बादी हुई
एक अच्छी तरह बनाया गया 70B model भी capability loss के बिना लगभग 16GB स्तर पर चलाया जा सकता है और उसमें आगे training भी संभव हो सकती है, लेकिन funding लगातार सिर्फ़ bigger पर ही गई
अब industry ने लक्ष्य को Agency और Long-horizon Persistence की ओर शिफ्ट कर दिया है, और predictive calculator से लंबे समय तक टिकने वाले systems की ओर यह बदलाव non-equilibrium thermodynamics की समस्या के ज़्यादा क़रीब है
इसमें ऐसे गणित और नियम हैं जो AI पर भी सीधे लागू होते हैं, और model के अंदर signal के टिके रहने का सिद्धांत और agent के टिके रहने का सिद्धांत लगभग उसी गणित से जुड़ते हैं
मेरी विशेषज्ञता भी यही persistence है, और AI क्षेत्र को दूसरे क्षेत्रों में पहले से सीखे गए first principles को फिर से मुश्किल से सीखते देखना ईमानदारी से कहूँ तो कभी-कभी निराशाजनक लगता है
इसलिए मैं ऐसे documents लिखकर साझा करता हूँ जो बताते हैं कि यह गणित कैसे काम करता है और इसे अलग-अलग domains में कैसे apply किया जाए; उन्हें पढ़ने के बाद intuition से अंदाज़ा लगाने के बजाय ठीक-ठीक समझ आता है कि persistence बढ़ाने के लिए क्या सुधारना है
model को कुछ घंटे तक काम कराते रहना जैसे सवाल तो लगभग प्यारे लगते हैं; इससे कहीं ज़्यादा मूलभूत सवाल अलग हैं
classical perspective से देखें तो overparameterization या दूसरी neural network structures के effects ईमानदारी से कहूँ तो सहज नहीं लगते
मैं मानता हूँ कि double descent empirically काम करता है, लेकिन सहज रूप से लगता है कि ऐसा नहीं होना चाहिए
Hastie आदि की Elements को पसंद करने वाले व्यक्ति के तौर पर, सिर्फ़ bias-variance tradeoff देखकर भी ऐसे नतीजे आना मुश्किल लगता है
यह बात कई वर्षों से मन में अटकी हुई है, इसलिए अगर इसमें प्रगति हुई है तो वह दार्शनिक स्तर पर भी बेहद उपयोगी होगी
मैंने अभी सिर्फ़ introduction पढ़ा है, लेकिन लेखन अच्छा है और इस तरह के research program को पूरा समर्थन देने का मन होता है
यह कुछ वैसा ही लगता है जैसे bagging या boosting पहले theory के बिना empirically सफल हुए थे
शायद इसका बड़ा कारण यह है कि neural networks को अक्सर classically interpretable linear regression के ठीक उलट के रूप में पेश किया गया
engineering इतनी तेज़ी से आगे बढ़ती है कि अगर research तुरंत नतीजे न दे तो उसे इंतज़ार देने का माहौल ही नहीं बनता
यहाँ तक कि interpretability researchers भी कभी-कभी ऐसा लगता है कि अगर जल्दी कोई दिखने वाला परिणाम न मिले तो बहुत जल्द हार मान लेते हैं
अगर non-experts के लिए भी कोई reference material हो तो जानना चाहूँगा
यह सही है कि वे image जैसे उन problem classes को कहीं व्यापक रूप से संभाल सकते हैं जहाँ traditional ML को मुश्किल होती है, लेकिन जहाँ fair comparison संभव है, वहाँ gradient boosting कई बार बेहतर निकलता है, ऐसा मैंने समझा है
मेरी समझ में न आने वाली बात यह है
neural network का विचार तो दशकों से था, लेकिन उसे ख़ास ध्यान नहीं मिला; फिर 2017 के Attention Is All You Need के बाद deep learning विस्फोटक रूप से बढ़ गया
मुझे पता है कि GPU deep learning को accelerate करते हैं, लेकिन transformer की अवधारणा खुद कहीं धीमे hardware पर भी पहले आज़माई जा सकती थी, ऐसा लगता है
AlexNet ने https://en.wikipedia.org/wiki/AlexNet के अनुसार ImageNet classification competition में पहले की तुलना में बिल्कुल अलग स्तर का performance gain दिखाया, और उसके बाद बड़े ML image labs सभी deep CNN की ओर मुड़ गए
कुछ ही वर्षों में दूसरे approaches SOTA image competitions से लगभग ग़ायब हो गए, और फिर deep neural networks ने ML के दूसरे क्षेत्रों पर भी प्रभुत्व जमा लिया
प्रचलित समझ आखिरकार दो चीज़ों के मेल पर टिकी है
पहली, पहले की तुलना में बहुत ज़्यादा compute; दूसरी, ImageNet जैसे कहीं बड़े और hand-curated, labeled high-quality datasets
attention text जैसी relatively free order structure वाली sequences में complex relations सीखने के लिए विशेष रूप से उपयोगी था, लेकिन अब बहुत से लोग architecture को learning के essence से ज़्यादा data और compute की कमी होने पर एक tradeoff विकल्प की तरह देखते हैं
आखिरकार https://en.wikipedia.org/wiki/Bitter_lesson की तरह ज़्यादा compute और ज़्यादा data, ऐसे supposedly smarter models को भी हरा देते हैं जो अच्छी तरह scale नहीं करते
इंसानों में लगभग 10^11 neurons होते हैं, कुत्तों में 10^9, और चूहों में 10^7 के आसपास, और यहाँ ध्यान देने वाली बात यह है कि ये सब बहुत बड़े अंक हैं
चूहे जैसी सीमित intelligence को भी करोड़ों neurons चाहिए, और intelligence शायद तभी उभरती है जब computation capacity एक निश्चित सीमा से ऊपर पहुँचती है
शायद ऐसा इसलिए है क्योंकि complex learning environments की intrinsic complexity संभालने के लिए बहुत सारे parameters चाहिए
इसके उलट, simple या highly structured problems में कम parameters वाले methods काफ़ी अच्छे चलते हैं, और कुछ मामलों में optimal भी साबित किए जा चुके हैं
हम जिस learning और intelligence की बात करते हैं, वह आम तौर पर complex environments को मानकर चलती है, और ऐसी complexity स्वाभाविक रूप से बहुत बड़े parameter counts माँगती है
उसने competition पर दबदबा बना लिया और कुछ ही सालों में image tasks में वही approach लगभग standard बन गई
शायद Jeremy Howard थे, जिन्होंने 2017 के आसपास लिखा था कि NLP में ऐसा transfer learning कब आएगा जो image में convnet जितना असरदार हो
उस साल attention paper ने तुरंत दुनिया पर राज नहीं कर लिया था; उस समय hardware भी कमज़ोर था और scale सब कुछ हल कर देगा, इस पर भी consensus नहीं था
GPT-3 के उभरने तक लगभग 5 साल और लगे, और तभी आज की लहर सच में शुरू हुई
और लोग इन दानवों को train करने में लगने वाले compute scale को अक्सर बहुत कम आँकते हैं; एक 1GHz single processor पर इस स्तर के model को train करने में लगभग 10 करोड़ साल लगेंगे
GPT-3 स्तर के model को भी लगभग 25,000 GPUs लेकर कई महीने लगते हैं, और 10 साल पुराने GPUs की कमज़ोर memory पर बड़े transformers की training लगभग असंभव थी
पुराने k80 में लगभग 12GB memory थी, जबकि आज के H100/H200 सैकड़ों GB स्तर पर हैं; इसलिए बड़े transformers को 2020 के शुरुआती वर्षों से पहले व्यावहारिक रूप से बनाया ही नहीं जा सकता था
2010 के दशक के उत्तरार्ध में gamers का यह शिकायत करना भी याद आता है कि ML की वजह से GPU की क़ीमतें आसमान छू रही हैं
दिलचस्प बात यह है कि उससे पहले neural networks को लगभग महत्वहीन चीज़ माना जाता था
जब मैंने 2000 के आसपास इससे जुड़ी classes ली थीं, तब भी माहौल लगभग ऐसा ही था
फिर से चिंगारी भड़कने के लिए आखिरकार ImageNet जैसे विशाल training data और तेज़ processors दोनों की ज़रूरत थी
उसके बाद specific architectures पर लगातार follow-up improvements आते गए और चीज़ें snowball की तरह बढ़ती गईं
व्यापक community की नज़र में AlexNet बड़ा turning point है, लेकिन academia के भीतर हवा उससे 2–3 साल पहले ही बदलने लगी थी
मैंने 2008–09 के आसपास workshops में neural network से जुड़े talks को अब अनदेखा न किया जाता देखना शुरू कर दिया था
matrices तो 400 साल पहले से थीं, लेकिन linear algebra, ख़ासकर numerical linear algebra, का विस्फोट computers के आने के बाद हुआ
पहले systems of equations को minors theory से हल करना standard माना जाता था, लेकिन computer आने पर Gaussian elimination और Krylov spaces जैसी theory ने तेज़ी से प्रगति की
लोगों ने कल्पना तो की होगी, पर hardware न होने के कारण उसे व्यवहार में उतार नहीं सके
सरल शब्दों में, LLM मूलतः transformer के साथ बहुत विशाल मात्रा का data जोड़ने का नतीजा है, और इतने बड़े data को वास्तव में train करने योग्य बनाने के लिए पर्याप्त शक्तिशाली hardware अनिवार्य था
यह बात रोचक लगती है कि हम एक learning tool यानी मस्तिष्क का उपयोग दूसरे learning tool को समझने के लिए कर रहे हैं
SGD पहले से ही काफ़ी अच्छी तरह काम करता है, और उसे कुछ गुना बेहतर बना देने से शायद यह बुनियादी सवाल हल न हो कि black box वास्तव में क्या कर रहा है
learning कैसे होती है और model वास्तव में क्या कर रहा है, ये अलग-अलग सवाल हैं, और हमारा मस्तिष्क भी कई मायनों में एक black box ही है
इसलिए learning mechanisms पर research, psychology, और thought तथा language की प्रकृति से जुड़े philosophical ideas के बीच और मज़बूत कड़ी की ज़रूरत लगती है
यह उत्साहजनक है, लेकिन मुझे title थोड़ा बढ़ा-चढ़ाकर कहा हुआ लगता है
deep learning वास्तव में क्या कर रही है, इसे समझने के attack points जैसा कुछ ज़्यादा सटीक होता, लेकिन शायद उतना आकर्षक नहीं लगता
अगर इससे यह मापने के तरीक़े निकलें कि deep learning systems कब hallucination पैदा करते हैं, तो इसकी बहुत बड़ी क़ीमत होगी
तब तक deep learning systems को केवल उन्हीं कामों तक सीमित रखना पड़ेगा जहाँ इनके बकवास output से नुक़सान कम हो
उदाहरण के लिए hallucination जैसा शब्द ही LLM output पर जबरन मानवीय अर्थ थोपता है
वास्तविक mathematical working के हिसाब से देखें तो hallucination भी बस एक और output है, और उसका दूसरे outputs से कोई स्पष्ट boundary परिभाषित नहीं है
यह मेरे मुख्य research directions में से एक भी है, इसलिए मेरा bias हो सकता है
आम approach OOD detection है, लेकिन मुझे हमेशा लगा है कि इसकी problem formulation ही अस्थिर है
इसलिए मैं सहकर्मियों के साथ model misspecification को मापने वाले ज़्यादा मूलभूत approach पर काम कर रहा हूँ, लेकिन उसका compute cost इतना अधिक है कि अभी यह niche topic जैसा ही है
किसी भी दिशा से breakthrough आने में शायद अभी और समय लगेगा
यह देखकर मुझे लगा कि यह conceptually vibecoding जैसा है
पहले किसी तरह चीज़ को काम करने लायक बनाओ, और उसके बाद यह समझना कि वह क्यों और कैसे काम करती है, वह बिल्कुल अलग काम है
ज़रा ठहरिए, ऐसी चीज़ बना लेने के बाद जिसे अभी तक न ठीक से समझते हैं और न ही समझा पाते हैं, अब उसे science कहा जाएगा?
दशकों से biology, ख़ासकर neurobiology, की terminology उधार ली जाती रही है, और अंत में यह कुछ हद तक बंदर की नकल की तरह copy paste जैसा भी लगता है
ईमानदारी से कहूँ तो, इस तरह की universal theory की दो कोशिशें मुझे और ज़्यादा दिलचस्प लगीं
https://arxiv.org/abs/2510.12269
https://www.mdpi.com/1099-4300/28/3/332
fuzzy logic से इसका संबंध भी जानने की उत्सुकता है
neural networks मानो अस्पष्ट तरीक़े से reasoning करते दिखते हैं, लेकिन औपचारिक रूप से उसे क्या कहा जाए, यह स्पष्ट नहीं है
कई वर्षों तक fuzzy reasoning को formalize करने की कोशिशें हुईं, लेकिन अब लगता है कि कोई उसकी परवाह नहीं करता
मुझे neural networks और transformers, ML के OOP जैसे लगते हैं
बेहद लोकप्रिय, व्यवहार में काफ़ी उपयोगी, लेकिन बुनियादी स्तर अब भी धुंधला; और ऐसा लगता है मानो जो पहले भी व्यक्त किया जा सकता था, उसे नई भाषा में फिर से व्यक्त कर रहे हों, मगर असली फ़ायदा कहाँ से आ रहा है, यह पकड़ना कठिन है
मैंने अभी पूरा paper नहीं पढ़ा है, लेकिन लेखन सचमुच immersive है और काफ़ी विचारपूर्ण लगा
इसमें पचाने के लिए बहुत कुछ है, लेकिन यह सब एक ही जगह संकलित देखना बेहद दिलचस्प है
मुझे लगता है कि high level पर deep learning के अच्छी तरह काम करने की वजह आखिरकार यह है कि वह और अधिक data पर लगातार learning करने में दूसरे approaches से बेहतर है
लेकिन अगर आज उपलब्ध विशाल मात्रा का data न होता, तो architecture इतना महत्वपूर्ण नहीं होता
model-data समीकरण के दोनों पक्षों को साथ समझाए बिना, उदाहरण के लिए reasoning models क्यों reason करते हैं, इस पर कोई ठोस scientific theory बनाना मुश्किल लगता है
model, architecture और training data दोनों का संयुक्त उत्पाद है
अभी यह समस्या उतनी ही कठिन लगती है जितनी यह समझाना कि इंसान या जानवर इतने बड़े input data के बीच से कुछ खास चीज़ें कैसे सीखते हैं
empirical understanding बेहतर होगी, लेकिन मूल बात शायद फिर भी पूरी तरह computer science तक सीमित न की जा सके
असली complexity का केंद्र architecture से ज़्यादा giga-datasets में है, ऐसा मुझे लगता है
theory तब निर्णायक रूप से महत्वपूर्ण हो जाती है जब failure modes की prediction ज़रूरी हो
ऐसा decision-support system जो ज़्यादातर समय ठीक चले लेकिन edge cases में चुपचाप विफल हो जाए, वह अपनी सीमाएँ साफ़ बताने वाले साधारण system से भी ज़्यादा ख़तरनाक है
bias mechanisms को समझने से यह अलग करने में मदद मिलती है कि model कब सचमुच confident है और कब सिर्फ़ pattern matching कर रहा है
stakes ऊँचे होने वाले environments में यह फ़र्क़ ख़ास तौर पर महत्वपूर्ण है