Richard Sutton और Andrew Barto को 2024 Turing Award

(awards.acm.org)

1 पॉइंट द्वारा GN⁺ 2025-03-06 | 1 टिप्पणियां | WhatsApp पर शेयर करें

ACM ने reinforcement learning की वैचारिक और algorithmic नींव रखने वाले Andrew G. Barto और Richard S. Sutton को 2024 ACM A.M. Turing Award का विजेता चुना है
दोनों ने 1980 के दशक से reward-based learning को एक सामान्य problem framework के रूप में औपचारिक रूप दिया और ऐसे approaches विकसित किए जो environment और reward की जानकारी न होने पर भी काम करते हैं
उनके प्रमुख योगदान temporal difference learning, policy-gradient methods, neural network-आधारित function representation, और learning व planning को जोड़ने वाले agent design तक फैले हैं
1998 की पाठ्यपुस्तक Reinforcement Learning: An Introduction को 75,000 से अधिक citations मिल चुके हैं, और इसका प्रभाव AlphaGo, ChatGPT के RLHF, robot manipulation, network congestion control, और chip design जैसे क्षेत्रों पर पड़ा है
Turing Award के साथ Google के समर्थन से 10 लाख डॉलर की पुरस्कार राशि दी जाती है, और ACM का मानना है कि reinforcement learning ने AI की प्रगति और मस्तिष्क के काम करने के तरीके को समझने—दोनों में योगदान दिया है

पुरस्कार विजेता और चयन का कारण

ACM ने Andrew G. Barto और Richard S. Sutton को 2024 ACM A.M. Turing Award का विजेता चुना है
चयन का कारण reinforcement learning की वैचारिक और algorithmic नींव विकसित करने में उनका योगदान है
दोनों ने 1980 के दशक से अपने शोधपत्रों के माध्यम से reinforcement learning के मुख्य विचार पेश किए और इसकी गणितीय नींव तथा प्रमुख algorithms तैयार किए
Barto, University of Massachusetts, Amherst में Information and Computer Sciences के professor emeritus हैं
Sutton, University of Alberta में computer science के professor, Keen Technologies में research scientist, और Amii (Alberta Machine Intelligence Institute) के fellow हैं
ACM A.M. Turing Award को “computing का Nobel Prize” कहा जाता है, और Google, Inc. के वित्तीय समर्थन से इसके साथ 10 लाख डॉलर की पुरस्कार राशि दी जाती है

reinforcement learning किस समस्या को हल करता है

कृत्रिम बुद्धिमत्ता का क्षेत्र सामान्य रूप से ऐसे agent बनाने से जुड़ा है जो environment को समझें और उसके अनुसार action लें
अधिक बुद्धिमान agent को बेहतर action path चुनने चाहिए, और कौन-सा action दूसरे से बेहतर है यह तय करना AI के केंद्र में है
reward मनोविज्ञान और neuroscience से आया शब्द है, जिसका अर्थ agent के behavior की quality से जुड़ा signal है
reinforcement learning वह प्रक्रिया है जिसमें यही reward signal आधार बनकर अधिक सफल तरीके से काम करना सिखाता है
Alan Turing ने 1950 के शोधपत्र “Computing Machinery and Intelligence” में “क्या मशीन सोच सकती है?” प्रश्न पर चर्चा करते हुए reward और punishment पर आधारित machine learning approach का प्रस्ताव दिया था
Arthur Samuel ने 1950 के दशक के उत्तरार्ध में self-play से सीखने वाला checkers program बनाया था, लेकिन उसके बाद कई दशकों तक इस दिशा के AI में बहुत कम प्रगति हुई

Barto और Sutton के तकनीकी योगदान

1980 के शुरुआती वर्षों में Barto और उस समय उनके PhD student Sutton ने मनोविज्ञान से मिली प्रेरणा के आधार पर reinforcement learning को एक general problem framework के रूप में औपचारिक रूप देना शुरू किया
दोनों ने Markov decision process (MDP) की गणितीय नींव का उपयोग किया
- MDP में agent एक probabilistic environment में निर्णय लेता है
- हर transition के बाद उसे reward signal मिलता है, और लक्ष्य लंबी अवधि के cumulative reward को अधिकतम करना होता है
पारंपरिक MDP theory यह मानती है कि सारी जानकारी agent को ज्ञात है, लेकिन reinforcement learning framework उन स्थितियों को भी संभालता है जहाँ environment और reward ज्ञात नहीं होते
जानकारी की आवश्यकता कम होने और MDP framework के सामान्य होने के कारण reinforcement learning को कई तरह की समस्याओं पर लागू किया जा सकता है
Barto और Sutton ने संयुक्त शोध और बाद की साझेदारियों के माध्यम से कई बुनियादी reinforcement learning algorithmic approaches विकसित किए
- सबसे महत्वपूर्ण योगदान temporal difference learning है, जिसने reward prediction की समस्या को हल करने में बड़ी प्रगति की
- policy-gradient methods भी प्रमुख approaches में शामिल हैं
- उन्होंने neural networks का उपयोग सीखे गए functions को represent करने के साधन के रूप में आगे बढ़ाया
- उन्होंने ऐसे agent designs भी प्रस्तावित किए जो environment के ज्ञान को हासिल करके planning की नींव बनाते हैं और learning व planning को जोड़ते हैं

पाठ्यपुस्तक और deep reinforcement learning तक प्रभाव

1998 की पाठ्यपुस्तक Reinforcement Learning: An Introduction आज भी इस क्षेत्र का मानक reference है और इसे 75,000 से अधिक बार उद्धृत किया जा चुका है
इस पुस्तक ने हजारों researchers को reinforcement learning जैसे उस समय उभरते क्षेत्र को समझने और उसमें योगदान देने में मदद की, और इसका असर आज की computer science research गतिविधियों पर भी है
Barto और Sutton के algorithms दशकों पहले विकसित हुए थे, लेकिन पिछले 15 वर्षों में reinforcement learning और deep learning algorithms के संयोजन से practical applications में बड़ी प्रगति हुई है
इसी संयोजन से deep reinforcement learning तकनीकें विकसित हुईं
deep learning algorithms के बारे में बताया गया है कि इन्हें 2018 Turing Award विजेता Bengio, Hinton, और LeCun ने आगे बढ़ाया

उपयोग के उदाहरण और शोध का विस्तार

reinforcement learning के प्रतिनिधि उदाहरणों में 2016 और 2017 में AlphaGo द्वारा शीर्ष मानव Go खिलाड़ियों को हराना शामिल है
ChatGPT को भी प्रमुख उपलब्धियों में गिना गया है
- ChatGPT एक large language model है जिसे दो चरणों में प्रशिक्षित किया गया
- दूसरे चरण में मानव अपेक्षाओं को बेहतर ढंग से पकड़ने के लिए reinforcement learning from human feedback (RLHF) का उपयोग किया गया
robotics में in-hand robot manipulation और भौतिक Rubik’s Cube को हल करने जैसे उदाहरण शामिल हैं
- ये दिखाते हैं कि reinforcement learning को simulation में प्रशिक्षित करने के बाद भी, काफ़ी अलग वास्तविक दुनिया में सफल बनाया जा सकता है
अन्य application क्षेत्रों में network congestion control, chip design, internet advertising, optimization, global supply chain optimization, chatbots के behavior और reasoning abilities में सुधार, और matrix multiplication algorithms को बेहतर बनाना शामिल है
neuroscience से प्रेरित तकनीकों ने वापस neuroscience को भी प्रभावित किया है
- Barto के कार्य सहित हालिया शोध यह संकेत देते हैं कि AI में विकसित कुछ reinforcement learning algorithms मानव मस्तिष्क की dopamine system से जुड़ी कई खोजों को सबसे अच्छी तरह समझाते हैं

ACM और Google का आकलन

ACM President Yannis Ioannidis ने कहा कि Barto और Sutton का शोध यह दिखाता है कि computing की पुरानी चुनौतियों पर multidisciplinary approach कितनी प्रभावी हो सकती है
cognitive science, psychology, और neuroscience ने reinforcement learning की प्रगति को प्रेरित किया, और reinforcement learning ने AI में महत्वपूर्ण प्रगति की नींव के साथ-साथ मस्तिष्क के कामकाज पर भी गहरी अंतर्दृष्टि दी है
Ioannidis ने कहा कि reinforcement learning कोई बीता हुआ पड़ाव नहीं है, बल्कि यह लगातार बढ़ता हुआ क्षेत्र है जो computing और कई अन्य क्षेत्रों में आगे की प्रगति की संभावना देता है
Google Senior Vice President Jeff Dean ने Alan Turing के 1947 के एक व्याख्यान का हवाला देते हुए कहा, “हमें ऐसी मशीन चाहिए जो अनुभव से सीख सके”
Dean के अनुसार, Barto और Sutton द्वारा विकसित reinforcement learning सीधे Turing की उस चुनौती का उत्तर देता है, पिछले कई दशकों में AI प्रगति का एक प्रमुख स्तंभ रहा है, और AI boom के केंद्र में आज भी बना हुआ है

पुरस्कार विजेताओं का परिचय

Andrew Barto, University of Massachusetts, Amherst में Information and Computer Sciences विभाग के professor emeritus हैं
- उन्होंने 1977 में UMass Amherst में postdoctoral researcher के रूप में अपना करियर शुरू किया
- इसके बाद उन्होंने Associate Professor, Professor, Department Chair जैसी भूमिकाएँ निभाईं
- उन्होंने University of Michigan से mathematics में bachelor’s degree तथा Computer and Communication Sciences में master’s और PhD प्राप्त की
- उन्हें UMass Neurosciences Lifetime Achievement Award, IJCAI Award for Research Excellence, और IEEE Neural Network Society Pioneer Award मिल चुका है
- वे IEEE Fellow और AAAS Fellow हैं
Richard Sutton, University of Alberta में computing science के professor, Dallas स्थित artificial general intelligence company Keen Technologies में research scientist, और Amii के chief scientific advisor हैं
- 2017 से 2023 तक वे DeepMind Distinguished Research Scientist रहे
- 1998 से 2002 तक उन्होंने AT&T Shannon Laboratory के AI विभाग में Principal Technical Staff Member के रूप में काम किया
- Barto के साथ उनका सहयोग 1978 में University of Massachusetts at Amherst में शुरू हुआ था, और Barto उनके PhD तथा postdoctoral supervisor थे
- उन्होंने Stanford University से psychology में bachelor’s degree तथा University of Massachusetts at Amherst से Computer and Information Science में master’s और PhD प्राप्त की
- उन्हें IJCAI Research Excellence Award, Canadian Artificial Intelligence Association Lifetime Achievement Award, और University of Massachusetts at Amherst Outstanding Achievement in Research Award मिल चुके हैं
- वे Royal Society of London, Association for the Advancement of Artificial Intelligence, और Royal Society of Canada के fellow हैं

1 टिप्पणियां

GN⁺ 2025-03-06

Hacker News की राय

यह देखकर वाकई खुशी हुई। पता चला कि हम पति-पत्नी ने Andy Barto दंपति का घर खरीदा था
खरीद प्रक्रिया में bidding war थी, और जब कहा गया कि “अपना best offer दीजिए”, तो यह जानकर कि वे गणितज्ञ हैं, मैंने prime number वाली रकम की पेशकश की। उनके काम को मान्यता मिलते देखना अच्छा है
- मज़ाक में “चलो बराबरी से चलते हैं, 2 डॉलर कैसे रहेंगे?” भी कह सकते थे
- “prime number वाली रकम” से मतलब $12345678910987654321 था क्या?
- कमाल की कहानी है। जानना चाहूंगा कि वह prime amount कितनी थी
शानदार, और पूरी तरह योग्य। उन्होंने reinforcement learning textbook के दोनों संस्करण free PDF के रूप में उपलब्ध कराए हैं
मैं 1982 से paid AI practitioner रहा हूं, लेकिन reinforcement learning मेरे लिए निजी तौर पर सीखने में कठिन विषय था, और Sutton/Barto की किताब तथा White professors के Coursera reinforcement learning lectures ने बहुत मदद की। सिफारिश करता हूं
किताब के example programs Common Lisp और Python में उपलब्ध हैं: http://incompleteideas.net/book/the-book-2nd.html
अभी The Bitter Lesson दोबारा पढ़ने का अच्छा समय है: https://www.cs.utexas.edu/~eunsol/courses/data/bitter_lesson...
- आधिकारिक URL यहां है: <http://www.incompleteideas.net/IncIdeas/BitterLesson.html>
- यह सचमुच कड़वा सबक है। पहले मानव ज्ञान को computer में encode करना मजेदार था, और उससे यह समझ में आता था कि क्या हो रहा है
  अब सब कुछ ऐसे विशाल black box में बदलता जा रहा है जिसके बारे में reasoning करना मुश्किल है। साथ ही Moore's law self-fulfilling prophecy बन गया है। AI compute demand को बहुत बढ़ा रहा है, जिससे chip makers dedicated hardware बना रहे हैं, और यह flywheel की तरह घूम रहा है
- यह इस पर थोड़ा निर्भर करता है कि AI research का लक्ष्य क्या है। अगर लक्ष्य ऐसी machines बनाना है जो वे काम अच्छी तरह करें जिन्हें पहले सिर्फ मानव मन ही कर सकता है या जिनके लिए मानव मन जरूरी माना जाता था, तो यह कड़वा सबक पूरी तरह मूल्यवान है
  लेकिन अगर उद्देश्य machine को X करना सिखाते हुए यह भी समझना है कि इंसान X कैसे करते हैं, तो लगातार जटिल होती statistical constructions से मिलने वाली जानकारी सीमित है। मैं किसी एक पक्ष में नहीं हूं; मेरा मतलब है कि शायद ज्यादा nuanced approach की जरूरत हो सकती है
- Computer vision में भी ऐसा ही trend था। शुरुआती methods vision को edges, generalized cylinders, SIFT features खोजने की तरह treat करते थे, लेकिन आज ये चीजें छोड़ दी गई हैं और modern deep learning neural networks सिर्फ convolutions और कुछ invariances के साथ कहीं बेहतर काम करते हैं
  मैं उस समय field में था जब vision में pattern matching मरना शुरू हो रहा था। यह पूरी तरह गायब नहीं हुआ, और तब सीखी चीजें आज भी दूसरी जगहों पर उपयोगी हैं
- Classical natural language processing practitioners ने जो कड़वा सबक सीखा होगा, उसे सोचकर ही चक्कर आ जाता है। वह लेख आज भी सही है
उनकी किताब Reinforcement Learning: An Introduction AI/machine learning क्षेत्र की सबसे approachable texts में से एक है, इसलिए इसकी जोरदार सिफारिश करता हूं
- मैंने reinforcement learning में जाने की कोशिश की थी, लेकिन हमेशा formulas और star लगे तरह-तरह के हिस्सों को देखकर लगा कि यह मेरे level से काफी ऊपर है
- पृष्ठभूमि क्या है, यह जानना चाहूंगा। दुर्भाग्य से मुझे वह किताब इतनी approachable नहीं लगी
- वह किताब पढ़ने में आनंद देती है। जोरदार सिफारिश
- आप जिस किताब की बात कर रहे हैं, वह Reinforcement Learning: An Introduction है? या उन्होंने कोई और किताब भी लिखी है?
संतुलन बनाना होता तो यह physics वालों को देना चाहिए था
यह याद रखना जरूरी है कि Sutton human successionist हैं और ऐसे व्यक्ति हैं जिन्हें मानवता के पूरी तरह खत्म हो जाने से भी फर्क नहीं पड़ेगा। वे भरोसे या सम्मान के पात्र नहीं हैं: https://www.youtube.com/watch?v=NgHFMolXs3U
- ACM award उनके professional academic achievements के लिए दिया जाता है। किसी की निजी जिंदगी खंगालकर उसके सबसे अजीब कहे हिस्से को ढूंढना और उसके आधार पर जीवनभर की पूरी उपलब्धि को बुराई से ढक देना—यह obsession बंद होना चाहिए
  सिर्फ इसलिए कि आपको A पसंद नहीं है और उस व्यक्ति ने A कहा या किया, दुनिया बदल सकने वाले B पर उसकी महान उपलब्धि को कोई भी रद्द कर दे—यह मूर्खतापूर्ण और खतरनाक है। Internet किसी विषय को सच में जानने वालों के judgement और सिर्फ antipathy को बराबर वजन दे देता है। यह तरीका बड़े पैमाने पर लोगों को बांट रहा है, और इससे गुस्सा आता है
- क्या आपने Sutton से कभी व्यक्तिगत रूप से मुलाकात की है? वे उन लोगों में से हैं जिनसे मैं मिला हूं—सबसे warm, considerate और passionate hippie जैसे। वे नहीं चाहते कि सभी इंसान मर जाएं
  आपने जो talk link की है, वह भी उस दावे का समर्थन नहीं करती। अगर मुझसे कुछ छूट गया हो तो timestamp छोड़िए। talk में वे कहते हैं कि भले ही मानवता अपने भाग्य को अकेले नियंत्रित न करे, यह समृद्धि के युग की ओर ले जाएगा। 12:33 की conclusion slide में शब्दशः “मानवता के दीर्घकालिक भविष्य के लिए सर्वोत्तम आशा” नाम का item है। यह “उन्हें मानवता के पूरी तरह मर जाने से फर्क नहीं पड़ता” के बिल्कुल उलट है
  अगर मैं succession की तैयारी कर रहा हूं, तो इसका मतलब यह नहीं कि मैं चाहता या उम्मीद करता हूं कि मेरी बेटी मेरी हत्या करे। मैं चाहता हूं कि स्वस्थ, लंबी retirement के बाद, universe के साथ symbiotic relationship में उसे जितना बेहतर दे सकता था देकर, यह जानकर शांति से सो जाऊं
- “उन्हें मानवता के पूरी तरह खत्म हो जाने से भी फर्क नहीं पड़ेगा” उनके stance की कठोर और भ्रमित करने वाली अभिव्यक्ति लगती है
  मुझे लगता है कि वे इस विश्वास के ज्यादा करीब हैं कि इंसान अंततः transhumans से replace हो जाएंगे और यह unavoidable है। यह दुर्भावना की बजाय rough science-fiction-style utopianism जैसा लगता है, और उनके academic work का सम्मान न करने का कारण नहीं लगता
- ऐसा viewpoint बताना दिलचस्प है, लेकिन यह समझ नहीं आता कि किसी की असहमत राय होने मात्र से उसे भरोसे या सम्मान के योग्य क्यों नहीं माना जाए
  खासकर Sutton सक्रिय रूप से चाहते हैं कि सब मर जाएं—यह संकेत बहुत कमजोर आधार पर टिका दिखता है
- उनकी last slide में शब्दशः “मानवता के दीर्घकालिक भविष्य के लिए सर्वोत्तम आशा” लिखा है। यह दावे के बिल्कुल उलट है
मैंने अपने पढ़ाए course में उनकी reinforcement learning book इस्तेमाल की थी। लिखावट खूबसूरत है और यह मुफ्त में उपलब्ध है: http://incompleteideas.net/book/the-book-2nd.html
वाक्य इतने अच्छे थे कि पढ़ते-पढ़ते कभी-कभी असली content छूट जाता था
Andrew Barto और Richard Sutton को Turing Award जीतने पर बहुत बधाई। छात्र जीवन में Reinforcement Learning: An Introduction इस field में प्रवेश का gateway थी
खास तौर पर chapter 6 Temporal Difference Learning ने sequential decision-making को देखने का तरीका मूल रूप से बदल दिया। यह timeless classic है, जिसे आज भी पढ़ने की जोरदार सिफारिश करता हूं
यह पुरस्कार बहुत पहले मिल जाना चाहिए था। उन्होंने एक idea को शुरू से अंत तक आगे बढ़ाकर, dynamic programming books के किसी subchapter से निकालकर पूरा field बना दिया
अच्छा होगा अगर reinforcement learning games में कहीं ज्यादा इस्तेमाल हो, जहां से यह सब शुरू भी हुआ था। यह सचमुच शानदार होगा
यह पुरस्कार योग्य है। Reinforcement learning neural networks के साथ अपनी flexibility की वजह से समय के साथ और महत्वपूर्ण होती जाएगी
scale बढ़ाते जाने पर कड़वा सबक भी शायद इतना कड़वा न लगे

Richard Sutton और Andrew Barto को 2024 Turing Award

पुरस्कार विजेता और चयन का कारण

reinforcement learning किस समस्या को हल करता है

Barto और Sutton के तकनीकी योगदान

पाठ्यपुस्तक और deep reinforcement learning तक प्रभाव

उपयोग के उदाहरण और शोध का विस्तार

ACM और Google का आकलन

पुरस्कार विजेताओं का परिचय

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय