Ilya Sutskever का NeurIPS व्याख्यान: seq2seq पर 10 साल बाद नज़र [वीडियो]

(youtube.com)

1 पॉइंट द्वारा GN⁺ 2024-12-15 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Ilya Sutskever ने NeurIPS 2014 के Sequence to Sequence Learning with Neural Networks को 10 साल बाद पीछे मुड़कर देखते हुए, आज के बड़े language model प्रवाह की शुरुआत को autoregressive text model, बड़े neural network, और बड़े dataset के रूप में समेटा
उस समय की साहसिक परिकल्पना यह थी कि यदि neural network अगले token की पर्याप्त अच्छी भविष्यवाणी कर ले, तो वह sequence के सही distribution को पकड़ सकता है, और इसे translation समस्या पर लागू किया गया
इम्प्लीमेंटेशन LSTM और 8 GPU pipelining पर आधारित था, जिससे 3.5 गुना speedup मिला, लेकिन आज के मानकों से pipelining को अच्छा विकल्प नहीं माना गया
GPT-2, GPT-3, scaling laws तक पहुँचा pretraining का युग इंटरनेट डेटा की सीमाओं के कारण अनिवार्य रूप से समाप्त होगा, और उनके अनुसार हम पहले ही peak data तक पहुँच चुके हैं
अगला चरण agent, synthetic data, inference-time compute, और o1 जैसे शुरुआती उदाहरणों की ओर जाता है, और लंबी अवधि में अधिक reasoning करने वाले, यहाँ तक कि self-awareness रखने वाले गुणात्मक रूप से अलग सिस्टम उभर सकते हैं

2014 के seq2seq पेपर को 10 साल बाद देखना

NeurIPS 2014 मॉन्ट्रियल में प्रस्तुत Sequence to Sequence Learning with Neural Networks 10 साल बाद पुनरावलोकन का विषय बना
Sutskever ने उस समय के सह-लेखकों और सहयोगियों को धन्यवाद दिया, और 10 साल पुराने प्रस्तुति स्लाइड्स को फिर से देखते हुए जाँचा कि क्या सही निकला और क्या कम सही था
पेपर का सार तीन बिंदुओं में समेटा गया
- टेक्स्ट पर प्रशिक्षित autoregressive model
- बड़े neural network
- बड़े dataset

उस समय की मुख्य अवधारणा और इम्प्लीमेंटेशन

2014 की प्रस्तुति में Deep Learning Hypothesis शामिल थी
- परिकल्पना यह थी कि 10-layer का बड़ा neural network वह काम कर सकता है जो इंसान 1 सेकंड से कम समय में कर सकता है
- इसका आधार यह विचार था कि artificial neuron कुछ हद तक biological neuron जैसे हैं, और वास्तविक neuron धीमे होते हैं
- उस समय train किए जा सकने वाले neural network लगभग 10 layer तक ही थे, इसलिए फोकस उन कामों पर था जिन्हें “इंसान बहुत तेजी से कर सकता है”
एक और मुख्य विचार यह था कि यदि autoregressive model अगले token की पर्याप्त अच्छी भविष्यवाणी करे, तो वह आगे आने वाली sequence के सटीक distribution को पकड़ लेता है
- यह पहला autoregressive neural network नहीं था, लेकिन इसे ऐसे शुरुआती उदाहरण के रूप में पेश किया गया जिसमें यह मजबूत विश्वास था कि सही training से मनचाहा परिणाम मिल सकता है
- उस समय का task translation था, जो आज देखने पर विनम्र लग सकता है, लेकिन तब यह बहुत साहसिक लक्ष्य था
इम्प्लीमेंटेशन में LSTM का उपयोग किया गया
- Sutskever ने LSTM को उस architecture के रूप में बताया जिसे Transformer से पहले के deep learning शोधकर्ता इस्तेमाल करते थे
- उन्होंने LSTM की तुलना “90 डिग्री घुमाए गए ResNet” से की, और कहा कि इसमें वह integrator और multiplication संरचना थी जिसे आज residual stream कहा जाता है
training parallelization के लिए GPU प्रति एक layer रखने वाली pipelining पद्धति अपनाई गई
- 8 GPU से 3.5 गुना speedup मिला
- आज के नज़रिए से pipelining समझदारी भरा विकल्प नहीं था, लेकिन तब यही तरीका अपनाया गया

scaling, connectionism, और pretraining का युग

2014 की निष्कर्ष स्लाइड को scaling hypothesis की शुरुआत माना जा सकता है
- इसमें यह विचार था कि बहुत बड़े dataset और बहुत बड़े neural network को train किया जाए तो सफलता सुनिश्चित होगी
- Sutskever का आकलन था कि उदार दृष्टि से देखें तो घटनाक्रम वास्तव में काफी हद तक इसी दिशा में आगे बढ़ा है
अधिक समय तक टिके रहने वाले विचार के रूप में उन्होंने connectionism को चुना
- उनका मानना था कि यदि artificial neuron को biological neuron से कुछ हद तक समान माना जाए, तो neural network को मानव मस्तिष्क के पैमाने तक बढ़ाए बिना भी उसे इंसान के लगभग सभी काम करने लायक बनाया जा सकता है
- हालांकि उन्होंने यह भी कहा कि मानव मस्तिष्क स्वयं को पुनर्गठित कर सकता है, जबकि मौजूदा learning algorithm को parameters की संख्या के लगभग बराबर data point चाहिए होते हैं, इसलिए इस मामले में इंसान अब भी बेहतर है
यही प्रवाह आगे pretraining के युग तक पहुँचा
- GPT-2, GPT-3, और scaling laws को प्रमुख उदाहरणों के रूप में बताया गया
- उनके पूर्व सहयोगी Radford, Kaplan, और Dario Amodei ने इस दिशा को व्यवहार में कामयाब बनाने में योगदान दिया
- आज की प्रगति की मुख्य ताकत बहुत बड़े dataset पर बहुत बड़े neural network को train करना रही है

pretraining के बाद की दिशा

Sutskever का मानना है कि pretraining का अंत होना तय है
- hardware, algorithm, और cluster compute को लगातार बढ़ा सकते हैं
- लेकिन data एक ही इंटरनेट पर निर्भर है, और इंटरनेट केवल एक है
- उन्होंने data को AI का fossil fuel कहा, और जोड़ा कि हम पहले ही peak data तक पहुँच चुके हैं, इसलिए अब हमें उपलब्ध data के साथ ही आगे बढ़ना होगा
pretraining के बाद कई दिशाओं की चर्चा होती है
- agent: भविष्य की दिशा के रूप में बार-बार सामने आने वाली अवधारणा
- synthetic data: इसका वास्तविक अर्थ क्या है, यह स्वयं एक बड़ी चुनौती है
- inference-time compute: हाल के o1 model में अधिक स्पष्ट दिखने वाली दिशा
biological उदाहरण के रूप में उन्होंने mammal के body size और brain size के संबंध की बात की
- mammal और non-human primate में समान संबंध दिखता है, लेकिन hominids में brain-body size scaling exponent का slope अलग होता है
- यह अंतर x-axis और y-axis दोनों के log scale वाले ग्राफ़ में दिखाई देता है
- उनका कहना था कि biology में भी अलग प्रकार की scaling के उदाहरण मिलते हैं, और अब तक AI वही चीज़ रही है जिसने पहली बार scale करना सीखा है

superintelligence, reasoning, और गुणात्मक रूप से अलग सिस्टम

लंबी अवधि में यह क्षेत्र superintelligence की ओर बढ़ रहा है
- मौजूदा language model और chatbot चौंकाने वाले हैं, लेकिन साथ ही अजीब तरह से कम विश्वसनीय भी हैं और कभी-कभी भ्रमित हो जाते हैं
- कुछ evaluations में वे नाटकीय रूप से अतिमानवीय प्रदर्शन भी दिखाते हैं, इसलिए इन दोनों रूपों को साथ समझना कठिन है
आगे आने वाले सिस्टम आज के सिस्टम से गुणात्मक रूप से अलग हो सकते हैं
- उनका अनुमान है कि वे वास्तविक अर्थ में agentic बनेंगे
- मौजूदा सिस्टम को उन्होंने meaningful स्तर का agent नहीं, बल्कि उसकी बहुत शुरुआती और कमजोर शुरुआत बताया
- उनका मानना है कि वे reasoning क्षमता विकसित करेंगे, सीमित data से समझेंगे, और भ्रमित नहीं होंगे
reasoning से unpredictability बढ़ती है
- पारंपरिक deep learning मानव intuition, जैसे 0.1 सेकंड की प्रतिक्रिया जैसी processing की नकल करने के अधिक करीब था, इसलिए वह अपेक्षाकृत अधिक predictable था
- reasoning करने वाला सिस्टम जितना अधिक reasoning करेगा, उतना ही अधिक unpredictable होगा
- उदाहरण के तौर पर उन्होंने कहा कि एक मजबूत chess AI सर्वश्रेष्ठ मानव chess खिलाड़ी के लिए भी unpredictable होता है
self-awareness को भी संभावना के दायरे में रखा गया
- उनका कहना था कि स्वयं भी world model का हिस्सा है, इसलिए self-awareness उपयोगी हो सकती है
- जब ये तत्व एक साथ आएँगे, तो ऐसे सिस्टम बन सकते हैं जिनके गुण और क्षमताएँ आज मौजूद सिस्टम से मूलभूत रूप से अलग हों
- ऐसे सिस्टम से पैदा होने वाली समस्याएँ भी आज की परिचित समस्याओं से बहुत अलग हो सकती हैं, और भविष्य वास्तव में अनुमान लगाना कठिन है

प्रश्नोत्तर में उठे मुद्दे

biologically inspired AI पर उन्होंने कहा कि यदि किसी के पास ठोस अंतर्दृष्टि है तो इस दिशा में जाना मूल्यवान हो सकता है
- उनके अनुसार अब तक सफल biological inspiration बहुत सीमित स्तर की रही है, जैसे “neuron का उपयोग करें”
- अधिक विस्तृत biological inspiration हासिल करना कठिन रहा है, लेकिन विशेष अंतर्दृष्टि हो तो वह उपयोगी हो सकती है
reasoning model hallucination को खुद ठीक कर सकते हैं या नहीं, इस प्रश्न पर उन्होंने कहा कि इसकी संभावना बहुत अधिक है
- लंबी अवधि में वे इस दिशा से सहमत हैं कि model reasoning के ज़रिए hallucination की उत्पत्ति को समझकर उसे ठीक कर सकते हैं
- उन्होंने यह भी नकारा नहीं कि कुछ शुरुआती reasoning model में यह पहले से हो रहा हो सकता है
- हालांकि उन्होंने कहा कि इसे autocorrect कहना इसकी वास्तविक व्यापकता को कम करके आँकना होगा
AI के अधिकार, सह-अस्तित्व, और incentive structure पर उन्होंने निश्चित उत्तर देने से परहेज़ किया
- उनका कहना था कि यदि AI इंसानों के साथ सह-अस्तित्व में रहे और अधिकार चाहे, तो यह बुरा परिणाम नहीं होगा
- लेकिन स्थिति बहुत अप्रत्याशित है, इसलिए इस पर आत्मविश्वास से कुछ कहना कठिन है
LLM क्या multi-hop reasoning में out-of-distribution generalization करता है, इस प्रश्न पर उन्होंने कहा कि इसका सीधा हाँ/ना उत्तर देना मुश्किल है
- “in-distribution” और “out-of-distribution” का अर्थ क्या है, यही स्वयं एक समस्या है
- statistical machine translation के दौर में dataset जैसा वही वाक्यांश न होने पर उसे generalization माना जाता था, लेकिन आज math competition problem और इंटरनेट discussion की समानता को लेकर यह बहस होती है कि वह memorization है या generalization
- generalization का मानदंड बहुत ऊँचा हो चुका है, और उनका उत्तर था कि इंसान बेहतर generalize करते हैं, लेकिन LLM भी कुछ हद तक out-of-distribution generalization करते हैं

1 टिप्पणियां

GN⁺ 2024-12-15

Hacker News की राय

यह प्रेज़ेंटेशन काफ़ी खोखला कंटेंट जैसा लगा
थके हुए दिमाग से जो सार याद है, वह पिछले 10 सालों का सारांश, यह बात कि उपलब्ध डेटा लगभग पूरा इस्तेमाल हो चुका है इसलिए scaling laws की सीमा के करीब पहुंच गए हैं, और अगला चरण agents, synthetic data, और compute में सुधार हो सकता है—इतना ही था
इसके अलावा ज़्यादातर artificial neural networks और biological neural networks की तुलना जैसी दोहराई हुई बातें थीं, जैसे शरीर के वजन और brain mass के बीच positive correlation, लेकिन कोई साफ़ तर्क-रेखा ज़्यादा दिखी नहीं
सवालों में hallucination को model खुद पहचान सकता है या नहीं, cryptocurrency से जुड़ा सवाल, और थोड़ा दिलचस्प multi-hop reasoning शामिल थे
- मैंने इसे मौके पर सुना था, और context ज़रूरी है। उन्हें test of time lecture series में बुलाया गया था, इसलिए history वाला हिस्सा लंबा था
  Ilya का स्वभाव और AI से उसका संबंध शायद अंत में ढीले-ढाले अनुमानों तक ले गया
  वे काफ़ी दूर के भविष्य के speculative topics पर बात करना चाहते हैं, लेकिन “कब और कैसे, यह नहीं कहूंगा, पर होगा” जैसी defensive शैली अपनाते हैं, जिससे विरोध करना मुश्किल हो जाता है
  यह तरीका आख़िरी cryptocurrency वाले सवाल की तरह अजीब लोगों को आकर्षित कर सकता है, और ठीक पहले GAN के प्रभाव पर हुई talk session के विषय से बाहर नहीं गई थी
- मुख्य बात शायद यह थी कि “अब यह उम्मीद नहीं की जा सकती कि बड़े-dimensional models को बड़े internet dumps पर train करने से capabilities लगातार बेहतर होती रहेंगी”
  यह एक वाक्य है, लेकिन काफ़ी अहम है, और भले ही बहुत लोग पहले से जानते हों, Sutskever ने खुद कहा—इस वजह से यह साझा समझ के रूप में स्थापित होने का महत्व रखता है
  बाकी हिस्सा असल में introduction और conclusion जैसा था
- हैरानी है कि किसी ने video को LLM से summarize करके warning text के साथ comment में post नहीं किया
- सबसे तेज़ दिमाग भी शायद हर बार request किए जाने पर हमेशा गहरी बात नहीं दे सकता
- सवाल बड़े warning signal जैसे लगे। Cryptocurrency, AI के human rights, AI के लिए “auto-correct” जैसे loose सवाल थे, और conference में सवाल पूछने वाले लोग वैसे भी अलग किस्म के होते हैं, फिर भी अभी AI क्षेत्र में scammy participants इतने ज़्यादा हैं कि वे असली research को ढक सकते हैं, ऐसा महसूस होता है
  अधिकांश basic contributors पहले से ही अच्छे contracts वाले millionaires हैं, और labs व departments ने AI research topics पर बड़ी funding हासिल कर ली है
  अगले 10 सालों में synthetic data, agents, और auto-generated images में cleavage न दिखे जैसी समस्याओं पर पैसा खर्च किया जा सकता है, लेकिन बुनियादी progress बहुत ज़्यादा होगी, ऐसा नहीं लगता
  /remindme 10 years
Sutskever ने जो कहा कि “जिस रूप में हम pretraining को जानते हैं, वह निस्संदेह खत्म होगा” और “हम data peak पर पहुंच चुके हैं और अब और नहीं है”, वही मुख्य बात है
यह तुलना भी आई कि internet तेल जैसा finite resource है, क्योंकि इंसानों द्वारा बनाया गया content finite है
तो internet data की जगह क्या लेगा? Curated synthetic datasets?
Copyright concerns की वजह से training में कम इस्तेमाल होने वाले बड़े proprietary datasets हैं, लेकिन अगर आप वास्तव में उस data के owner हैं, तो legal issues बहुत कम हो जाते हैं
उदाहरण के लिए Getty के पास विशाल image library है, और अगर कोई और उस पर train करे तो lawsuit का risk है, लेकिन Getty अपनी AI train करे तो बात अलग है
News Corp का Wall Street Journal, HarperCollins जैसे publishing assets से AI train करना भी कुछ ऐसा ही है
- Meta या Google जैसी जगहों के पास extra data की access थी, इसलिए भले ही सबके लिए data बहुतायत में न बचा हो, उनके लिए data पर्याप्त था और इसी वजह से synthetic data के उपयोग पर research कम आगे बढ़ी, ऐसा लगता है
  पहले object detector train करते समय मैंने Blender 3D models, parameter-adjustment scripts, और camera correction व overlay direction infer करने के लिए existing machine learning models का इस्तेमाल किया था, और यह real objects identify करने में बहुत अच्छी तरह काम करता था
  मुझे ऐसे लोग भी पता हैं जो game engines से vehicle training इसी तरह करते हैं
  Accuracy को बहुत बढ़ाने वाले कुछ unexpected tactical details होते हैं; उदाहरण के लिए 3D model की surface texture जैसे irrelevant factors को training set में ठीक से randomize करना चाहिए
  Training के समय objects पर random fractal patterns लगाने से object detector real-world perturbations के प्रति ज़्यादा robust हो जाता है
- अगर आप ऐसा LLM बनाना चाहते हैं जो “state law” को बहुत अच्छी तरह interpret करे, तो यह देखने का नज़रिया भी हो सकता है कि किसी particular state के सारे laws और regulations download करके उसे legal practitioners और lawyers के पैमाने पर top 5% स्तर तक train करने में क्या बाधाएं हैं
  इस case में “internet” की ज़रूरत पहले से ही नहीं रह जाती
  बस पर्याप्त size और quality वाला domain-specific dataset चाहिए, और उसका नतीजा पहले से ही डराने वाला हो सकता है
  “state law” LLM सिर्फ़ एक example है, और बात आगे यह बनती है कि किसी भी field में domain-specific expert चाहिए हो तो उसे train किया जा सकता है
- मुझे नहीं लगता कि training data सचमुच खत्म होने के कगार पर है। ज़रूरत knowledge की है, ज़रूरी नहीं कि उस text के behavioral patterns की भी हो
  LLM उन चीज़ों को ठीक से याद नहीं कर पाते जिन्हें पुराने internet users जानते हैं, जैसे famous memes जिनकी कभी reporting नहीं हुई
  अगर 4chan जैसे data की नकल न करवाते हुए उसे याद कराया जा सके, तो training में उसका इस्तेमाल पूरी तरह बेकार नहीं भी हो सकता
  Film scripts, song lyrics, famous YouTube videos के subtitles, यहां तक कि television programs के बारे में क्या कहेंगे?
- इंसानों को reasoning करने या यह जानने के लिए कि वे क्या जानते हैं, trillions of tokens की ज़रूरत नहीं होती
  कुछ हिस्सा evolution से आया होगा, लेकिन basic language ability और basic world modeling जैसे evolution से आए हिस्से internet data से पहले ही किसी हद तक match किए जा चुके हैं, ऐसा लगता है
  मौजूदा pretraining इंसानों से कहीं ज़्यादा data इस्तेमाल करती है, और जैसे drawing सीखने के लिए Getty की सारी images देखने की ज़रूरत नहीं, वैसे ही self-awareness या self-improving models के लिए भी ऐसा होगा
  किसी field में expert level तक पहुंचने के लिए internet data हो या कोई और data, सिर्फ़ next-token prediction सीखना solution नहीं है
- Pharma और energy exploration जैसी industries ध्यान खींचती हैं। इन क्षेत्रों में data silos खुद competitive advantage का core हैं
  Dataset खोलकर competitive conditions को बराबर करने की कोई वजह नहीं, और बंद रखने पर potential discoveries पर monopoly रखी जा सकती है
  Public data internet की नींव है, लेकिन कुछ industries दशकों तक discoveries को सख़्ती से छिपाकर रखने के तरीके पर बनी हैं
अच्छा लगा कि Ilya ने अपनी प्रस्तुति की शुरुआत Quoc Le की तस्वीर से की, जिन्होंने 2012 में neural network scaling वाले पेपर का नेतृत्व किया था। वही पेपर उस समय मेरे deep learning में आने की वजह बना था
उनकी टिप्पणियां अपेक्षाकृत विनम्र हैं और सार्वजनिक रूप से उपलब्ध पहले के काम पर आधारित हैं, लेकिन यह साफ दिखता है कि वे अभी बड़ा काम कर रहे हैं और उनकी कल्पनाशक्ति भी बड़ी है
अब “बिल्ली थैले से बाहर आ चुकी है”, और AI का भविष्य शायद नई पीढ़ी के नेता संभालेंगे; बस उम्मीद है कि वे मानवतावादी हों
- हमें उम्मीद करनी चाहिए कि वे जितने संभव हो उतने मानवतावादी हों, लेकिन फिर भी यह नहीं भूलना चाहिए कि वे इंसान ही हैं
- मुझे लगता है कि नई पीढ़ी के artificial intelligence नेताओं के मानवतावादी होने की संभावना सचमुच 0 के करीब है
उनका यह कहना कि “reasoning जितनी अधिक होगी, वह उतनी ही कम predictable होगी” मुझे बहुत बड़ा understatement लगता है
reasoning को एक अर्थ में unpredictability के लगभग समान ही समझना चाहिए, और अधिक स्पष्ट रूप से कहें तो उपयोगी reasoning परिभाषा के अनुसार unpredictable होती है
alignment जैसी समस्याओं में यह framing अहम है
- मुझे तो उल्टा लगता है। “irrational” शब्द अक्सर चंचल, unpredictable और खतरनाक के अर्थ में भी इस्तेमाल होता है
  rationality को बहुत predictable माना जाता है, और समान facts के सेट से rationally reasoning करने वाले दो लोगों से उम्मीद की जाती है कि वे मिलते-जुलते निष्कर्षों पर पहुंचेंगे
  Ilya शायद यह कहना चाह रहे हैं कि बहुत बुद्धिमान व्यक्ति कम बुद्धिमान व्यक्ति को “unpredictable” लग सकता है
  reasoning अपने आप में unpredictable नहीं है; बल्कि पर्याप्त तेज और उच्च-गुणवत्ता वाली reasoning से ऐसे निष्कर्ष मिल सकते हैं जिन्हें कोई पहले से न भांप पाए, भले ही बाद में वे समझ में आएं
- यहां अहम शब्द “unpredictable” है, “surprising”, “unverifiable” या “irrational” नहीं
  इस प्रस्तुति में prediction को उस intuition से जोड़ा गया है जो इंसान 0.1 सेकंड में करते हैं
  मजबूत reasoning model परिभाषा के अनुसार non-intuitive जवाबों तक पहुंचेगा। अगर वे intuitive होते, तो लंबे reasoning chain के बिना वही जवाब बहुत जल्दी मिल गया होता
  यहां “reasoning” गणितीय अर्थ में proof से अलग है। गणित में intuitive निष्कर्षों के लिए भी बहुत खास proof की जरूरत पड़ सकती है
- मुझे लगता है उनका chess AI वाला उदाहरण सबसे उपयुक्त नहीं था
  इंसानी खिलाड़ी AI जितनी दूर की चालें calculate नहीं कर सकता, इसलिए किसी चाल को समझना मुश्किल हो सकता है, लेकिन फिर भी हम लगभग निश्चित हो सकते हैं कि chess AI उन्हीं rules के तहत वही goal optimize कर रहा है
  reasoning models में alignment पहले से दिया हुआ नहीं है
  वे बिल्कुल अलग rules और cost function के तहत reasoning कर सकते हैं, और ज्यादा open-ended सवालों में जब वे ऐसे outputs देते हैं जिन्हें इंसान समझ नहीं पाते, तो यह कहना आसान नहीं होता कि वह प्रतिभाशाली insight है या unaligned सोच
- solution खोजने और उसे verify करने की time complexity के बारे में सोचें तो यह बात पूरी तरह फिट नहीं बैठती
- क्या यह पक्का है कि उनका मतलब वाकई यही था? शायद उनका मतलब था कि model से अधिक reasoning निकलवाने की प्रक्रिया unpredictable है, न कि reasoning खुद unpredictable है
इस हफ्ते DeepMind podcast में Oriole Vinyals वाला episode इस प्रस्तुति जैसे ही विषयों—LLM की मौजूदा स्थिति और learning के आगे के रास्ते—पर था, और काफी ज्यादा दिलचस्प था: https://pca.st/episode/0f68afd5-2b2b-4ce9-964f-38193b7e8dd3
तेल वाली तुलना सच में सटीक है। बात ऐसी है मानो Mr Worldcoin और उनके जैसे लोगों की net worth में 3 cent और बढ़ाने के लिए कुछ और झीलों को उबालकर सुखा देना पूरी तरह worth it हो
- तेल वाली तुलना समझ आती है, लेकिन वह छलांग समझ नहीं आई। कौन-सी झीलें उबल रही हैं?
यह हैरानी की बात है कि कुछ जाने-माने machine learning practitioners अब भी Transformer के “neurons” की तुलना असली biological neurons से करते हैं
असली neurons spikes, ion gradients, जटिल dendritic structures और sophisticated biochemical processes से नियंत्रित synaptic plasticity पर निर्भर करते हैं
ये वे चीजें हैं जो Transformer की सरल, differentiable linear layers और pointwise nonlinearities में लागू नहीं होतीं
उत्सुकता है कि क्या इस तुलना का समर्थन करने वाले कोई भरोसेमंद neuroscientists या biologists हैं, या यह सिर्फ machine learning community की परंपरा से बनी हुई उपमा है
- याद रखना चाहिए कि 2012 से पहले क्या था। SVM, random forests जैसी चीजें थीं, और वे brain जैसी बिल्कुल नहीं थीं
  neural networks पुराने हैं, लेकिन 2012 deep learning revolution की शुरुआत था
  इस कसौटी पर देखें तो brain और neural networks दोनों समान गुणों वाले connectionism के प्रकार हैं, और दोनों की तुलना करना व एक से प्रेरणा लेकर दूसरे में लागू करना पूरी तरह समझ में आता है
- ग्रहों की orbit predict करने के लिए ग्रह के हर atom को simulate करने की जरूरत नहीं होती
  mathematical neuron पूरी तरह अलग तरीके से काम करते हुए भी असली neuron जैसा similar function रख सकता है
- क्या यह parent nodes और child nodes वाले data structure को tree कहने से इतना अलग है?
- replies देखकर लगता है कि सरल सवाल का जवाब “नहीं” के करीब है
  मैं भी जानना चाहता हूं कि क्या कोई गंभीर comparison हुआ है, और अगर हुआ है तो उसे पढ़ना चाहूंगा
- मैं यह defend नहीं कर रहा कि presentation में पर्याप्त caveats नहीं जोड़े गए, लेकिन मुझे लगता है कि पुरानी कहावत “सभी models गलत होते हैं, लेकिन कुछ उपयोगी होते हैं” यहां लागू होती है
दुनिया का बहुत-सा ज्ञान empirical experiments के जरिए ही खोला जा सकता है, और computation उन experiments को अधिक efficient बनाने में ही वास्तविक रूप से मदद कर सकता है
किसी intervention पर randomized controlled trial सचमुच करना पड़ता है, और उसमें वास्तविक दुनिया का समय और atoms लगते हैं
पूरी प्रस्तुति दिलचस्प है: https://www.youtube.com/watch?v=YD-9NG1Ke5Y
- body weight और brain weight के संबंध वाली slide में उन्होंने human lineage की scaling difference पर जोर दिया
  लेकिन दिलचस्प बात यह थी कि उसी slide ने उसी जगह non-human lineage की एक कठोर upper bound भी दिखाई थी, जिसे उन्होंने नहीं बताया
LLM से सुधारा गया transcript उपलब्ध है। मूल YouTube subtitles पर Gemini Flash 8B का इस्तेमाल किया गया: https://www.appblit.com/scribe?v=YD-9NG1Ke5Y#0
- उत्सुकता है कि आपने Gemini को समय के साथ text को बस निगल जाने से कैसे रोका
  audio transcription correction ऐसा क्षेत्र रहा है जहां एक-दो पेज से कम chunks में काटकर न डालें तो किसी भी LLM से अच्छा result पाना मुश्किल होता था
  यह भी जानना चाहूंगा कि क्या आपने कोई अलग tool इस्तेमाल किया

Ilya Sutskever का NeurIPS व्याख्यान: seq2seq पर 10 साल बाद नज़र [वीडियो]

2014 के seq2seq पेपर को 10 साल बाद देखना

उस समय की मुख्य अवधारणा और इम्प्लीमेंटेशन

scaling, connectionism, और pretraining का युग

pretraining के बाद की दिशा

superintelligence, reasoning, और गुणात्मक रूप से अलग सिस्टम

प्रश्नोत्तर में उठे मुद्दे

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय