डीप न्यूरल नेट: 33 साल पहले और 33 साल बाद की तस्वीर (2022)

(karpathy.github.io)

2 पॉइंट द्वारा GN⁺ 2023-08-27 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Yann LeCun आदि का 1989 का हाथ से लिखे ZIP code पहचानने वाला पेपर backpropagation से end-to-end trained neural network के शुरुआती वास्तविक उपयोगों में से एक था; उसका dataset, architecture, loss function, optimization और error rate रिपोर्ट करने का तरीका आधुनिक deep learning papers से भी मिलता-जुलता है
PyTorch reimplementation में 7,291 16x16 grayscale digit images और लगभग 1,000 neurons वाले छोटे network को target किया गया; मूल paper में 3 दिन की training M1 MacBook Air CPU पर लगभग 90 सेकंड में घट गई
मूल paper ने training error 0.14% और test error 5.00% रिपोर्ट किया था; reproduction MNIST को 16x16 में shrink किए गए substitute data की वजह से बिल्कुल समान नहीं था, लेकिन training error 0.62% और test error 4.09% तक match हुआ
2022 वाली techniques—cross entropy, AdamW, data augmentation, Dropout, ReLU—लगाने पर test error 4.09% से घटकर 1.59% हुआ; training time लगभग 4 गुना बढ़ा, लेकिन inference latency नहीं बदली
33 सालों में macro structure काफी हद तक बना रहा, लेकिन data, model और compute का scale बहुत बड़ा हो गया; foundation model और fine-tuning का trend किसी specific task के लिए neural network को scratch से train करने के तरीके को तेजी से पुराना बना रहा है

1989 के paper को 2022 में फिर से implement करने की वजह

Yann LeCun आदि का 1989 का paper Backpropagation Applied to Handwritten Zip Code Recognition backpropagation-based real-world application का ऐतिहासिक रूप से महत्वपूर्ण शुरुआती उदाहरण है
- इसे backpropagation से end-to-end trained neural network को वास्तविक समस्या पर लागू करने वाले शुरुआती papers में गिना जाता है
- उस समय dataset में 7,291 16x16 grayscale digit images थीं, और network लगभग 1,000 neurons के scale का था
Paper की संरचना आधुनिक deep learning papers से बहुत मिलती-जुलती है
- dataset define करता है
- neural network architecture समझाता है
- loss function और optimization को cover करता है
- training और test set के classification error rate रिपोर्ट करता है
Reimplementation code PyTorch में लिखा गया और karpathy/lecun1989-repro पर public है
मूल network Lisp में implement था और Bottou और LeCun के 1988 के backpropagation simulator SN का इस्तेमाल करता था
आधुनिक deep learning library design आम तौर पर तीन हिस्सों में बंटा होता है
- C/CUDA-based तेज Tensor library
- forward pass computation graph को track करने और backpropagation operations generate करने वाला autograd engine
- Python से script किए जा सकने वाले high-level APIs, layers, architectures, optimizers, loss functions

Training speed और reproduction की सीमाएं

मूल training में 7,291 training examples पर 23 passes किए गए, यानी कुल 167,693 input-label pairs network को दिखाए गए
1989 का network SUN-4/260 workstation पर 3 दिनों तक train हुआ
PyTorch reimplementation को MacBook Air M1 CPU पर लगभग 90 सेकंड लगे, यानी simple comparison में लगभग 3,000 गुना तेज
- conda ने Rosetta emulation नहीं, बल्कि native arm64 build इस्तेमाल किया
- अगर PyTorch ने M1 के GPU और NPU तक पूरी तरह इस्तेमाल किए होते, तो speedup और ज्यादा हो सकता था
A100 GPU पर सीधे चलाने पर यह उल्टा धीमा था
- network बहुत छोटा था: 4-layer convnet, अधिकतम 12 channels, कुल 9,760 parameters, 64K MACs, 1K activations
- SGD एक बार में सिर्फ एक example इस्तेमाल करने वाली structure में था
- A100, CUDA और PyTorch का सही उपयोग करने के लिए per-example SGD की जगह full-batch training से GPU utilization बढ़ाना पड़ता
मूल paper में रिपोर्ट की गई performance इस प्रकार थी
- training: loss 2.5e-3, error 0.14%, miss 10
- test: loss 1.8e-2, error 5.00%, miss 102
reproduction script के 23वें pass के परिणाम इस प्रकार थे
- training: loss 4.073383e-03, error 0.62%, miss 45
- test: loss 2.838382e-02, error 4.09%, miss 82
Exact reproduction कई वजहों से मुश्किल है
- मूल dataset समय के साथ गायब हो गया लगता है
- इसकी जगह MNIST के 28x28 digits को bilinear interpolation से 16x16 में छोटा किया गया और जरूरत के हिसाब से random sampling without replacement की गई
- weight initialization का description abstract है और PDF formatting issues के कारण dot या square-root symbols गायब हुए होने की संभावना है
- H1 और H2 के बीच sparse connection structure paper में detail से नहीं बताया गया, इसलिए reasonable estimation की जरूरत पड़ी
- यह चिंता थी कि paper में लिखा tanh उस समय popular normalized tanh हो सकता था
- मूल paper ने Hessian के positive diagonal approximation का इस्तेमाल करने वाला special Newton algorithm उपयोग किया था, लेकिन reimplementation ने सरल SGD इस्तेमाल किया

33 साल बाद की techniques से घटाया गया error rate

पहला बदलाव MSE regression तरीके से modern multi-class classification तरीके में जाना था
- मूल रूप से 10-class classification को -1 या +1 targets पर MSELoss regression के रूप में model किया गया था
- output layer का tanh हटाकर class logits बनाए गए और CrossEntropyLoss लगाया गया
- training set को पूरी तरह overfit करने पर training error 0.00%, test error 4.38% हुआ
इसके बाद SGD की जगह Adam family लागू की गई
- AdamW को learning rate 3e-4 से शुरू करके training के दौरान 1e-4 तक घटाया गया
- परिणाम training error 0.00%, test error 3.59% था
- default parameters का weight decay भी साथ में आया, जिससे overfitting कम करने में मदद मिली
Data augmentation में input image को horizontal या vertical direction में अधिकतम 1 pixel shift किया गया
- यह dataset size increase को simulate करता है, इसलिए pass count 23 से 60 तक बढ़ाया गया
- सिर्फ original setting में passes बढ़ाने से result में बड़ा improvement नहीं आया
- result training error 1.70%, test error 2.19% था
Dropout और ReLU combination ने अतिरिक्त improvement दिया
- सबसे ज्यादा parameters वाली H3 layer से ठीक पहले 0.25 का हल्का Dropout जोड़ा गया
- चूंकि Dropout activations को 0 बनाता है, इसलिए इसे activation range [-1, 1] वाले tanh की तुलना में ReLU के साथ बेहतर fit माना गया
- सभी nonlinearities को tanh से ReLU में बदला गया और pass count 80 तक बढ़ाया गया
- result training error 1.47%, test error 1.59%, test miss 32 था
सिर्फ tanh को ReLU से बदलने भर से बड़ा improvement नहीं हुआ; ज्यादातर improvement Dropout जोड़ने से आया
अगर इस technique को 1989 में ले जाया जा सकता, तो errors की संख्या लगभग 80 से लगभग 30 तक, और test error rate लगभग 1.5% तक घट सकता था
- बदले में training time लगभग 4 गुना होकर 1989 के हिसाब से 3 दिन से लगभग 12 दिन हो जाता
- inference latency पर असर नहीं पड़ता

बड़े model से पहले data expansion ने असर दिखाया

इसके बाद आसान improvements की गुंजाइश धीरे-धीरे कम होती गई
- weight normalization जैसी extra techniques ने बड़ा improvement नहीं दिया
- parameter count और compute को समान रखने वाला “micro-ViT” भी convnet performance तक नहीं पहुंच पाया
पिछले 33 वर्षों में कई innovations हुए, लेकिन उनमें से कुछ मुख्यतः बहुत बड़े models में ही ज्यादा meaningful हैं
- residual connection, layer normalization, batch normalization बड़े scale की optimization को stabilize करने से ज्यादा related हैं
आगे का बड़ा performance gain network size बढ़ाने से आने की संभावना ज्यादा है, लेकिन इससे test time पर inference latency बढ़ती है
Data बढ़ाने से भी performance improve हुई
- पूरे MNIST का उपयोग कर training set को 7,291 से 50,000 तक, यानी लगभग 7 गुना, बढ़ाया गया
- existing baseline training को 100 passes के साथ चलाने पर test error 2.74%, miss 54 तक improve हुआ
Data expansion को modern techniques के साथ combine करने का result सबसे अच्छा रहा
- training error 1.07%, test error 1.25%, test miss 24
- 1989 में केवल dataset बढ़ाने से भी inference latency के बिना system performance को ऊपर ले जाया जा सकता था

1989 से 2022, और फिर 2055 तक जाती observations

33 वर्षों में macro structure बहुत ज्यादा नहीं बदला
- अब भी layers से बनी differentiable neural network architecture बनाई जाती है, और backpropagation व stochastic gradient descent से end-to-end optimize किया जाता है
- फर्क यह है कि उस समय scale बहुत छोटा था
1989 का dataset और model आधुनिक standards से बहुत छोटे हैं
- training set में सिर्फ 7,291 16x16 grayscale images थीं
- आधुनिक vision datasets web से जुटाई गई करोड़ों high-resolution color images तक इस्तेमाल करते हैं
- उदाहरणों में Google JFT-300M, 400M images पर trained OpenAI CLIP शामिल हैं
- input pixel data के आधार पर roughly 100,000,000 गुना ज्यादा होने का हिसाब लगाया गया
1989 के network में लगभग 9,760 parameters, 64K MACs, 1K activations थे
- आधुनिक vision neural networks अरबों parameters और लगभग 1e12 MACs के scale तक पहुंचते हैं
- natural language models trillion-level parameters तक जा सकते हैं
अगर 2022 को 2055 से पीछे मुड़कर देखें, तो मान लिया गया कि similar pattern repeat हो सकता है
- 2055 के neural networks macro तौर पर 2022 के neural networks जैसे ही होंगे, लेकिन ज्यादा बड़े
- आज के datasets और models लगभग 10,000,000 गुना छोटे दिख सकते हैं
- कल्पना की गई कि 2022 के state-of-the-art models भी personal computing device पर weekend project की तरह लगभग 1 मिनट में train हो सकते हैं
- माना गया कि model, loss function, augmentation और optimizer की details बदलने भर से error को लगभग आधा किया जा सकता है
किसी specific task के लिए neural network को scratch से train करने का तरीका तेजी से पुराना हो रहा है
- GPT जैसे foundation model बड़े compute resources वाले कुछ चुनिंदा संस्थान train करते हैं
- अधिकांश applications network के कुछ हिस्सों की हल्की fine-tuning, prompt engineering, या छोटे special-purpose inference network में data/model distillation से implement हो सकते हैं
- extreme रूप में, 2055 में user 10,000,000 गुना बड़े neural net “megabrain” से English में बोलकर या सोचकर काम request करे, और सीधे neural network train करने की जरूरत कम हो जाए—ऐसी तस्वीर भी संभव है

1 टिप्पणियां

GN⁺ 2023-08-27

Hacker News की टिप्पणियां

एक और दिलचस्प बात है। मूल training में Sun 4/260 workstation पर 3 दिन लगे थे, और सटीक specs नहीं मिले, लेकिन शुरुआती SPARC workstation दौर का हो तो कुल power consumption लगभग 200W रहा होगा
CPU खुद बहुत high-power नहीं था, लेकिन disk और monitor समेत पूरा system शायद इतना खाता रहा होगा। तो 200W × 72 घंटे = 14,400Wh
Karpathy ने उसी स्तर की training MacBook पर, वह भी पूरी तरह utilize न करते हुए, 90 सेकंड में चला दी। अगर मोटे तौर पर 20W × 0.025 घंटे = 0.5Wh मानें, तो energy efficiency लगभग 30,000 गुना बेहतर हुई
- यह काफी दिलचस्प है, क्योंकि मुझे हमेशा लगता रहा है कि neural network performance को हमेशा energy को denominator में रखकर किसी unit में मापना चाहिए
- Moore's law को देखते हुए 30,000 गुना भी इतना बड़ा नहीं लगता। 1989 के बाद से तो शायद और बड़ी improvement की उम्मीद होती, और supercomputer performance तब से दस लाख गुना से भी ज़्यादा बढ़ चुकी है
- Wh हो तो बस constant factor का फर्क है, क्या यह असल में joule (J) की ही बात नहीं है?
लेख वाकई अच्छा था। हालांकि 2055 की prediction का meta-linear होना थोड़ा खटका। मौजूदा technology को ज्यों का त्यों रखकर 33 साल बाद तक numbers को linear regression से बढ़ा देने वाली आम गलती तो नहीं की गई, लेकिन फिर भी यह current point को origin मानकर किसी तरह की worldline symmetry मानती हुई लगती है
समय-सीमा काफी लंबी है, इसलिए अनपेक्षित breakthroughs और obstacles की वजह से ये predictions एक भी सही न निकलें, यह भी संभव है। कोई “perceptron++” से भी कहीं सरल base structure खोज सकता है, सभी लोग 3D Gaussian clouds train कर रहे हो सकते हैं, या quantum computers आखिरकार उभर सकते हैं और जिन components का हम इस्तेमाल करेंगे उनके लिए हमारे पास अभी nouns तक न हों
उलटा, hardware या training में कोई ऐसी scaling limit भी आ सकती है जो हमने नहीं देखी, या civilization-level regression भी आ सकता है। फिर भी अगर मैं betting करने वाला होता, तो इस लेख के निष्कर्षों के खिलाफ खास bet नहीं लगाता। अगर सिर्फ अतीत और वर्तमान जानकर extrapolate करना हो, तो शायद यह सबसे अच्छे निष्कर्षों में से है
- मुझे लगता है यह बात सही है। अगले 33 साल अभी से काफी अलग होने की संभावना रखते हैं
  मेरा झुकाव इस तरफ है कि बदलाव और ज़्यादा dramatic होंगे। वजह सिर्फ resources नहीं, बल्कि algorithmic improvements की बड़ी गुंजाइश भी है
  ज़्यादा obvious तरफ देखें तो, ज्यादातर libraries अभी भी कई ज्ञात gradient optimization techniques का पूरा फायदा नहीं उठा रही हैं। data और throughput बस बढ़ा देना इतना आसान रहा है कि लागू किए जा सकने वाले tools अभी जमा पड़े हैं
  और successful large models अहम clues दे रहे हैं। उदाहरण के लिए language models किसी तरह की language logic सीख रहे हैं, जो हमारे सोच को process करने के तरीके से मिलती-जुलती है, और यह साफ है कि वे बहुत अलग-अलग तरह की information को plausible ढंग से जोड़ सकते हैं
  किसी दिन अगर उस processing का essence समझ आ गया, तो language processing अचानक बहुत simpler हो सकती है। यह radical architecture और algorithmic progress के मौकों में से सिर्फ एक है, और सच में revolutionary होगा
तो क्या अगले 33 सालों तक वही काम करना है, बस data और compute और बढ़ा देना है? LLMs पहली बार आने पर जो “मेरी जिंदगी में आखिर ऐसा होते देख लिया” वाला उत्साह था और “बस model और data को और बड़ा करना है” वाला माहौल था, उसे logically आगे बढ़ाएं तो यही निष्कर्ष निकलता है। लेकिन क्या सचमुच brute force से ही AGI तक पहुंचा जा सकता है?
33 साल पहले “connectionist AI” dominant paradigm नहीं था, और “symbolic AI” ही अकेला दूसरा approach भी नहीं था। “robot functionalism” जैसे approaches भी थे, जिनका कहना था कि physical world से interact किए बिना असली intelligence नहीं हो सकती
33 साल बाद ये दूसरे approaches connectionism के साथ मिलकर फिर उभर सकते हैं, या कोई बिल्कुल नया approach आ सकता है
शानदार लेख है। artificial neural networks के शुरुआती दिनों को मैंने खुद देखा है। 1980s के मध्य में DARPA के neural network tools advisory panel में था, SAIC ANSim commercial product का पहला version लिखा था, और कंपनी ने FAA contract पर जो bomb detector बनाया था उसमें deploy हुआ एक simple backpropagation model भी बनाया था
5–6 साल पहले Capital One में “traditional” deep learning team भी manage की थी। पिछले 18 महीने वाकई रोमांचक रहे हैं। जितना हो सके उतना समय self-hosted LLMs और Hugging Face, OpenAI आदि की APIs explore करने में लगा रहा हूं
आज से 33 साल बाद की technology के बारे में सोचकर ही दिमाग फटने जैसा लगता है
सबसे बुनियादी बदलाव यह है कि model किस चीज़ पर train होता है
छोटे character images किसी quiz-जैसी problem के करीब हैं, और यह असल में पूरी मानवता के linguistic और visual communication पर train करने से बिल्कुल अलग है
अगले 33 सालों में computing resources और scale हों, तब भी हम मानव व्यवहार और knowledge की नकल करने वाले models train करने के चरण पर नहीं अटके रहेंगे। वह problem, यानी हम खुद, उससे बहुत पहले toy problem में घट चुके होंगे
- मुझे लगता है AI models synthetic data generate करके, उसे filter और improve करके, फिर उसी पर train होने के तरीके से evolve होंगे। code execution, search, लोग, simulations, robots जैसे external systems loop के अंदर आ सकते हैं
  quality गिरेगी नहीं। क्योंकि data filtering और diversity सुनिश्चित करने में बहुत मेहनत लगेगी। model को और समय देकर कभी भी improve किया जा सकता है
  model architecture, dataset की तुलना में महत्वपूर्ण नहीं है। एक ही family का कोई भी model उसी data से वही abilities सीख सकता है, लेकिन data बदल दें तो सभी की abilities बदल जाती हैं। intelligence data में है
  भविष्य model architecture design नहीं, data engineering है। उपमा दें तो human culture, human biology से तेज evolve करता है। data, models से तेज evolve हो रहा है
  हालिया AI में नए architectures तेजी से कम होते दिख रहे हैं, और अलग-अलग datasets को उसी Transformer model पर apply करने का trend दिखता है। Transformer के अंदर भी widely used variants बहुत कम हैं, और हजारों छोड़ दिए गए हैं
  मैं मानना चाहूंगा कि intelligence का असली engine memes के जरिए language evolution है। हम और AI मिलकर language की exponential growth पर सवार हैं
- पहले self-driving जैसी toy problem ही लगभग solve करके दिखाएं। अभी भी इंतज़ार कर रहा हूं
यह साफ़ नहीं है कि compute power अगले 33 सालों तक पहले की तरह बढ़ती रहेगी या नहीं। लेकिन इसकी ज़रूरत भी ज़रूरी नहीं है
लेख पढ़ते हुए मेरे मन में आया, “हे भगवान, मुझे याद है उस weekend hobby machine learning project में मैंने MSE इस्तेमाल किया था और वह ठीक से काम नहीं कर रहा था। असल में मैंने loss function गलत चुना था”
आज के LLM, या अगले साल के LLM, मुझे यह बताने में काफ़ी सक्षम होंगे कि मेरे code और graphs को कैसे बेहतर किया जा सकता है। तब मैं expert-level techniques लागू कर पाऊँगा, जो सामान्यतः 50,000 घंटे की skill accumulation की वजह से मेरे लिए बंद रहतीं
मेरा एक हिस्सा कहता है कि इंसानों का खेल खत्म हो चुका है, और 33 साल बाद हमने ऐसी दुनिया बना दी होगी जहाँ इंसान अप्रासंगिक होंगे। लेकिन मेरा दूसरा हिस्सा कहता है कि अगर हम उस नियति और बाकी सभी विनाशों से बच गए, तो भविष्य काफ़ी उजला भी हो सकता है
- “अगले साल का LLM” जैसी बातें हम पहले ही बहुत सुन चुके हैं और आगे भी सुनते रहेंगे। आखिरी 5 yards सबसे कठिन होते हैं, और उनके बिना उससे पहले के 5 miles की उपयोगिता भी सीमित रहती है
- मुझे लगता है कि कभी न कभी ऐसा समय आएगा जब बुरे परिणामों से बचने के लिए AI को बहुत, बहुत ज़्यादा धीमा करना होगा। मैं Zvi Mowshowitz के दृष्टिकोण से सहमत हूँ। extinction risk वाले क्षेत्रों को छोड़कर बाकी सभी क्षेत्रों में progress और risk-taking को प्रोत्साहित किया जाना चाहिए
  आज के LLM को हर तरह की समस्याओं पर लागू करने से हमारा अंत नहीं हो जाएगा। लेकिन conscious और plan करने में सक्षम AGI कुछ ही सालों में आ सकती है, और हमें यह भी नहीं पता कि हम उन्हें कितना smart बना पाएँगे, इसकी कोई upper limit क्या है
  मेरा मानना है कि जिन भी intelligent beings को हम दुनिया में लाते हैं, उनके प्रति हमारी ज़िम्मेदारी है। कुछ लोग इस बात पर अफ़सोस जताते हैं कि parent बनने के लिए कोई test नहीं होता; तो फिर पूरी तरह नए virtual brains की दस लाख copies बनाकर पैदा करने के बारे में क्या कहेंगे? ऊपर से उन्हें असल में आजीवन मजबूरी वाले श्रम के लिए जन्म देना
वाकई बहुत अच्छा था। इसे स्पष्ट रूप से cover नहीं किया गया, लेकिन मेरे हिसाब से 33 साल बाद का फर्क उन inputs में है जिनसे model काम करता है। 1989 का state-of-the-art model 16×16 grayscale images इस्तेमाल करता था, और अब हमारे पास single-digit megapixel color images हैं
30 साल बाद desktop CLIP को 90 seconds के अंदर train कर सकता होगा, लेकिन उस समय का state-of-the-art model किस चीज़ पर train होगा?
- यह इस बात से कहीं अधिक सामान्य तरीके का human behavior होगा कि अगला token कौन-सा type किया जाएगा। basic deep learning तरीकों से इंसान की जितनी हो सके उतनी नकल करने के लिए, हमें कुछ ऐसा train करना होगा जो पूरे human behavior की prediction कर सके
  इसके लिए अलग-अलग लोगों के हर तरह की human activities करते हुए अरबों से लेकर quadrillions घंटे तक के video और audio, और शायद कई अन्य inputs की ज़रूरत होगी
- हमारे पास phone cameras से आसानी से मिलने वाली megapixel images तो हैं, लेकिन व्यावहारिक रूप से व्यापक रूप से इस्तेमाल होने वाले लगभग सभी vision models input के रूप में 224×224 resolution, या करीब 384×384 लेते हैं। उससे ज़्यादा resolution अंततः downsample हो जाता है
  अभी compute budget को बेहतर “eyes” के बजाय बड़े “brain” पर खर्च करना ज़्यादा बेहतर लगता है
- यह Vision Pro जैसे headsets से capture किया गया लाखों घंटों का data भी हो सकता है
  ठीक-ठीक क्या capture किया जाता है, यह मुझे नहीं पता, लेकिन audio, video, spatial information, iris आदि कई inputs के combination से model train किया जा सकेगा
यह दिलचस्प है कि उस अवधि में neural networks में रुचि लगभग पूरी तरह खत्म हो गई थी और फिर वापस आ गई
- मुझे university में AI course कई बार फिर से लेना पड़ा। क्योंकि मैं “AI symbolic search है” वाले दृष्टिकोण से सहमत नहीं हो पाया
  अब तो निश्चित ही लोग LLMs को जोड़कर forward और backward reasoning करवाने की कोशिश कर रहे होंगे
- इस मामले में revival के अच्छे कारण हैं, लेकिन सच कहें तो software से जुड़ी लगभग हर चीज़ में ऐसा ही दोहराव होता है। बस जो technology जितनी mainstream होती है, उसका hype cycle उतना छोटा होता है
- इसके लिए हमें Hinton का शुक्रिया अदा करना चाहिए। अफ़सोस है कि software के लिए Nobel Prize नहीं है
  फिर भी Turing Award भी काफ़ी शानदार है
यह एक साथ हैरान करता है कि कितना कम बदला है और कितना ज़्यादा बदल गया है। मुझे याद है “RNNs की अविश्वसनीय प्रभावशीलता” पढ़ना किसी रहस्योद्घाटन जैसा लगा था, और अब लगता है कि हम पूरी तरह अलग दुनिया में रह रहे हैं
- अगर 2015 के उस काम को एक तरह की baseline मानें, तो मुझे लगता है हम ज़्यादा constructive और शांत बातचीत कर सकते हैं
  नई technology कहीं बेहतर है, और भविष्य के implications भी बड़े हैं। लेकिन जो लोग तब से रुचि रखते थे, उनके पास एक reference point था जहाँ “बेहद बेहतर हो गया” सीधे “control से बाहर है” में नहीं बदलता
  यह सच है कि यह बहुत बेहतर हुआ है
Andrej Karpathy के लेख हमेशा ताज़गी देते हैं। वे जितना ज़्यादा जानते हैं, उतना ही machine learning science की बुनियादों को ज़्यादा सीधे और सरल तरीके से explore करते हैं
यह field ऐसे papers से भरी है जो छोटे-छोटे improvements के लिए, जिन्हें reproduce करना भी मुश्किल होता है, जटिल नई architectures propose करते हैं, और latest results को beat करने की उम्मीद में बेकार के 50 pages भरकर अपने काम को “serious” दिखाने की कोशिश करते हैं

डीप न्यूरल नेट: 33 साल पहले और 33 साल बाद की तस्वीर (2022)

1989 के paper को 2022 में फिर से implement करने की वजह

Training speed और reproduction की सीमाएं

33 साल बाद की techniques से घटाया गया error rate

बड़े model से पहले data expansion ने असर दिखाया

1989 से 2022, और फिर 2055 तक जाती observations

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की टिप्पणियां