न्यूरल नेटवर्क्स: ज़ीरो से हीरो तक

(karpathy.ai)

8 पॉइंट द्वारा GN⁺ 2026-01-05 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

Andrej Karpathy द्वारा संचालित यह कोर्स, कोड के ज़रिए न्यूरल नेटवर्क्स को शुरुआत से implement करते हुए सीखने की प्रक्रिया है
Backpropagation की बुनियाद से शुरू होकर GPT स्तर के आधुनिक deep learning models तक को चरणबद्ध तरीके से बनाया जाता है
सीखने का मुख्य फोकस language model पर है, और इसमें PyTorch, torch.Tensor, BatchNorm, WaveNet, GPT tokenizer जैसी प्रमुख तकनीकों का hands-on अभ्यास शामिल है
हर लेक्चर को model training, loss calculation, hyperparameter tuning, overfitting diagnosis जैसी वास्तविक development प्रक्रिया के केंद्र में रखा गया है
Deep learning के अंदरूनी काम करने के तरीके और optimization intuition को व्यवस्थित रूप से सीखने के लिए यह एक practical curriculum है

कोर्स अवलोकन

यह कोर्स न्यूरल नेटवर्क्स को कोड में सीधे implement करते हुए सीखने के रूप में तैयार किया गया है
- इसके लिए बुनियादी गणित (differentiation, Gaussian) और Python programming skills की आवश्यकता है
- शिक्षार्थियों के बीच संवाद के लिए Discord channel उपलब्ध है
सीखने की प्रक्रिया language model के इर्द-गिर्द आगे बढ़ती है, और यह ज्ञान दूसरे क्षेत्रों (जैसे computer vision) में भी उपयोगी रूप से transfer हो सकता है

micrograd को खुद implement करते हुए backpropagation और neural network training process को चरण-दर-चरण समझाया जाता है
- केवल Python की बुनियादी जानकारी और स्कूल-स्तर के calculus से इसे समझा जा सकता है

character-level bigram language model को implement किया जाता है
- torch.Tensor के उपयोग और efficient neural network computation तरीकों को कवर किया जाता है
- इसमें model training, sampling, loss evaluation (negative log likelihood) की प्रक्रिया शामिल है

multi-layer perceptron (MLP) आधारित character-level language model implement किया जाता है
- इसमें learning rate tuning, hyperparameters, data split (train/dev/test), overfitting/underfitting जैसे machine learning के बुनियादी concepts शामिल हैं

multi-layer MLP के अंदरूनी व्यवहार का विश्लेषण करते हुए activation values और gradients की statistical properties की जांच की जाती है
- Batch Normalization को जोड़कर training stability बेहतर की जाती है
- Residual connection और Adam optimizer पर बाद के वीडियो में चर्चा की जाएगी

PyTorch autograd के बिना manual backpropagation किया जाता है
- cross-entropy loss, tanh, BatchNorm, embedding table आदि पर सीधे backpropagation लागू किया जाता है
- gradient flow और tensor-level optimization intuition को मजबूत किया जाता है

पहले के 2-layer MLP का विस्तार करके WaveNet (2016) जैसी hierarchical CNN architecture implement की जाती है
- torch.nn की internal working और deep learning development workflow (documentation exploration, tensor dimension management, code integration आदि) का अभ्यास कराया जाता है

GPT model को सीधे implement करते हुए “Attention is All You Need” पेपर और OpenAI GPT-2/3 architecture का अनुसरण किया जाता है
- ChatGPT और GitHub Copilot से इसके संबंध का उल्लेख है
- यह पहले के makemore लेक्चर्स में कवर किए गए autoregressive language modeling और PyTorch nn fundamentals पर आधारित है

GPT series में उपयोग होने वाले tokenizer को शुरुआत से implement किया जाता है
- इसमें Byte Pair Encoding (BPE) आधारित training process शामिल है
- string↔token conversion (encode/decode) functionality सीधे implement की जाती है
- उदाहरणों के साथ यह विश्लेषण किया जाता है कि LLM के असामान्य व्यवहार के कुछ कारण tokenization stage में होते हैं
- tokenizer को हटाने की संभावना पर भी चर्चा शामिल है