1 पॉइंट द्वारा GN⁺ 3 시간 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Language model आधुनिक NLP applications की नींव हैं और एक ही general-purpose system के रूप में कई अलग-अलग sub-tasks को संभालने वाला नया paradigm खोलते हैं
  • यह course pretraining के लिए data collection और cleaning, Transformer बनाना, training, और deployment से पहले evaluation तक language model development की पूरी प्रक्रिया को सीधे implement कराता है
  • Assignments tokenizer, model architecture, और optimizer implementation से शुरू होकर GPU optimization, FlashAttention2 के Triton implementation, और distributed training code तक बढ़ते हैं
  • इस course के लिए Python और software engineering में मजबूत दक्षता, PyTorch, memory hierarchy जैसे system concepts, तथा calculus, linear algebra, probability, statistics, और machine learning का ज्ञान आवश्यक है
  • 5-unit का यह implementation-केंद्रित course मौजूदा code reference और LLM से सीधे solutions लेने को सीमित करता है, और CPU debugging के बाद GPU training और benchmarking की सिफारिश करता है

course के लक्ष्य और दायरा

  • Language model आधुनिक natural language processing (NLP) applications की आधारशिला हैं और एक ही general-purpose system के रूप में कई sub-tasks को संभालने वाला नया paradigm खोलते हैं
  • AI, ML, और NLP क्षेत्रों के लगातार बढ़ने के साथ, वैज्ञानिकों और engineers दोनों के लिए language model की गहरी समझ महत्वपूर्ण होती जा रही है
  • Operating systems course में पूरे operating system को शुरुआत से बनाने वाले तरीके से प्रेरित होकर, यह course students को language model development की पूरी प्रक्रिया खुद करने देता है
  • इसमें pretraining data collection और cleaning, Transformer model construction, model training, और deployment से पहले evaluation तक का दायरा शामिल है

आवश्यक कौशल

  • ज़्यादातर assignments Python में होंगे, और दूसरे AI courses की तुलना में बहुत कम scaffolding दी जाएगी
  • लिखे जाने वाले code की मात्रा दूसरे courses से कम-से-कम एक order of magnitude अधिक है, इसलिए Python और software engineering में दक्षता बहुत महत्वपूर्ण है
  • Neural network language models को कई machines के GPU पर तेज़ और कुशल तरीके से चलाना course का बड़ा हिस्सा है
  • PyTorch की मजबूत familiarity और memory hierarchy जैसे बुनियादी systems concepts की अपेक्षा की जाती है
  • Matrix और vector notation तथा operations, probability, Gaussian distribution, mean, standard deviation, और machine learning व deep learning की बुनियादी बातों पर अच्छी पकड़ होनी चाहिए
  • यह 5-unit का course है और implementation का भार बहुत अधिक है, इसलिए पर्याप्त समय देना चाहिए

assignments की संरचना

  • Assignment 1 Basics में standard Transformer language model training के लिए आवश्यक tokenizer, model architecture, और optimizer implement किए जाते हैं, और एक न्यूनतम language model train किया जाता है
  • Assignment 2 Systems में Assignment 1 के model और layers को advanced tools से profile और benchmark किया जाता है, FlashAttention2 को अपने Triton implementation से optimize किया जाता है, और memory-efficient distributed training code बनाया जाता है
  • Assignment 3 Scaling में Transformer के हर component की function को समझा जाता है, और training API से query करके model scaling prediction के लिए scaling law fit किया जाता है
  • Assignment 4 Data में raw Common Crawl dump को usable pretraining data में बदला जाता है, और filtering व deduplication से model performance सुधारी जाती है
  • Assignment 5 Alignment and Reasoning RL में math problem solving में reasoning करने के लिए LM पर supervised fine-tuning और reinforcement learning लागू की जाती है
  • Assignment 5 का Optional Part 2, DPO जैसी safe alignment methods को implement और apply करता है

GPU compute और लागत

  • यदि आप इसे घर से follow कर रहे हैं, तो assignments पूरा करने के लिए cloud providers के GPU compute का उपयोग कर सकते हैं
  • 28 मार्च 2026 के अनुसार single B200 GPU की public pricing Modal पर $6.25/घंटा, Lambda Labs पर $6.69/घंटा, RunPod पर $4.99/घंटा, Nebius पर $5.50/घंटा या preemptible के लिए $3.05/घंटा, और Together पर $7.49/घंटा है
  • Modal हर महीने $30 का free compute देता है, केवल वास्तविक compute के लिए charge करता है, और local development से बड़े GPU experiments पर जाने को सरल बनाता है
  • लागत बचाने और सुविधा के लिए implementation correctness को पहले CPU पर debug करने, और training runs या GPU operation benchmarking के लिए assignment में सुझाई गई GPU संख्या का उपयोग करने की सिफारिश की जाती है

course संचालन और submission नियम

  • Lectures सोमवार और बुधवार 3:00–4:20pm पर Skilling Auditorium में होते हैं, और recordings YouTube playlist में उपलब्ध हैं
  • Course से जुड़े सभी सवाल public Slack channel में पूछने चाहिए, और सभी announcements भी Slack पर किए जाते हैं
  • सभी assignments deadline तक Gradescope पर submit करने हैं; email submissions स्वीकार नहीं किए जाते
  • Deadline से पहले जितनी बार चाहें resubmit कर सकते हैं, और केवल आखिरी submission को grade किया जाएगा
  • Partial submission, submission न करने से बेहतर है
  • प्रत्येक student को 6 late days मिलते हैं, और 1 late day deadline को 24 घंटे बढ़ाता है
  • हर assignment पर अधिकतम 3 late days उपयोग किए जा सकते हैं
  • यदि grading में objective error लगे, तो grade जारी होने के 3 दिनों के भीतर Gradescope पर regrade request दी जा सकती है

collaboration और AI tools policy

  • Study groups की अनुमति है, लेकिन हर student को अपना assignment समझना और स्वयं पूरा करना होगा, और प्रति student एक assignment submit करना होगा
  • यदि group में काम किया है, तो assignment के शीर्ष पर study group members के नाम लिखने होंगे
  • ChatGPT जैसे LLM prompts low-level programming questions या language models पर high-level conceptual questions के लिए स्वीकार्य हैं
  • LLM का सीधे उपयोग करके problems हल करना प्रतिबंधित है
  • Assignment करते समय Cursor Tab, GitHub CoPilot जैसे AI autocomplete को disable करने की कड़ी सिफारिश की जाती है, जबकि function names जैसी non-AI autocomplete की अनुमति है
  • Course materials में self-implementation के लिए आवश्यक सामग्री शामिल है, इसलिए assignment handout में अलग से अनुमति न हो तो online मौजूद existing implementation code नहीं देखना चाहिए

1 टिप्पणियां

 
GN⁺ 3 시간 전
Hacker News की राय
  • मैंने हाल ही में 2025 संस्करण का कोर्स पूरा किया, वीडियो देखे और ज़्यादातर असाइनमेंट किए, लेकिन कुछ महंगे हिस्से छोड़ दिए। सिर्फ़ पहले दो असाइनमेंट्स में ही बहुत ज़्यादा सोचने और debugging की ज़रूरत पड़ी, और deep learning की बुनियाद कुछ हद तक होने के बावजूद, नौकरी के बाद और वीकेंड पर थोड़ा-थोड़ा समय देकर इसे पूरा करने में कई महीने लग गए
    यह कल्पना करना मुश्किल है कि Stanford के छात्र हर 2 हफ़्ते में असाइनमेंट कैसे जमा कर लेते होंगे। फैकल्टी और TAs ने कोर्स डिज़ाइन, नवीनतम रुझानों से भरी slides, और शानदार असाइनमेंट तैयार करने में सचमुच बहुत मेहनत की है, और छोटे-छोटे घटकों से एक वास्तविक language model बनते देखना, साथ ही LLM pipeline के मुख्य हिस्सों को verify करते हुए पूरी तस्वीर को जुड़ते देखना, बहुत संतोषजनक है
    लेकिन runtime environment requirements के बारे में और स्पष्ट मार्गदर्शन होना चाहिए था। harness Linux + NVIDIA GPU पर सबसे अच्छा काम करता है और कुछ खास CUDA versions या architectures की अपेक्षा करता है, जो शोधकर्ताओं के लिए भले सामान्य हो, लेकिन निजी setup में दुर्लभ है। घर पर इसे follow करने के लिए Windows + WSL2 + NVIDIA GPU या अलग-अलग platforms के rented GPU दूसरा विकल्प हैं, लेकिन दोनों ही आसान या सस्ते नहीं हैं। जिन लोगों के पास compatible GPU नहीं है, उनके लिए इस कोर्स का अधिकतम लाभ कैसे लिया जाए इस पर भी मार्गदर्शन होना चाहिए, और मैंने यह भी सीखा कि Mac OS पर memory profiling को लेकर सावधान न रहें तो Python code फ्रीज़ होकर reboot तक करवाने की नौबत ला सकता है

    • TA के नज़रिए से, यह सही है। अब हमारे पास और ज़्यादा environments test करने के लिए संसाधन हैं, और हम जितना हो सके उतना करेंगे। अपने लिखे हुए code में memory overuse की वजह से freeze होना कहीं भी हो सकता है, लेकिन tokenizer असाइनमेंट में सीमित memory usage हासिल करने के लिए हम निर्देशों को और सख़्त बना सकते हैं
      इन टिप्पणियों में GPU rental cost कुछ हद तक बढ़ा-चढ़ाकर बताई गई है। ज़्यादातर development लोकल मशीन पर होती है, और सिर्फ़ ज़रूरत पड़ने पर थोड़ी देर के लिए on-demand GPU चलाना होता है। असाइनमेंट 1 तो बिना GPU के भी पूरी तरह लोकल मशीन पर चल सकता है, और असाइनमेंट 1 और 2 का ज़्यादातर हिस्सा सिर्फ़ कुछ घंटों की rental से पूरा हो सकता है। बहुत सावधानी न बरतते हुए भी rented GPU पर कुल खर्च लगभग 200 डॉलर के आसपास रहेगा, और अगर आप problem size घटाने को तैयार हों तो इसे आसानी से 50 डॉलर से नीचे लाया जा सकता है। शायद इन बातों और tuning के तरीकों को और स्पष्ट रूप से chart में दिखाया जा सकता है
      अगर आपके पास और feedback या कोई समस्या हो, तो repository में issue खोलें। जिन समस्याओं के बारे में हमें पता ही न हो, उन्हें ठीक करना मुश्किल होता है
  • कुछ दिन पहले मैंने Claude की मदद से gpt-1 का एक improved version implement करके देखा। मैं machine learning engineer नहीं, बस एक सामान्य backend engineer हूँ, और नतीजा gpt-1 और KellerJordan के modded-nanogpt का मिला-जुला रूप निकला
    मैं अपने gaming PC पर मूल gpt-1 paper के परिणाम reproduce कर सका, और इसमें बहुत ज़्यादा VRAM भी नहीं लगी। NVIDIA GeForce RTX 2060 SUPER पर 1 घंटे की training में मैंने ज़्यादातर परिणाम दोहरा लिए, इसलिए अगर आपको LLM pretraining में दिलचस्पी है तो मैं यही तरीका आज़माने की सलाह दूँगा
    कोड यहाँ है: https://github.com/epoyraz/modded-gpt-1
    या फिर Claude 4.8 या Codex 5.5 से सीधे पूछ सकते हैं

  • richardsocher द्वारा पढ़ाया गया cs224d मुझे अच्छी तरह याद है। यह transformer-पूर्व दौर में बनाया गया था, इसलिए अब थोड़ा पुराना लग सकता है, लेकिन उस समय deep learning को natural language processing में लागू करने का यह एक शानदार introductory course था
    https://cs224d.stanford.edu

    • मेरा अनुभव भी ऐसा ही था। उसी समय मुझे इंटरनेट की क्षमता का एहसास हुआ था, और यह भी कि शीर्ष शोध विश्वविद्यालयों के graduate student न होते हुए भी कोई cutting-edge विषय सीख सकता है
  • इसे “self-study GPU compute” कहा गया है, लेकिन recommendation में दिया गया B200 4.99 डॉलर प्रति घंटा से शुरू होता है। शुरुआत करने के लिए क्या यह सचमुच ज़रूरी है?
    मैं खुद शुरुआत से LLM बना रहा हूँ, और शुरुआती चरणों में मुझे Vast.ai पर 4090 से ऊपर की किसी चीज़ की ज़रूरत नहीं पड़ी

    • TA के नज़रिए से, बिल्कुल नहीं। पहले असाइनमेंट के लिए हमने explicitly scaled-down sections रखे थे ताकि लोकल compute, यहाँ तक कि M-series GPU पर भी काम हो सके। असाइनमेंट 2 में कुछ हिस्सों के लिए GPU के Triton support की ज़रूरत होती है, लेकिन उन्हें भी कहीं सस्ते GPU के हिसाब से adjust किया जा सकता है
      इस साल हमें Stanford छात्रों के लिए Blackwell GPU उपलब्ध कराने का सौभाग्य मिला, इसलिए असाइनमेंट का विवरण मुख्यतः उसी आधार पर लिखा गया था
    • यह FPGA से काफ़ी मिलता-जुलता लगता है। production environment के लिए ज़रूरी hardware अपेक्षाकृत छोटा हो सकता है, क्योंकि production models या bitstreams target use case के लिए ज़रूरी चीज़ें ही छोड़कर बहुत कड़े size optimization से गुज़रे होते हैं
      इसके उलट, जब आप compute kernel या IP blocks डिज़ाइन करना सीखते और प्रयोग करते हैं, तब ज़रूरी hardware कहीं ज़्यादा शक्तिशाली या बड़े capacity वाला होना चाहिए। प्रयोगात्मक artifacts जानबूझकर optimization के उलट दिशा में होते हैं, और हर चरण में उन्हें पढ़ने, समझने और debug करने में आसान बनाया जाता है, इसलिए अंतिम model या bitstream काफ़ी फूला हुआ और unoptimized हो जाता है
      किसी और के बनाए हुए, 4090 जैसे hardware पर इस्तेमाल के लिए optimized model को अपने prompts के साथ चलाना भी एक तरह का प्रयोग है, लेकिन यह सस्ते में हो सकता है। यह कुछ वैसा है जैसे 20 डॉलर वाले FPGA के लिए डिज़ाइन और synthesize किया गया किसी और का bitstream उसी FPGA पर लोड करके अपने input signals देना। लेकिन इस कोर्स में आप अपने model design सीखते हुए जो प्रयोग करेंगे, वे उस तरह के नहीं हैं
    • यह अजीब लगता है कि ज़रूरी संसाधन शैक्षणिक संस्थान उपलब्ध नहीं कराते
    • अपना LLM train करने के लिए GPU अनिवार्य नहीं है
    • शक करना सही है। मैंने TinyStories dataset के साथ 4060Ti 16GB पर बिना किसी समस्या के काफ़ी अच्छा छोटा language model train किया है। दिक्कत तब शुरू होती है जब आप यह जाँचना चाहते हैं कि कोई idea ऐसे model तक scale होता है जो “इतना छोटा कि छोटा कहा जा सके” वाली सीमा से बड़ा हो
  • यह कोर्स दिलचस्प लग रहा है, लेकिन इसकी prerequisites भी जानना चाहता/चाहती हूँ। इसमें लिखा है कि machine learning और deep learning की बुनियाद से परिचित होना चाहिए, तो अगर इस विषय को implementation-केंद्रित तरीके से self-study करने लायक कोई material या Stanford lecture recordings का अनुभव हो, तो जानना चाहूँगा/चाहूँगी

    • 2024 Spring का CS224N course और textbook के chapter 1~13 इस prerequisite के लिए पर्याप्त थे। CS336 की तरह इसके video और assignments भी public हैं, और basics पिछले कुछ वर्षों से लगभग वही हैं, इसलिए 2024 की material होने पर भी कोई समस्या नहीं है
      हालांकि CS336 में cutting-edge techniques कहीं अधिक कवर की जाती हैं, इसलिए उस हिस्से के लिए 2026 version महत्वपूर्ण है
      lecture: https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1246...
      lecture videos: https://www.youtube.com/playlist?list=PLoROMvodv4rOaMFbaqxPD...
      textbook: https://web.stanford.edu/~jurafsky/slp3/
  • सचमुच शानदार है। पिछले एक महीने से मैं भी कुछ ऐसा ही कर रहा/रही हूँ, और challenge के तौर पर Python standard library के अलावा कोई library इस्तेमाल नहीं की, numpy भी नहीं
    Word2Vec से शुरू करके RNN और LSTM बनाए, और अब transformer architecture का लगभग आधा implementation कर चुका/चुकी हूँ

  • मैंने online public YouTube videos और course materials के साथ इस class को साथ में पढ़ने के लिए एक group बनाया था। मुश्किल है, लेकिन बहुत rewarding है, और हमने हर हफ्ते 1 lecture video की रफ्तार से आगे बढ़ाया
    30 से ज़्यादा लोगों ने शुरुआत की थी, लेकिन आख़िरी session तक सिर्फ़ 8 लोग बचे

  • इसे आज़माना चाहता/चाहती हूँ, लेकिन चिंता है कि अभी मेरे पास ज़रूरी skills कम हैं। शायद कभी न कभी कर पाऊँ/पाऊँगी

    • तो फिर prerequisites में से किसी एक से शुरू कर दीजिए
  • घर पर इस course को follow करने के लिए minimum GPU क्या होगा, यह जानना चाहता/चाहती हूँ। मेरे पास 5080 16GB है, क्या सच में इससे ज़्यादा चाहिए?

    • पहला section तो M1 chip पर भी संभव लगता है, और दूसरे में Triton support चाहिए दिखता है, इसलिए 5080 काफ़ी होनी चाहिए
  • मैंने पहले दो assignments को एक साल में independently किया था और बहुत कुछ सीखा। उसके बाद आपने कौन-से courses लिए, यह जानना चाहता/चाहती हूँ

    • Frontier Systems videos देख रहा/रही हूँ: https://cs153.stanford.edu/
      CS336 में जो बात थोड़ी कमज़ोर लगी, वह reinforcement learning components को समझाने का तरीका था, और उस हिस्से के लिए CME 295 के lecture 5 और 6 बेहतर थे
      https://cme295.stanford.edu/syllabus/
      यह भी सुना है कि diffusion models वाला CME 296 course अच्छा है, और अगला कदम होने के लिए ठीक लगता है
      https://cme296.stanford.edu/syllabus/