Andrej Karpathy के "ChatGPT जैसे LLM का गहन विश्लेषण" वीडियो का सारांश

(anfalmushtaq.com)

2 पॉइंट द्वारा GN⁺ 2025-02-11 | 1 टिप्पणियां | WhatsApp पर शेयर करें

यह गहन विश्लेषण किसके लिए है?

LLM वास्तव में कैसे काम करते हैं, यह समझने के लिए: सतही समझ से आगे बढ़कर LLM के काम करने के सिद्धांत को जानना चाहने वाले लोगों के लिए।
उलझाऊ fine-tuning शब्दावली समझने के लिए: chat_template और ChatML जैसे शब्दों को समझना चाहने वाले लोगों के लिए।
Prompt engineering बेहतर करने के लिए: कौन-से prompts बेहतर काम करते हैं, यह समझना चाहने वाले लोगों के लिए।
Hallucination कम करने के लिए: LLM गलत जानकारी उत्पन्न न करे, यह चाहने वाले लोगों के लिए।
DeepSeek-R1 का महत्व समझने के लिए: इस समय ध्यान आकर्षित कर रहे DeepSeek-R1 के महत्व को जानना चाहने वाले लोगों के लिए।

Pre-training data

इंटरनेट

LLM इंटरनेट को crawl करके विशाल text datasets बनाते हैं।
Raw data में duplicate content, low-quality text और असंबंधित जानकारी भरी होती है, इसलिए training से पहले कड़ी filtering की जरूरत होती है।
उदाहरण के लिए, FineWeb dataset में 1.2 billion से अधिक web pages शामिल हैं।

Tokenization

Tokenization वह तरीका है जिसमें model text को process करने से पहले उसे छोटे हिस्सों (tokens) में बांटता है।
Byte Pair Encoding (BPE) जैसी तकनीकों का उपयोग किया जाता है।
GPT-4, 100,277 tokens का उपयोग करता है।

Neural network input/output

Tokenized data को neural network में input के रूप में दिया जाता है।
Model सीखे हुए patterns के आधार पर अगला token predict करता है।
Errors कम करने के लिए weights को adjust किया जाता है।

Neural network के अंदर

Model के भीतर अरबों parameters input tokens के साथ interact करके अगले token के लिए probability distribution बनाते हैं।
Model architecture को speed, accuracy और parallelization के बीच संतुलन रखते हुए डिजाइन किया जाता है।

Inference

LLM deterministic output नहीं बनाते, बल्कि probabilistic होते हैं।
हर run में output थोड़ा अलग हो सकता है।
इसी randomness की वजह से LLM रचनात्मक हो सकते हैं, लेकिन कभी-कभी गलत जानकारी भी बना देते हैं।

GPT-2

OpenAI ने 2019 में जारी किया गया GPT-2, शुरुआती transformer-आधारित LLM का एक उदाहरण है।
इसे 1.6 billion parameters, 1024-token context length, और लगभग 100 billion tokens पर train किया गया था।
Andrej Karpathy ने llm.c का उपयोग करके GPT-2 को $672 में reproduce किया।

Open source base models

कुछ कंपनियां बड़े पैमाने पर LLM train करती हैं और base models को मुफ्त में जारी करती हैं।
Base models को raw internet text पर train किया जाता है, इसलिए वे completions तो generate करते हैं लेकिन मानव इरादे को नहीं समझते।
OpenAI ने GPT-2 को open source के रूप में जारी किया।
Meta ने Llama 3.1 (405B parameters) को open source के रूप में जारी किया।

Pre-training से post-training तक

Base models बहुत-सी hallucinations उत्पन्न करते हैं।
Post-training, model को बेहतर responses देने के लिए fine-tune करता है।
Post-training, pre-training की तुलना में काफी सस्ता होता है।

Supervised Fine-Tuning (SFT)

Data conversations

Base model को internet data पर train करने के बाद human/assistant conversations के साथ post-train किया जाता है।
Conversation templates का उपयोग किया जाता है ताकि model बातचीत की संरचना को समझ सके।

Hallucination, tool use और memory

LLM की मुख्य समस्याओं में से एक hallucination है।
Meta ने Llama 3 paper में factuality बेहतर करने के तरीके बताए हैं।
Tools का उपयोग करके hallucination कम करने के तरीके भी हैं।

Reinforcement Learning

Model internet data पर train तो हो जाता है, लेकिन वह अपने ज्ञान का प्रभावी उपयोग कैसे करना है, यह नहीं जानता।
Reinforcement Learning (RL), trial and error के जरिए model को बेहतर बनाता है।

RL कैसे काम करता है

RL, model को अलग-अलग solutions आज़माने और सबसे अच्छा solution खोजने देता है।
उदाहरण के लिए, 15 solutions generate किए जाएं और उनमें से केवल 4 सही उत्तर दें।

Reinforcement Learning from Human Feedback (RLHF)

जिन domains को verify करना मुश्किल हो, वहां इंसानों को शामिल करना पड़ता है।
RLHF, human feedback का उपयोग करके model को बेहतर बनाता है।

आगे की दिशा

Multimodal capabilities: केवल text ही नहीं, बल्कि image, audio और video को भी समझना और generate करना।
Agent-based models: एकल task से आगे बढ़कर long-term memory, reasoning और mistakes को सुधारने की क्षमता।
सार्वभौमिक और अदृश्य AI: workflows में स्वाभाविक रूप से integrated होना।
Computer-use AI: software के साथ interact करना और text generation से आगे के काम करना।

LLM कैसे खोजें

Proprietary models: OpenAI (GPT-4), Google (Gemini), Anthropic (Claude) आदि।
Open-weight models: DeepSeek, Meta (Llama) आदि।
Local run: Ollama या LM Studio का उपयोग।
Base models: Hyperbolic में खोजें।

1 टिप्पणियां

GN⁺ 2025-02-11

Hacker News राय

मूल वीडियो Hacker News के पहले पेज से हटने के बाद भी चर्चा के लिए एक अच्छी जगह खोज रहा हूँ
वीडियो देखते समय कुछ सवाल मन में आए
- गणित और LLMs
  - यह जानने की जिज्ञासा है कि Andrej ने LLM के लिए जो उदाहरण दिए, उनमें ज़्यादातर गणना की समस्याएँ ही क्यों हैं
  - LLM की calculation क्षमता शक्तिशाली और उपयोगी होती जा रही है, लेकिन मुझे नहीं लगता कि यह उसकी मूल क्षमता है
  - अच्छा होता अगर LLM की मुख्य क्षमता दिखाने वाले prompts और गणितीय calculations में फर्क किया जाता
  - गणितीय क्षमता पर चर्चा या LLM गणित कैसे करता है, इस पर कोई अच्छे references मिलें तो अच्छा होगा
- मेटा
  - Andrej ने संक्षेप में उस स्थिति का ज़िक्र किया जहाँ LLM का उपयोग दूसरे LLM को train और evaluate करने में होता है, लेकिन इस पर ज़्यादा चर्चा नहीं हुई
  - दूसरे LLM को train/evaluate करने के लिए LLM इस्तेमाल करने की सीमाएँ और जोखिमों के बारे में और जानना चाहता हूँ
  - ऐसा लगता है कि शुरुआती नतीजे और प्रगति तुरंत ही और शक्तिशाली तकनीक के विकास में feedback हो जाती है, जो Manhattan Project और परमाणु हथियारों जैसी लगती है
Meta का hallucination समस्या सुलझाने का तरीका दिलचस्प है
- training data के कुछ हिस्से निकालकर Llama 3 से factual questions बनवाए जाते हैं
- Llama 3 जवाब बनाता है और उसे मूल data से तुलना करके score दिया जाता है
- अगर जवाब गलत हो, तो model को गलत उत्तर पहचानने और उसे अस्वीकार करने के लिए train किया जाता है
- यह ML engineers की स्वाभाविक प्रवृत्ति के उलट है, और model को यह सिखाना महत्वपूर्ण है कि वह क्या नहीं जानता
Andrej का वीडियो शानदार है, लेकिन RL वाला हिस्सा थोड़ा अस्पष्ट लगा
- यह जानने की जिज्ञासा है कि सही जवाबों के लिए training कैसे होती है
- क्या reasoning process इकट्ठा करके supervised learning की तरह train किया जाता है, या score निकालकर उसे loss function की तरह इस्तेमाल किया जाता है
- reward बहुत sparse हो सकता है; अगर समस्या इतनी कठिन हो कि LLM सही जवाब ही न बना पाए, तो क्या होता है
- parameter updates तो sequential होते हैं, फिर LLM training को parallelize कैसे किया जा सकता है
मूल वीडियो के 53वें मिनट पर दिखाया गया कि LLM सीखे हुए text के आधार पर quote करने में कितनी सटीकता दिखाता है
- यह जानने की जिज्ञासा है कि बड़ी कंपनियों ने अदालत में लोगों को कैसे मनाया कि यह copyright infringement नहीं है
- अगर मैं किसी model को Disney characters बनाने के लिए train करूँ, तो मेरी कल्पना है कि मुझ पर तुरंत मुकदमा हो जाएगा
किसी model के 'पूरी तरह' open source होने के लिए, सिर्फ model और उसे चलाने का तरीका ही नहीं, बल्कि data को train करने वाला program भी चाहिए
- OSI की open source AI definition देखें
LLM पर बहुत से लेख पढ़े हैं और आम तौर पर समझता हूँ कि वे कैसे काम करते हैं, लेकिन हमेशा यह सवाल रहा कि दूसरे models SOTA models जितना अच्छा प्रदर्शन क्यों नहीं करते
- मौजूदा model architecture के इतिहास और उसके कारणों के बारे में जानने की जिज्ञासा है
आज एक अच्छा thread देखा: [लिंक]
यह अफ़सोस की बात है कि उसका LLC in C उसकी course के लिए सिर्फ एक stepping stone भर था
शायद यह सचमुच एक शानदार lecture का शानदार summary है
- मूल सामग्री को follow करने के बारे में सोच रहा हूँ
वीडियो नहीं देखा, लेकिन TL;DR के tokenization वाले हिस्से को लेकर जिज्ञासा थी
- linked article में tokenized text देखें तो वह "I View" नहीं, बल्कि वास्तव में pipe "|" है
- @miletus ने Hacker News comment में जो link पोस्ट किया, उसके चरण 3 में tokenized text है: "|Viewing Single (Post From) . . ."
- इस वाक्यांश के इस हिस्से को देखते समय बड़े अक्षरों का उपयोग (View, Single) ज़्यादा अर्थपूर्ण लगता है

Andrej Karpathy के "ChatGPT जैसे LLM का गहन विश्लेषण" वीडियो का सारांश

यह गहन विश्लेषण किसके लिए है?

Pre-training data

इंटरनेट

Tokenization

Neural network input/output

Neural network के अंदर

Inference

GPT-2

Open source base models

Pre-training से post-training तक

Supervised Fine-Tuning (SFT)

Data conversations

Hallucination, tool use और memory

Reinforcement Learning

RL कैसे काम करता है

Reinforcement Learning from Human Feedback (RLHF)

आगे की दिशा

LLM कैसे खोजें

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय