यह गहन विश्लेषण किसके लिए है?
- LLM वास्तव में कैसे काम करते हैं, यह समझने के लिए: सतही समझ से आगे बढ़कर LLM के काम करने के सिद्धांत को जानना चाहने वाले लोगों के लिए।
- उलझाऊ fine-tuning शब्दावली समझने के लिए:
chat_template और ChatML जैसे शब्दों को समझना चाहने वाले लोगों के लिए।
- Prompt engineering बेहतर करने के लिए: कौन-से prompts बेहतर काम करते हैं, यह समझना चाहने वाले लोगों के लिए।
- Hallucination कम करने के लिए: LLM गलत जानकारी उत्पन्न न करे, यह चाहने वाले लोगों के लिए।
- DeepSeek-R1 का महत्व समझने के लिए: इस समय ध्यान आकर्षित कर रहे DeepSeek-R1 के महत्व को जानना चाहने वाले लोगों के लिए।
Pre-training data
इंटरनेट
- LLM इंटरनेट को crawl करके विशाल text datasets बनाते हैं।
- Raw data में duplicate content, low-quality text और असंबंधित जानकारी भरी होती है, इसलिए training से पहले कड़ी filtering की जरूरत होती है।
- उदाहरण के लिए, FineWeb dataset में 1.2 billion से अधिक web pages शामिल हैं।
Tokenization
- Tokenization वह तरीका है जिसमें model text को process करने से पहले उसे छोटे हिस्सों (tokens) में बांटता है।
- Byte Pair Encoding (BPE) जैसी तकनीकों का उपयोग किया जाता है।
- GPT-4, 100,277 tokens का उपयोग करता है।
Neural network input/output
- Tokenized data को neural network में input के रूप में दिया जाता है।
- Model सीखे हुए patterns के आधार पर अगला token predict करता है।
- Errors कम करने के लिए weights को adjust किया जाता है।
Neural network के अंदर
- Model के भीतर अरबों parameters input tokens के साथ interact करके अगले token के लिए probability distribution बनाते हैं।
- Model architecture को speed, accuracy और parallelization के बीच संतुलन रखते हुए डिजाइन किया जाता है।
Inference
- LLM deterministic output नहीं बनाते, बल्कि probabilistic होते हैं।
- हर run में output थोड़ा अलग हो सकता है।
- इसी randomness की वजह से LLM रचनात्मक हो सकते हैं, लेकिन कभी-कभी गलत जानकारी भी बना देते हैं।
GPT-2
- OpenAI ने 2019 में जारी किया गया GPT-2, शुरुआती transformer-आधारित LLM का एक उदाहरण है।
- इसे 1.6 billion parameters, 1024-token context length, और लगभग 100 billion tokens पर train किया गया था।
- Andrej Karpathy ने llm.c का उपयोग करके GPT-2 को $672 में reproduce किया।
Open source base models
- कुछ कंपनियां बड़े पैमाने पर LLM train करती हैं और base models को मुफ्त में जारी करती हैं।
- Base models को raw internet text पर train किया जाता है, इसलिए वे completions तो generate करते हैं लेकिन मानव इरादे को नहीं समझते।
- OpenAI ने GPT-2 को open source के रूप में जारी किया।
- Meta ने Llama 3.1 (405B parameters) को open source के रूप में जारी किया।
Pre-training से post-training तक
- Base models बहुत-सी hallucinations उत्पन्न करते हैं।
- Post-training, model को बेहतर responses देने के लिए fine-tune करता है।
- Post-training, pre-training की तुलना में काफी सस्ता होता है।
Supervised Fine-Tuning (SFT)
Data conversations
- Base model को internet data पर train करने के बाद human/assistant conversations के साथ post-train किया जाता है।
- Conversation templates का उपयोग किया जाता है ताकि model बातचीत की संरचना को समझ सके।
Hallucination, tool use और memory
- LLM की मुख्य समस्याओं में से एक hallucination है।
- Meta ने Llama 3 paper में factuality बेहतर करने के तरीके बताए हैं।
- Tools का उपयोग करके hallucination कम करने के तरीके भी हैं।
Reinforcement Learning
- Model internet data पर train तो हो जाता है, लेकिन वह अपने ज्ञान का प्रभावी उपयोग कैसे करना है, यह नहीं जानता।
- Reinforcement Learning (RL), trial and error के जरिए model को बेहतर बनाता है।
RL कैसे काम करता है
- RL, model को अलग-अलग solutions आज़माने और सबसे अच्छा solution खोजने देता है।
- उदाहरण के लिए, 15 solutions generate किए जाएं और उनमें से केवल 4 सही उत्तर दें।
Reinforcement Learning from Human Feedback (RLHF)
- जिन domains को verify करना मुश्किल हो, वहां इंसानों को शामिल करना पड़ता है।
- RLHF, human feedback का उपयोग करके model को बेहतर बनाता है।
आगे की दिशा
- Multimodal capabilities: केवल text ही नहीं, बल्कि image, audio और video को भी समझना और generate करना।
- Agent-based models: एकल task से आगे बढ़कर long-term memory, reasoning और mistakes को सुधारने की क्षमता।
- सार्वभौमिक और अदृश्य AI: workflows में स्वाभाविक रूप से integrated होना।
- Computer-use AI: software के साथ interact करना और text generation से आगे के काम करना।
LLM कैसे खोजें
- Proprietary models: OpenAI (GPT-4), Google (Gemini), Anthropic (Claude) आदि।
- Open-weight models: DeepSeek, Meta (Llama) आदि।
- Local run: Ollama या LM Studio का उपयोग।
- Base models: Hyperbolic में खोजें।
1 टिप्पणियां
Hacker News राय
मूल वीडियो Hacker News के पहले पेज से हटने के बाद भी चर्चा के लिए एक अच्छी जगह खोज रहा हूँ
वीडियो देखते समय कुछ सवाल मन में आए
Meta का hallucination समस्या सुलझाने का तरीका दिलचस्प है
Andrej का वीडियो शानदार है, लेकिन RL वाला हिस्सा थोड़ा अस्पष्ट लगा
मूल वीडियो के 53वें मिनट पर दिखाया गया कि LLM सीखे हुए text के आधार पर quote करने में कितनी सटीकता दिखाता है
किसी model के 'पूरी तरह' open source होने के लिए, सिर्फ model और उसे चलाने का तरीका ही नहीं, बल्कि data को train करने वाला program भी चाहिए
LLM पर बहुत से लेख पढ़े हैं और आम तौर पर समझता हूँ कि वे कैसे काम करते हैं, लेकिन हमेशा यह सवाल रहा कि दूसरे models SOTA models जितना अच्छा प्रदर्शन क्यों नहीं करते
आज एक अच्छा thread देखा: [लिंक]
यह अफ़सोस की बात है कि उसका LLC in C उसकी course के लिए सिर्फ एक stepping stone भर था
शायद यह सचमुच एक शानदार lecture का शानदार summary है
वीडियो नहीं देखा, लेकिन TL;DR के tokenization वाले हिस्से को लेकर जिज्ञासा थी