• Andrej Karpathy के 3 घंटे 31 मिनट लंबे LLM deep-dive वीडियो को संक्षेप में फॉलो करते हुए, यह उन पाठकों के लिए सारांश है जो काम करने का तरीका, fine-tuning शब्दावली, prompts, hallucinations और DeepSeek-R1 तक सब कुछ एक साथ समझना चाहते हैं
  • LLM बड़े पैमाने के web text को साफ करके tokenize करने के बाद context window के भीतर अगला token predict करना सीखते हैं; लंबा context अधिक जानकारी को ध्यान में रखता है, लेकिन compute cost बढ़ाता है
  • Pretrained base model इंटरनेट-स्टाइल text को आगे लिखने वाले probabilistic autocomplete के ज्यादा करीब होता है, और conversational assistant बनने के लिए SFT और alignment जैसी post-training की जरूरत होती है
  • Hallucinations कम करने के लिए model को अज्ञात सवालों से इनकार करना या tool use/RAG के जरिए ताजा जानकारी देखना सिखाना चाहिए; math और logic समस्याओं में step-by-step generation और external tools ज्यादा उपयुक्त होते हैं
  • Reinforcement learning कई answers आजमाकर सफल solutions सीखने देता है, लेकिन RLHF में reward model human preference का approximation होता है, इसलिए over-optimization और reward model exploitation का जोखिम बना रहता है

यह सारांश किन पाठकों के लिए है

  • Andrej Karpathy का "Deep dive into LLMs like ChatGPT" 3 घंटे 31 मिनट लंबा वीडियो है, और यह उन पाठकों के लिए TL;DR है जो इतना लंबा समय लगाए बिना मुख्य बातें समझना चाहते हैं
  • खास तौर पर यह इन पाठकों के लिए उपयुक्त है
    • जो जानना चाहते हैं कि LLM सतही तौर पर नहीं, बल्कि वास्तव में कैसे काम करते हैं
    • जो chat_template, ChatML जैसे fine-tuning terms समझना चाहते हैं
    • जो समझना चाहते हैं कि prompts क्यों अच्छे से काम करते हैं या fail होते हैं, ताकि prompt engineering बेहतर कर सकें
    • जो LLM की hallucinations कम करना चाहते हैं
    • जो समझना चाहते हैं कि DeepSeek-R1 पर इतना ध्यान क्यों है
  • वीडियो में इस्तेमाल किए गए Excalidraw diagrams CDN पर अलग से host किए गए download link से लिए जा सकते हैं

Pretraining data और tokenization

  • LLM इंटरनेट crawl करके बड़े पैमाने का text dataset बनाते हैं, लेकिन raw data में duplicate content, low-quality text और irrelevant information बहुत होता है, इसलिए training से पहले मजबूत filtering जरूरी होती है
    • अगर English-only model बनाना हो, तो ऐसे heuristics चाहिए जो केवल वे texts रखें जिनके English होने की संभावना ज्यादा हो
    • उदाहरण dataset FineWeb में 1.2 अरब से ज्यादा webpages शामिल हैं
  • साफ किया गया text ज्यों का त्यों model में नहीं जाता, बल्कि repeated patterns को दर्शाने वाले IDs यानी tokens में बदला जाता है
    • एक प्रमुख technique Byte Pair Encoding (BPE) है
    • GPT-4 100,277 tokens इस्तेमाल करता है, और token count model creators के निर्णय पर निर्भर करता है
    • Tiktokenizer से tokenization process को visualize किया जा सकता है

Neural network का input/output और internal working

  • Tokenized data neural network में input होता है, और model तय context window के भीतर अगला token predict करता है
    • कुछ models 8,000 tokens, जबकि GPT-4 अधिकतम 128k context इस्तेमाल करता है
    • Model सीखे हुए patterns के आधार पर अगला token predict करता है, और backpropagation से errors कम करने के लिए weights adjust करता है
    • लंबी context window input से ज्यादा सामग्री को ध्यान में लाती है, लेकिन compute cost बढ़ाती है
  • Model के अंदर अरबों parameters input tokens के साथ interact करके अगले token का probability distribution बनाते हैं
    • यह process efficiency के लिए optimized complex mathematical equations से defined होता है
    • Architecture speed, accuracy और parallelization के बीच balance बनाने के लिए design किया जाता है
    • Production-level LLM architecture का उदाहरण bbycroft.net/llm पर देखा जा सकता है
  • LLM का inference result deterministic नहीं, बल्कि probabilistic होता है
    • वही model चलाने पर भी output थोड़ा-थोड़ा बदलता है
    • आम तौर पर यह training data जैसे patterns वाले नए text generate करता है, लेकिन कुछ मामलों में training data के किसी हिस्से से बिल्कुल match भी कर सकता है
    • यह randomness creative output का स्रोत है, लेकिन गलत जानकारी गढ़ने वाली hallucinations भी पैदा कर सकती है

GPT-2 और training cost में बदलाव

  • OpenAI द्वारा 2019 में जारी GPT-2 early Transformer-based LLM का उदाहरण है
    • 1.6 अरब parameters

    • 1024-token context length

      • करीब 100 अरब tokens पर trained
      • मूल training cost 40,000 डॉलर थी
      • बाद में efficiency काफी बेहतर हुई
      • Andrej Karpathy ने llm.c का इस्तेमाल करके GPT-2 को 672 डॉलर में reproduce किया
      • Optimized pipeline इस्तेमाल करने पर training cost और घटकर करीब 100 डॉलर तक जा सकती है
      • Cost में गिरावट ज्यादा साफ data और बेहतर execution environment से आती है
      • बेहतर pretraining data extraction techniques से datasets refine हुए, जिससे model तेजी से सीखता है
      • अधिक शक्तिशाली hardware और optimized software के कारण वही result पाने के लिए जरूरी compute कम हुआ

Open base model और base model की सीमाएं

  • यहां open base model से मतलब ऐसे model से है जो OSI की open source AI definition को सख्ती से follow करने वाला model नहीं, बल्कि ऐसा model है जिसके weights public हैं, पर training data और पूरी reproducibility उपलब्ध न भी हो सकती है
    • OpenAI का GPT-2 open-weight और source-available model है, लेकिन training data public नहीं होने से OSI definition के तहत पूरी तरह open source नहीं है
    • Meta का Llama 3.1 405B open-weight model है, open source model नहीं
  • Base model pretrained raw language model होता है, और practical use के लिए fine-tuning या alignment चाहिए
    • यह internet-scale unfiltered data पर trained होता है और raw completions generate करता है
    • इसमें human intent के हिसाब से alignment कम होता है
  • Base model release करने के लिए आम तौर पर दो चीजें चाहिए होती हैं
    • Inference code: model text कैसे generate करता है, इसकी procedure define करता है
    • Model weights: model knowledge रखने वाले अरबों parameters
  • Base model की behavior characteristics इस तरह हैं
    • Token-level internet-style text generate करता है
    • हर run पर output थोड़ा बदलता है
    • Training data के किसी हिस्से को ज्यों का त्यों reproduce कर सकता है
    • Parameters को internet knowledge की lossy compressed zip file की तरह देखा जा सकता है
    • In-context examples से translation या structured prompt-based basic assistant के लिए इस्तेमाल हो सकता है
  • Llama 3 405B base model को सीधे experiment किया जा सकता है, और मूल रूप से base model एक महंगा autocomplete जैसा है

Pretraining से post-training तक

  • Base model सिर्फ pretrained text generator होता है, और वास्तविक assistant बनाने के लिए post-training चाहिए
  • यह text generate कर सकता है, लेकिन हमेशा useful answer नहीं देता और hallucinations भी बहुत होती हैं
  • Post-training वह process है जिसमें model को बेहतर responses देने के लिए fine-tune किया जाता है
  • Pretraining में कई महीने लग सकते हैं, लेकिन post-training कुछ घंटों में पूरी हो सकती है, इसलिए यह काफी सस्ती होती है

Supervised fine-tuning और conversation data

  • Pretraining के बाद internet dataset की जगह human/assistant conversations data पर model को post-train किया जाता है, ताकि यह ज्यादा conversational और useful बने
    • Model algorithm वही रहता है और मौजूदा parameters fine-tune किए जाते हैं
    • शुरुआती post-training datasets humans ने manually curate किए, लेकिन UltraChat जैसे models synthetic conversations generate कर सकते हैं
  • Conversation structure सिखाने के लिए chat template इस्तेमाल होता है
    • यह user input और assistant response को अलग करने वाला structure define करता है
    • Hugging Face के chat templating docs में संबंधित जानकारी मिलती है
  • Example template यह है
<|im_start|>system<|im_sep|>You are a helpful assistant<|im_end|>
<|im_start|>user<|im_sep|>What is 4 + 4?<|im_end|>
<|im_start|>assistant<|im_sep|>4 + 4 = 8<|im_end|>
  • <|im_start|>, <|im_end|> conversation structure में मदद करने वाले special tokens हैं
    • Model ने pretraining के दौरान ये नए tokens नहीं देखे थे; इन्हें post-training में introduce किया जाता है
    • OpenAI का InstructGPT paper conversational LLM fine-tuning को cover करता है
  • Post-training dataset का उदाहरण OASST1 है, और synthetic dataset को Nomic Atlas पर visualize किया जा सकता है

Hallucinations, tool use और memory

  • LLM की मुख्य समस्याओं में से एक है confidently गलत या गढ़ी हुई जानकारी generate करना, यानी hallucination
    • Post-training process में model यह सीख सकता है कि उसे हमेशा answer देना है
    • सवाल बेमतलब हो तब भी “मुझे नहीं पता” कहने के बजाय response generate करने की कोशिश करता है
  • Meta का Llama 3 paper factuality सुधारने के लिए यह procedure इस्तेमाल करता है
    • Training data का कुछ हिस्सा extract करता है
    • Llama 3 से उस data पर factual questions generate कराता है
    • Llama 3 answer generate करता है
    • Original data से compare करके response score किया जाता है
    • गलत होने पर model को गलत response पहचानना और refuse करना सिखाया जाता है
  • Hallucinations कम करने का एक तरीका model को यह सिखाना है कि जब answer न पता हो तो tool use करे
<|im_start|>user<|im_sep|>Who is Orson Kovacs?<|im_end|>
<|im_start|>assistant<|im_sep|><SEARCH_START>Who is Orson Kovacs?<SEARCH_END><|im_end|>

[...search results...]

<|im_start|>assistant<|im_sep|>Orson Kovacs is ....<|im_end|>
  • Repeated training से model अनजान चीजें गढ़ने के बजाय search करना सीखता है
  • Model parameters एक महीने पहले की बात धुंधली तरह याद रखने वाली faint memory store करते हैं, और context tokens latest information रखने वाली working memory की तरह काम करते हैं
  • RAG इसलिए अच्छा काम करता है क्योंकि relevant documents तक direct access मिलने पर model को guess करने की जरूरत कम होती है

Model की self-awareness और reasoning tokens

  • Untuned base model से “तुम कौन हो?” पूछा जाए तो hallucinate करने की संभावना होती है
    • Model OpenAI का न बना हो तब भी internet data में AI models और OpenAI का association ज्यादा होने के कारण वह कह सकता है कि उसे OpenAI ने बनाया है
  • इसे ठीक करने के दो तरीके हैं
  • अलग training न हो तो LLM अपने बारे में वास्तविक knowledge के बिना generic AI response पर लौटता है
  • LLM इंसानों की तरह reasoning नहीं करते, बल्कि tokens sequentially generate करते हैं, इसलिए सही से सोचने के लिए structured generation चाहिए
    • सीधे answer पर jump करने से वह guess जैसा हो सकता है
    • Solution को step-by-step expand करने से ज्यादा भरोसेमंद result मिल सकता है
    • Model layers की संख्या finite होती है, इसलिए एक token output को infinite processing नहीं मिल सकती; problem को छोटे steps में बांटना correct answer की संभावना बढ़ाता है
  • Math और logic tasks में सिर्फ model की अपनी reasoning पर निर्भर रहने के बजाय external tools इस्तेमाल करवाना बेहतर है

Reinforcement learning और DeepSeek

  • Pretrained model के पास knowledge हो सकती है, लेकिन वह उस knowledge को प्रभावी ढंग से इस्तेमाल करना अभी नहीं जानता
    • Supervised fine-tuning उसे human responses imitate करना सिखाती है
    • Reinforcement learning trial-and-error के जरिए बेहतर solutions खोजने देता है
  • Reinforcement learning procedure का example यह है
    • एक ही problem के लिए 15 solutions generate करता है
    • अगर उनमें से सिर्फ 4 सही हों, तो सही और छोटे top solutions select करता है
    • चुने गए solutions से train करता है और इस process को कई बार repeat करता है
  • इस process में humans direct शामिल नहीं होते; model एक ही problem के लिए कई answers बनाता है और सही answer तक पहुंचने वाले solutions चुनकर सीखता है
  • Pretraining और post-training अच्छी तरह defined हैं, लेकिन reinforcement learning process अभी active research का विषय है
    • OpenAI जैसी companies भी काफी research करती हैं, लेकिन कुछ हिस्से public नहीं हैं
    • DeepSeek का paper LLMs के लिए RL और FT को openly cover करता है और reasoning abilities निकालने का तरीका समझाता है
  • DeepSeek paper के examples में समय के साथ model ज्यादा tokens इस्तेमाल करके reasoning improve करता है
    • तथाकथित “aha” moment को केवल dataset training से explicitly सिखाना मुश्किल है; यह ऐसी चीज है जिसे reinforcement learning के जरिए model को खुद ढूंढना पड़ता है
    • फायदा reasoning बेहतर होना है, और downside ज्यादा tokens consume होना है

AlphaGo और reinforcement learning की संभावना

  • Go master करने वाली research में reinforcement learning model को सिर्फ humans imitate करने तक सीमित नहीं रखती, बल्कि trial-and-error से अपनी strategy खोजने देती है
  • AlphaGo match में आया Move 37 training data में मौजूद move नहीं था, बल्कि model द्वारा जीत के लिए बनाई गई strategy के रूप में पेश किया गया
    • Researchers ने इस move के human से आने की संभावना 10,000 में 1 आंकी
  • Reinforcement learning में अभी भी बहुत से unexplored areas हैं और research जारी है
  • अगर LLM यह तय करे कि thoughts और ideas व्यक्त करने का सबसे अच्छा तरीका यही है, तो वह अपनी language भी बना सकता है

Non-verifiable domains और RLHF

  • Verifiable domains में humans को reinforcement learning process से बाहर रखना आसान है, और LLM अपनी performance का judge जैसा काम कर सकता है
  • Joke writing या summarization जैसे non-verifiable domains में humans को loop में शामिल करना पड़ता है
    • Write a joke about pelicans जैसे prompt में joke quality को automatically judge करना मुश्किल है
    • LLM joke generate कर सकता है, लेकिन उसकी quality को बड़े scale पर judge करना कठिन है
  • Humans को बड़े scale पर लगाना भी कठिन है, इसलिए RLHF paper में बताए गए approach की जरूरत होती है
  • RLHF एक अलग reward model train करके बड़े scale पर response quality judge करने में इस्तेमाल करता है
    • Humans responses की ranking evaluate करते हैं
    • उन evaluations से reward model को desired level तक train किया जाता है
    • इसके बाद reward model LLM response quality को बड़े scale पर judge करता है

RLHF के फायदे और सीमाएं

  • RLHF के फायदे ये हैं
    • Joke writing या summarization जैसे non-verifiable domains में भी reinforcement learning संभव बनाता है
    • Hallucinations कम करता है और responses को ज्यादा human-like बनाकर model में सुधार करता है
    • Human के लिए answer generate करने की तुलना में evaluate करना आसान होने वाले discriminator-generator gap का इस्तेमाल करता है
      • उदाहरण: “poem लिखो” की तुलना में “इन 5 poems में कौन-सी सबसे अच्छी है” चुनना आसान है
  • RLHF की सीमाएं भी स्पष्ट हैं
    • Reward model वास्तविक human नहीं, बल्कि human preference का simulation है
    • Reinforcement learning reward model की कमजोरियों का फायदा उठाने वाले adversarial examples बना सकता है
    • उदाहरण के लिए 1,000 updates के बाद “pelicans पर सबसे अच्छा joke” the the the the the the the the जैसा meaningless result हो सकता है
  • यह समस्या Adversarial Machine Learning के नाम से जानी जाती है
  • System का दुरुपयोग करने के तरीके अनंत हैं, इसलिए खराब responses filter करना सरल नहीं है
  • Over-optimization और performance degradation रोकने के लिए reward model training को कुछ सौ iterations तक सीमित रखा जाता है

LLM की आगे की दिशा

  • भविष्य में LLM कई दिशाओं में expand हो सकते हैं
    • Multimodal capabilities: text के अलावा images, audio, video को समझना और generate करना
    • Agent-based models: single task से आगे बढ़कर long-term memory, reasoning और mistake correction की ओर जाना
    • Everyday and invisible AI: workflows में स्वाभाविक रूप से integrate होना
    • Computer-use AI: सिर्फ text generate करना नहीं, बल्कि software से interact करना और actions perform करना
    • Test-time learning: accuracy को तुरंत बढ़ाने के लिए real-time में adapt करना

LLMs को follow और experiment करने की जगहें

  • LLM development track करने के resources
    • LM Arena: नए language models की benchmarking
    • AI News: AI research cover करने वाला newsletter
    • X (Twitter): कई researchers updates share करते हैं
  • विभिन्न LLMs आजमाने की जगहें
    • Proprietary Models: OpenAI GPT-4, Google Gemini, Anthropic Claude आदि
    • Open-Weight Models: DeepSeek, Meta Llama आदि, जिन्हें Together.ai पर इस्तेमाल किया जा सकता है
    • Local execution: Ollama या LM Studio का इस्तेमाल
    • Base Models: Hyperbolic पर explore किए जा सकते हैं

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.