Andrej Karpathy द्वारा GPT Tokenizer बनाना [वीडियो]

(youtube.com)

23 पॉइंट द्वारा GN⁺ 2024-02-21 | 2 टिप्पणियां | WhatsApp पर शेयर करें

Tokenizer बड़े language model (LLM) का एक अनिवार्य और बहुत अधिक उपयोग होने वाला घटक है, जो string और token (text के टुकड़ों) के बीच रूपांतरण करता है
Tokenizer, LLM pipeline का पूरी तरह अलग चरण है:
- इसका अपना training set और training algorithm (Byte Pair Encoding) होता है
- training के बाद यह दो बुनियादी functions लागू करता है:
  - string को token में बदलने वाला encode(),
  - और token को फिर से string में बदलने वाला decode()
इस lecture में OpenAI की GPT series में इस्तेमाल हुए Tokenizer को शुरुआत से बनाकर देखा जाएगा
इस प्रक्रिया में आप जानेंगे कि LLM के कई अजीब व्यवहार और समस्याएँ वास्तव में tokenization की वजह से पैदा होती हैं
इन समस्याओं को देखा जाएगा, यह चर्चा की जाएगी कि tokenization इनके लिए जिम्मेदार क्यों है, और क्यों किसी को इस चरण को पूरी तरह हटाने का तरीका खोजना चाहिए

2 टिप्पणियां

GN⁺ 2024-02-21

Hacker News की राय

Andrej Karpathy के GPT nano बनाने पर आधारित वीडियो आधुनिक बड़े भाषा मॉडल (Large Language Models, LLM) विकसित करने के लिए ज़रूरी सभी चरणों को बेहतरीन ढंग से समझाने वाला ट्यूटोरियल होना.
- यह 'zero to hero' सीरीज़ जटिल अवधारणाओं को डरावना दिखाने या उन्हें बेवजह अत्यधिक जटिल बनाने वाली उपमाओं का उपयोग किए बिना, वास्तविक implementation और उपमाओं के ज़रिए विचारों को समझने और उनकी सरलता को देखने में मदद करना.
- शुरुआत में learning curve कठिन होना, लेकिन वास्तव में समझ हासिल होना और उसके कारणों पर चर्चा कर पाने की क्षमता मिलना संतोषजनक होना.
Andrej Karpathy बहुत तेज़ बोलना, इसलिए playback speed जाँचने की ज़रूरत महसूस होना. ऐसा लगना जैसे वे 1.25x गति पर बोल रहे हों.
पैसे देकर भी इस तरह का उच्च-गुणवत्ता वाला कंटेंट पाना कठिन होना.
"जब यह ब्रह्मांडीय अंडा होता है, तो यह एक single token होता है" इस अभिव्यक्ति पर, 'Nostromo' के crew सहमत होंगे या नहीं, यह निश्चित न होना. (यह हिस्सा फ़िल्म 'Alien' में आने वाले अंतरिक्षयान 'Nostromo' के संदर्भ वाला मज़ाक होना, और टिप्पणी का पूरा संदर्भ समझने के लिए उस फ़िल्म की पृष्ठभूमि-जानकारी की आवश्यकता होना)

ऊपर का सारांश प्रत्येक टिप्पणी को तटस्थ और संज्ञा-रूप में समाप्त होने वाले वाक्य के रूप में संक्षेपित करना, और शुरुआती software engineer भी समझ सकें इसलिए पृष्ठभूमि-ज्ञान को संक्षेप में जोड़ना.

wooseop 2024-02-21

लगता है कि prompt यह था: "हर comment को निष्पक्ष और संज्ञा-रूप में समाप्त होने वाले वाक्य में summarize करो, संक्षिप्त background knowledge जोड़ो, ताकि शुरुआती software engineer भी उसे समझ सके"

Andrej Karpathy द्वारा GPT Tokenizer बनाना [वीडियो]

संबंधित पढ़ाई

2 टिप्पणियां

Hacker News की राय