- Tokenizer बड़े language model (LLM) का एक अनिवार्य और बहुत अधिक उपयोग होने वाला घटक है, जो string और token (text के टुकड़ों) के बीच रूपांतरण करता है
- Tokenizer, LLM pipeline का पूरी तरह अलग चरण है:
- इसका अपना training set और training algorithm (Byte Pair Encoding) होता है
- training के बाद यह दो बुनियादी functions लागू करता है:
- string को token में बदलने वाला
encode(),
- और token को फिर से string में बदलने वाला
decode()
- इस lecture में OpenAI की GPT series में इस्तेमाल हुए Tokenizer को शुरुआत से बनाकर देखा जाएगा
- इस प्रक्रिया में आप जानेंगे कि LLM के कई अजीब व्यवहार और समस्याएँ वास्तव में tokenization की वजह से पैदा होती हैं
- इन समस्याओं को देखा जाएगा, यह चर्चा की जाएगी कि tokenization इनके लिए जिम्मेदार क्यों है, और क्यों किसी को इस चरण को पूरी तरह हटाने का तरीका खोजना चाहिए
2 टिप्पणियां
Hacker News की राय
Andrej Karpathy के GPT nano बनाने पर आधारित वीडियो आधुनिक बड़े भाषा मॉडल (Large Language Models, LLM) विकसित करने के लिए ज़रूरी सभी चरणों को बेहतरीन ढंग से समझाने वाला ट्यूटोरियल होना.
Andrej Karpathy बहुत तेज़ बोलना, इसलिए playback speed जाँचने की ज़रूरत महसूस होना. ऐसा लगना जैसे वे 1.25x गति पर बोल रहे हों.
पैसे देकर भी इस तरह का उच्च-गुणवत्ता वाला कंटेंट पाना कठिन होना.
"जब यह ब्रह्मांडीय अंडा होता है, तो यह एक single token होता है" इस अभिव्यक्ति पर, 'Nostromo' के crew सहमत होंगे या नहीं, यह निश्चित न होना. (यह हिस्सा फ़िल्म 'Alien' में आने वाले अंतरिक्षयान 'Nostromo' के संदर्भ वाला मज़ाक होना, और टिप्पणी का पूरा संदर्भ समझने के लिए उस फ़िल्म की पृष्ठभूमि-जानकारी की आवश्यकता होना)
ऊपर का सारांश प्रत्येक टिप्पणी को तटस्थ और संज्ञा-रूप में समाप्त होने वाले वाक्य के रूप में संक्षेपित करना, और शुरुआती software engineer भी समझ सकें इसलिए पृष्ठभूमि-ज्ञान को संक्षेप में जोड़ना.
लगता है कि prompt यह था: "हर comment को निष्पक्ष और संज्ञा-रूप में समाप्त होने वाले वाक्य में summarize करो, संक्षिप्त background knowledge जोड़ो, ताकि शुरुआती software engineer भी उसे समझ सके"