- OpenAI छोड़ चुके Andrej Karpathy द्वारा हाल ही में सार्वजनिक किया गया कोड
- LLM टोकनाइज़ेशन में आम तौर पर इस्तेमाल होने वाले (Byte Level) Byte Pair Encoding (BPE) एल्गोरिदम के लिए मिनिमल/क्लीन कोड
- Byte Level : क्योंकि यह UTF-8 एन्कोड की गई स्ट्रिंग्स पर काम करता है
- BPE को GPT-2 पेपर और OpenAI के संबंधित GPT-2 कोड रिलीज़ के जरिए LLM में लोकप्रिय बनाया गया था
- आज सभी आधुनिक LLMs (जैसे: GPT, Llama, Mistral) इसी एल्गोरिदम का उपयोग करके Tokenizer को ट्रेन करते हैं
- Repo में 2 Tokenizer हैं। दोनों ही 3 मुख्य ऑपरेशन चलाते हैं
-
- दिए गए टेक्स्ट पर Tokenizer की vocabulary और merges को train करना
-
- टेक्स्ट को tokens में encode करना
-
- tokens से वापस टेक्स्ट में decode करना
- Tokenizer base class, सबसे सरल इम्प्लीमेंटेशन BasicTokenizer, और regex से input string को split करने वाला RegexTokenizer
- RegexTokenizer का wrapper GPT4Tokenizer,
tiktoken लाइब्रेरी में GPT-4 की टोकनाइज़ेशन को बिल्कुल सटीक रूप से पुन: प्रस्तुत करता है
1 टिप्पणियां
इसी से जुड़ा GPT Tokenizer बनाना वाला वीडियो भी अपलोड किया गया है.
GPT Tokenizer बनाना by Andrej Karpathy [वीडियो]