minbpe - LLM टोकनाइज़ेशन में इस्तेमाल होने वाले Byte Pair Encoding का इम्प्लीमेंटेशन

xguru · 2024-02-21T11:06:01+09:00

OpenAI छोड़ चुके Andrej Karpathy द्वारा हाल ही में सार्वजनिक किया गया कोड LLM टोकनाइज़ेशन में आम तौर पर इस्तेमाल होने वाले (Byte Level) Byte Pair Encoding (BPE) एल्गोरिदम के लिए मिनिमल/क्लीन कोड Byte Level : क्योंकि यह UTF-8 एन्कोड की गई स्ट्रिंग्स पर काम करता है BPE को GPT-2 पेपर और OpenAI के संबंधित GPT-2 कोड रिलीज़ के जरिए LLM में लोकप्रिय बनाया गया था आज सभी आधुनिक LLMs (जैसे: GPT, Llama, Mistral) इसी एल्गोरिदम का उपयोग करके Tokenizer को ट्रेन करते हैं Repo में 2 Tokenizer हैं। दोनों ही 3 मुख्य ऑपरेशन चलाते हैं दिए गए टेक्स्ट पर Tokenizer की vocabulary और merges को train करना टेक्स्ट को tokens में encode करना tokens से वापस टेक्स्ट में decode करना Tokenizer base class, सबसे सरल इम्प्लीमेंटेशन BasicTokenizer, और regex से input string को split करने वाला RegexTokenizer RegexTokenizer का wrapper GPT4Tokenizer, tiktoken लाइब्रेरी में GPT-4 की टोकनाइज़ेशन को बिल्कुल सटीक रूप से पुन: प्रस्तुत करता है

OpenAI छोड़ चुके Andrej Karpathy द्वारा हाल ही में सार्वजनिक किया गया कोड
LLM टोकनाइज़ेशन में आम तौर पर इस्तेमाल होने वाले (Byte Level) Byte Pair Encoding (BPE) एल्गोरिदम के लिए मिनिमल/क्लीन कोड
- Byte Level : क्योंकि यह UTF-8 एन्कोड की गई स्ट्रिंग्स पर काम करता है
BPE को GPT-2 पेपर और OpenAI के संबंधित GPT-2 कोड रिलीज़ के जरिए LLM में लोकप्रिय बनाया गया था
आज सभी आधुनिक LLMs (जैसे: GPT, Llama, Mistral) इसी एल्गोरिदम का उपयोग करके Tokenizer को ट्रेन करते हैं
Repo में 2 Tokenizer हैं। दोनों ही 3 मुख्य ऑपरेशन चलाते हैं
- 1. दिए गए टेक्स्ट पर Tokenizer की vocabulary और merges को train करना
- 1. टेक्स्ट को tokens में encode करना
- 1. tokens से वापस टेक्स्ट में decode करना
Tokenizer base class, सबसे सरल इम्प्लीमेंटेशन BasicTokenizer, और regex से input string को split करने वाला RegexTokenizer
RegexTokenizer का wrapper GPT4Tokenizer, tiktoken लाइब्रेरी में GPT-4 की टोकनाइज़ेशन को बिल्कुल सटीक रूप से पुन: प्रस्तुत करता है

1 टिप्पणियां

xguru 2024-02-21

इसी से जुड़ा GPT Tokenizer बनाना वाला वीडियो भी अपलोड किया गया है.
GPT Tokenizer बनाना by Andrej Karpathy [वीडियो]

minbpe - LLM टोकनाइज़ेशन में इस्तेमाल होने वाले Byte Pair Encoding का इम्प्लीमेंटेशन

संबंधित पढ़ाई

1 टिप्पणियां