13 पॉइंट द्वारा xguru 2024-02-21 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • OpenAI छोड़ चुके Andrej Karpathy द्वारा हाल ही में सार्वजनिक किया गया कोड
  • LLM टोकनाइज़ेशन में आम तौर पर इस्तेमाल होने वाले (Byte Level) Byte Pair Encoding (BPE) एल्गोरिदम के लिए मिनिमल/क्लीन कोड
    • Byte Level : क्योंकि यह UTF-8 एन्कोड की गई स्ट्रिंग्स पर काम करता है
  • BPE को GPT-2 पेपर और OpenAI के संबंधित GPT-2 कोड रिलीज़ के जरिए LLM में लोकप्रिय बनाया गया था
  • आज सभी आधुनिक LLMs (जैसे: GPT, Llama, Mistral) इसी एल्गोरिदम का उपयोग करके Tokenizer को ट्रेन करते हैं
  • Repo में 2 Tokenizer हैं। दोनों ही 3 मुख्य ऑपरेशन चलाते हैं
      1. दिए गए टेक्स्ट पर Tokenizer की vocabulary और merges को train करना
      1. टेक्स्ट को tokens में encode करना
      1. tokens से वापस टेक्स्ट में decode करना
  • Tokenizer base class, सबसे सरल इम्प्लीमेंटेशन BasicTokenizer, और regex से input string को split करने वाला RegexTokenizer
  • RegexTokenizer का wrapper GPT4Tokenizer, tiktoken लाइब्रेरी में GPT-4 की टोकनाइज़ेशन को बिल्कुल सटीक रूप से पुन: प्रस्तुत करता है

1 टिप्पणियां

 
xguru 2024-02-21

इसी से जुड़ा GPT Tokenizer बनाना वाला वीडियो भी अपलोड किया गया है.
GPT Tokenizer बनाना by Andrej Karpathy [वीडियो]