GPT Tokenizer को समझना
(simonwillison.net)- GPT/LLaMA/PaLM जैसे LLM मॉडल token-आधारित तरीके से काम करते हैं
- टेक्स्ट लेकर उसे tokens (Integers) में बदलते हैं, और फिर यह predict करते हैं कि अगला कौन-सा token आएगा
- OpenAI ने Tokenizer सार्वजनिक किया है, लेकिन लेखक ने Observable notebook के रूप में अपना संस्करण प्रकाशित किया है (GPT-2 आधारित, शैक्षणिक उपयोग के लिए)
- text-to-token, token-to-text और पूरी token table खोजने का समर्थन
-
The dog eats the apples
El perro come las manzanas
片仮名 - ऊपर के वाक्यों को tokens में बदलने के नतीजों के आधार पर समझाया गया है
- The और the अलग-अलग tokens हैं
- कई शब्दों के लिए ऐसे tokens होते हैं जिनकी शुरुआत में खाली स्थान शामिल होता है (पूरे वाक्य की encoding के लिए यह कहीं अधिक efficient है)
- अंग्रेज़ी के अलावा अन्य भाषाओं के शब्दों का tokenization गैर-प्रभावी तरीके से होता है
अभी कोई टिप्पणी नहीं है.