GPT Tokenizer को समझना

xguru · 2023-06-12T10:57:14+09:00

GPT/LLaMA/PaLM जैसे LLM मॉडल token-आधारित तरीके से काम करते हैं टेक्स्ट लेकर उसे tokens (Integers) में बदलते हैं, और फिर यह predict करते हैं कि अगला कौन-सा token आएगा OpenAI ने Tokenizer सार्वजनिक किया है, लेकिन लेखक ने Observable notebook के रूप में अपना संस्करण प्रकाशित किया है (GPT-2 आधारित, शैक्षणिक उपयोग के लिए) text-to-token, token-to-text और पूरी token table खोजने का समर्थन The dog eats the apples El perro come las manzanas 片仮名 ऊपर के वाक्यों को tokens में बदलने के नतीजों के आधार पर समझाया गया है The और the अलग-अलग tokens हैं कई शब्दों के लिए ऐसे tokens होते हैं जिनकी शुरुआत में खाली स्थान शामिल होता है (पूरे वाक्य की encoding के लिए यह कहीं अधिक efficient है) अंग्रेज़ी के अलावा अन्य भाषाओं के शब्दों का tokenization गैर-प्रभावी तरीके से होता है

(simonwillison.net)

15 पॉइंट द्वारा xguru 2023-06-12 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

GPT/LLaMA/PaLM जैसे LLM मॉडल token-आधारित तरीके से काम करते हैं
टेक्स्ट लेकर उसे tokens (Integers) में बदलते हैं, और फिर यह predict करते हैं कि अगला कौन-सा token आएगा
OpenAI ने Tokenizer सार्वजनिक किया है, लेकिन लेखक ने Observable notebook के रूप में अपना संस्करण प्रकाशित किया है (GPT-2 आधारित, शैक्षणिक उपयोग के लिए)
- text-to-token, token-to-text और पूरी token table खोजने का समर्थन
The dog eats the apples
El perro come las manzanas
片仮名
ऊपर के वाक्यों को tokens में बदलने के नतीजों के आधार पर समझाया गया है
- The और the अलग-अलग tokens हैं
- कई शब्दों के लिए ऐसे tokens होते हैं जिनकी शुरुआत में खाली स्थान शामिल होता है (पूरे वाक्य की encoding के लिए यह कहीं अधिक efficient है)
- अंग्रेज़ी के अलावा अन्य भाषाओं के शब्दों का tokenization गैर-प्रभावी तरीके से होता है

GPT Tokenizer को समझना

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.