• GPT/LLaMA/PaLM जैसे LLM मॉडल token-आधारित तरीके से काम करते हैं
  • टेक्स्ट लेकर उसे tokens (Integers) में बदलते हैं, और फिर यह predict करते हैं कि अगला कौन-सा token आएगा
  • OpenAI ने Tokenizer सार्वजनिक किया है, लेकिन लेखक ने Observable notebook के रूप में अपना संस्करण प्रकाशित किया है (GPT-2 आधारित, शैक्षणिक उपयोग के लिए)
    • text-to-token, token-to-text और पूरी token table खोजने का समर्थन
  • The dog eats the apples
    El perro come las manzanas
    片仮名

  • ऊपर के वाक्यों को tokens में बदलने के नतीजों के आधार पर समझाया गया है
    • The और the अलग-अलग tokens हैं
    • कई शब्दों के लिए ऐसे tokens होते हैं जिनकी शुरुआत में खाली स्थान शामिल होता है (पूरे वाक्य की encoding के लिए यह कहीं अधिक efficient है)
    • अंग्रेज़ी के अलावा अन्य भाषाओं के शब्दों का tokenization गैर-प्रभावी तरीके से होता है

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.