- OpenAI के TikToken के साथ 100% compatible high-performance tokenizer, जो बड़े पैमाने के text processing में 2x से अधिक throughput और 4x तेज़ code tokenization speed देता है
- PCRE2-आधारित high-speed regular expression parsing engine के ज़रिए token pattern matching speed को अधिकतम करता है
- सरल किया गया BPE algorithm बड़े special token sets को प्रोसेस करते समय performance drop को न्यूनतम करता है
- वास्तविक benchmarks में code tokenization 4x से अधिक तेज़ है, और मौजूदा TikToken-आधारित code को बिना बदलाव के replace करके इस्तेमाल किया जा सकता है
- Python 3.8+ support, PyPI
pip install tokendagger से आसानी से install किया जा सकता है, और PCRE2 dependency की आवश्यकता होती है
1 टिप्पणियां
Hacker News की राय
vLLMभी मुख्यतः Python में लिखा गया है)। C++ में rewrite का मतलब लगभग हमेशा CUDA kernels को ज़्यादा कुशल तरीके से फिर से लिखना होता है।matmulसे आती है, लेकिन टिप्पणियों को देखकर लगता है कि tokenizer का महत्व है।