- बेस इंस्टॉल साइज 21MB है, जो वैकल्पिक लाइब्रेरियों की तुलना में 80-171MB छोटा है
- दूसरी लोकप्रिय लाइब्रेरियों की तुलना में token chunking की गति 33 गुना तेज़ है
- token, शब्द, वाक्य, semantic, SDPM आदि जैसी विभिन्न chunking strategies का समर्थन
transformers, tokenizers, tiktoken जैसे प्रमुख tokenizers के साथ पूरी तरह संगत
- बेसिक फीचर्स के लिए किसी बाहरी dependency की आवश्यकता नहीं
तकनीकी अनुकूलन
- तेज़ tokenization के लिए multithreading को सपोर्ट करने वाले
tiktoken का उपयोग
- आक्रामक caching और precomputation लागू
- कुशल semantic chunking के लिए Running Mean Pooling का उपयोग
- modular dependency system, जिससे केवल ज़रूरी चीज़ें ही इंस्टॉल की जा सकती हैं
अभी कोई टिप्पणी नहीं है.