- Cohere ने पूरी Wikipedia को vectors में embed किए गए dataset के रूप में जारी किया है
- इस dataset का उपयोग करके कोई व्यक्ति Wikipedia का अर्थ-आधारित vector index बना सकता है
कठिनाइयाँ
- dataset का आकार (सिर्फ English corpus ही 180GB) असली समस्या नहीं है
- मौजूदा vector databases memory से बड़े datasets को index नहीं कर पाते थे
- JVector library compressed vectors का उपयोग करके memory से बड़े datasets को index करने की सुविधा देती है
आवश्यकताएँ
- Linux या MacOS आवश्यक है (Windows, ChronicleMap की सीमाओं के कारण उपयोग नहीं किया जा सकता)
- dataset के लिए 180GB खाली जगह और index के लिए 90GB जगह चाहिए
- index build करते समय 36GB heap space वाले JVM को चलाने के लिए पर्याप्त RAM चाहिए
- index build करने से पहले swap disable करना आवश्यक है
index build और search
यह कैसे काम करता है
- JVector से vector index बनाया जाता है, और Chronicle Map में article data store किया जाता है
- vector compression के लिए Locally-Adaptive Quantization (LVQ) का उपयोग होता है
- parallel streams का उपयोग करके data को parallel process किया जाता है
निष्कर्ष
- JVector library की वजह से लैपटॉप पर पूरी English Wikipedia को index करना अब व्यावहारिक हो गया है
- DataStax Astra service के साथ उपयोग करने पर real-time insert, update और delete को support करने वाली शक्तिशाली indexing capabilities का लाभ लिया जा सकता है
GN⁺ की राय
- JVector की नवोन्मेषिता: JVector बड़े datasets को memory constraints के बिना index करने में सक्षम बनाती है, जिससे data science और search engine क्षेत्र में बड़ा बदलाव आ सकता है.
- व्यावहारिक उपयोगिता: अब जब कोई व्यक्ति लैपटॉप पर पूरी Wikipedia को index कर सकता है, तो researchers और developers के लिए बड़े datasets का उपयोग करना और आसान हो जाता है.
- तकनीकी विचारणीय बातें: इस तकनीक को अपनाने के लिए पर्याप्त disk space, memory, और swap disable करने जैसी system settings की आवश्यकता होती है.
- वैकल्पिक तकनीकें: समान सुविधाएँ देने वाले अन्य open source projects में FAISS(Facebook AI Similarity Search) और Annoy(Approximate Nearest Neighbors Oh Yeah) शामिल हैं.
- performance optimization: parallel processing और vector compression तकनीकों से performance optimize की जा सकती है, लेकिन system resources के प्रबंधन पर ध्यान देना आवश्यक है.
अभी कोई टिप्पणी नहीं है.