लैपटॉप पर पूरी Wikipedia की vector indexing करना

(foojay.io)

3 पॉइंट द्वारा GN⁺ 2024-05-30 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

Cohere ने पूरी Wikipedia को vectors में embed किए गए dataset के रूप में जारी किया है
इस dataset का उपयोग करके कोई व्यक्ति Wikipedia का अर्थ-आधारित vector index बना सकता है

कठिनाइयाँ

dataset का आकार (सिर्फ English corpus ही 180GB) असली समस्या नहीं है
मौजूदा vector databases memory से बड़े datasets को index नहीं कर पाते थे
JVector library compressed vectors का उपयोग करके memory से बड़े datasets को index करने की सुविधा देती है

आवश्यकताएँ

Linux या MacOS आवश्यक है (Windows, ChronicleMap की सीमाओं के कारण उपयोग नहीं किया जा सकता)
dataset के लिए 180GB खाली जगह और index के लिए 90GB जगह चाहिए
index build करते समय 36GB heap space वाले JVM को चलाने के लिए पर्याप्त RAM चाहिए
index build करने से पहले swap disable करना आवश्यक है

index build और search

project clone करें: $ git clone https://github.com/jbellis/coherepedia-jvector
dataset download करें: python download.py
index build करें: ./mvnw compile exec:exec@buildindex
search server चलाएँ: ./mvnw compile exec:exec@serve और फिर browser में http://localhost:4567 खोलें

यह कैसे काम करता है

JVector से vector index बनाया जाता है, और Chronicle Map में article data store किया जाता है
vector compression के लिए Locally-Adaptive Quantization (LVQ) का उपयोग होता है
parallel streams का उपयोग करके data को parallel process किया जाता है

निष्कर्ष

JVector library की वजह से लैपटॉप पर पूरी English Wikipedia को index करना अब व्यावहारिक हो गया है
DataStax Astra service के साथ उपयोग करने पर real-time insert, update और delete को support करने वाली शक्तिशाली indexing capabilities का लाभ लिया जा सकता है

GN⁺ की राय

JVector की नवोन्मेषिता: JVector बड़े datasets को memory constraints के बिना index करने में सक्षम बनाती है, जिससे data science और search engine क्षेत्र में बड़ा बदलाव आ सकता है.
व्यावहारिक उपयोगिता: अब जब कोई व्यक्ति लैपटॉप पर पूरी Wikipedia को index कर सकता है, तो researchers और developers के लिए बड़े datasets का उपयोग करना और आसान हो जाता है.
तकनीकी विचारणीय बातें: इस तकनीक को अपनाने के लिए पर्याप्त disk space, memory, और swap disable करने जैसी system settings की आवश्यकता होती है.
वैकल्पिक तकनीकें: समान सुविधाएँ देने वाले अन्य open source projects में FAISS(Facebook AI Similarity Search) और Annoy(Approximate Nearest Neighbors Oh Yeah) शामिल हैं.
performance optimization: parallel processing और vector compression तकनीकों से performance optimize की जा सकती है, लेकिन system resources के प्रबंधन पर ध्यान देना आवश्यक है.

लैपटॉप पर पूरी Wikipedia की vector indexing करना

कठिनाइयाँ

आवश्यकताएँ

index build और search

यह कैसे काम करता है

निष्कर्ष

GN⁺ की राय

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.