MUVERA - मल्टी-वेक्टर सर्च को single-vector स्तर जितना तेज़ बनाना

(research.google)

4 पॉइंट द्वारा GN⁺ 2025-06-30 | 1 टिप्पणियां | WhatsApp पर शेयर करें

single-vector embedding आधारित सर्च तेज़ और कुशल है, लेकिन हाल के ColBERT जैसे multi-vector models प्रत्येक token के लिए कई vectors इस्तेमाल करके अधिक समृद्ध अर्थ और बेहतर सटीकता देते हैं
multi-vector तरीका Chamfer similarity जैसी जटिल similarity calculations के कारण computation और search cost को बहुत बढ़ा देता है, जिससे बड़े पैमाने पर real-time search में बाधा आती है
Google Research टीम द्वारा प्रस्तावित MUVERA multi-vector जानकारी को fixed-length vector (FDE, Fixed Dimensional Encoding) में compress करता है, फिर single-vector आधारित MIPS (maximum inner product search) से ultra-fast retrieval के बाद reranking करता है
यह तरीका data-independent है और theoretical guarantees (Chamfer similarity approximation error guarantee) भी देता है, तथा मौजूदा PLAID की तुलना में 90% से अधिक latency reduction और 10% से अधिक recall improvement हासिल करता है
FDE compression भी support करता है (32x memory reduction), और open-source implementation व paper दोनों उपलब्ध हैं, इसलिए यह search, recommendation और NLP के production services में अपनाने के लिए उपयुक्त है

embedding models और information retrieval का विकास

deep learning आधारित embedding models user queries (उदाहरण: “एवरेस्ट पर्वत की ऊँचाई”) के लिए विशाल datasets (documents, images, videos आदि) में संबंधित जानकारी तेज़ी से खोजने का मुख्य साधन हैं
हर data point को single-vector embedding में बदलने से अर्थ की दृष्टि से समान data, संख्यात्मक रूप से भी समान vector structure रखता है
vectors के बीच inner product similarity calculation का उपयोग करके maximum inner product search (MIPS) algorithms तेज़ retrieval performance देते हैं
लेकिन हाल में ColBERT जैसे multi-vector models उच्चतर retrieval accuracy और जटिल संबंधों को समझने की क्षमता के कारण ध्यान आकर्षित कर रहे हैं

multi-vector models का आगमन और सीमाएँ

multi-vector models हर data point को कई embedding vectors के set के रूप में व्यक्त करते हैं
Chamfer similarity जैसी complex similarity functions का उपयोग करके ये ऐसी जानकारी और संबंधों को अधिक सटीक रूप से पकड़ते हैं जिन्हें पारंपरिक single-vector तरीके पकड़ नहीं पाते
इस वजह से अधिक सटीक information retrieval और अधिक relevant document recommendation संभव होती है
कमी यह है कि embedding की संख्या बढ़ने और similarity calculation की जटिलता के कारण search के लिए आवश्यक computing resources काफी बढ़ जाते हैं
- token-वार vectors की संख्या बढ़ना → computation और memory में भारी वृद्धि
- non-linear (matrix multiplication) operations अनिवार्य → single-vector आधारित sublinear (ultra-fast) search संभव नहीं
- बड़े पैमाने की सेवाओं में लागू करने पर cost और latency तेज़ी से बढ़ती है

MUVERA: FDE के साथ multi-vector search में नवाचार

paper “MUVERA: Multi-Vector Retrieval via Fixed Dimensional Encodings” इस efficiency समस्या को दूर करने के लिए एक नया algorithm प्रस्तावित करता है
MUVERA multi-vector जानकारी को single FDE vector में बदलता है, जिससे मौजूदा MIPS index/server को यथावत इस्तेमाल कर तेज़ candidate retrieval संभव हो जाता है
1. FDE generation: query और document के multi-vector sets को fixed-length vector (FDE) में बदलना (data-independent mapping)
2. MIPS search: सभी documents के FDE को MIPS index में store करना, और query FDE से candidates को ultra-fast ढंग से खोजना
3. accuracy-guaranteed reranking: केवल candidate documents पर Chamfer similarity जैसी मूल multi-vector operations लागू करके, सटीक reranking से अंतिम परिणाम देना
FDE dataset से स्वतंत्र रूप से लागू किया जा सकता है, इसलिए streaming जैसे dynamic environments में भी यह फायदेमंद है

सैद्धांतिक आधार

probabilistic tree embedding जैसे उन्नत geometric algorithms से प्रेरित होकर, FDE multi-vector similarity का शक्तिशाली approximation प्रदान करता है
embedding space को random रूप से विभाजित किया जाता है, और जब query/document vectors एक ही section में आते हैं तो approximate similarity की गणना की जाती है
paper में Chamfer similarity approximation error के सीमित दायरे की guarantee के लिए theory और experimental data दोनों प्रस्तुत किए गए हैं

प्रयोगात्मक परिणाम और प्रदर्शन

BEIR benchmark सहित विभिन्न बड़े IR datasets पर MUVERA के प्रदर्शन को सत्यापित किया गया
- मौजूदा PLAID आदि की तुलना में औसतन 10% अधिक recall हासिल
- 90% से अधिक search latency reduction
- समान recall पर, FDE आधारित candidate documents की संख्या को मौजूदा तरीकों की तुलना में 5~20x तक कम किया
- Product Quantization जैसी अतिरिक्त compression techniques के साथ भी अच्छा तालमेल (32x memory reduction)
इससे multi-vector search की व्यावहारिक उपयोगिता में बड़ा सुधार होता है, और यह बड़े पैमाने के search, recommendation तथा NLP applications के लिए उपयुक्त है

निष्कर्ष और उपयोग

MUVERA multi-vector search को single-vector स्तर तक तेज़ करने वाला एक अभिनव दृष्टिकोण है
open-source implementation (GitHub लिंक), paper और experimental results सभी सार्वजनिक हैं
search engines, recommendation systems, natural language processing आदि में बड़े पैमाने पर multi-vector search को कुशल बनाने के लिए यह एक व्यावहारिक विकल्प है
भविष्य में और शोध व optimization जुड़ने पर इसके और व्यापक औद्योगिक उपयोग की उम्मीद की जा सकती है

1 टिप्पणियां

GN⁺ 2025-06-30

Hacker News राय

हाल ही में Weaviate में Muvera जोड़ने के अनुभव का परिचय और ब्लॉग, पॉडकास्ट लिंक साझा किए गए। ColBERT-स्टाइल multi-vector approach में, हर token के लिए embedding करने पर लागत बहुत बढ़ जाने की समस्या का उल्लेख है। उदाहरण के लिए, मौजूदा 768-dimensional vector की जगह यह अधिकतम 16,640 dimensions या उससे भी अधिक तक बढ़ सकता है, जो कई परिस्थितियों में अव्यावहारिक बोझ है। Muvera कई vectors को एक fixed dimension वाले vector में बदल देता है, जो आम तौर पर dimensions में छोटा होता है, और उसे किसी भी ANN index में सीधे इस्तेमाल किया जा सकता है। Single vector इस्तेमाल करने की वजह से मौजूदा algorithms और कई quantization techniques लागू की जा सकती हैं, जिससे memory बचती है। PLAID के विपरीत, इसमें किसी विशेष index structure या clustering assumption की जरूरत नहीं होती, इसलिए latency भी कम रहती है
हाल में mean-pooling करके एक embedding बनाने वाले तरीके से दूरी बनाने की ट्रेंड का उल्लेख है। चूंकि हर token embedding को संभालने पर vectors की संख्या बहुत ज्यादा हो जाती है, इसलिए उन्हें ठीक तरीके से कम करने की जरूरत बताई गई है। यह तरीका token embeddings को मनमाने partitions में cluster करता है, फिर हर partition पर mean-pooling करके उन्हें जोड़कर fixed-length embedding बनाता है। पूरी multi-vector comparison performance के लिहाज से कठिन होने के कारण, इसे single-vector tools और performance के साथ तुलना योग्य बनाने के लिए k vectors में cluster करके concatenate किया जाता है। नतीजतन partitions की संख्या fixed हो जाती है, इसलिए यह k-means-स्टाइल token embedding clustering जैसा प्रभाव देता है। यह भी सुझाव दिया गया है कि अगर tokens को dynamically cluster किया जाए, तो variable-count embeddings मिल सकते हैं और शायद बेहतर नतीजे भी मिलें
साझा किया गया कि यह तरीका hyperparameters के प्रति बहुत संवेदनशील था, और उनके अपने experiments में यह maxsim जैसी performance नहीं दे सका
समझ यह बनी कि Muvera query की FDE (Fixed Dimensional Embedding) निकालता है और फिर model dataset में मिलती-जुलती FDE खोजता है; अगर ऐसा है, तो क्या model की सभी same-size FDE भी निकालनी पड़ेंगी?
- लेकिन यह काम data load करते समय केवल एक बार करना होता है, और उसके बाद search को precomputed FDE पर MIPS (Maximum Inner Product Search) के जरिए संभाला जा सकता है
इस क्षेत्र की गहरी जानकारी न होने की बात कहते हुए पूछा गया कि क्या neural embedding query भी वैसे ही काम करती है जैसे SQL query से किसी table के सभी names लौटाए जाते हैं, या फिर परिणाम अधिक अस्पष्ट हो जाते हैं
संक्षेप में इसे कई embeddings को एक में compress करने, यानी dimension कम करने और performance बढ़ाने के लिए “embedding of embeddings” जैसा approach बताया गया। चूंकि कई embeddings में काफी overlapping information होती है, इसलिए अगर उन्हें एक में compress किया जा सके, तो अतिरिक्त embeddings का मूल्य अधिकतर सीमित माना जा सकता है। अगर performance समान रहती है, तो information theory के नजरिए से यह सवाल उठता है कि क्या इसे बिना loss के represent किया जा सकता है
- यह बताया गया कि अतिरिक्त embeddings की marginal utility कम होना ही paper का मुख्य बिंदु है, और तर्क यह है कि single embedding vector इतना sparse हो सकता है कि वह अतिरिक्त vector information को भी प्रभावी ढंग से साथ लेकर search performance बेहतर बना सके
पूछा गया कि यह पुराने feature hash तरीकों (कई embeddings को एक में घटाने के तरीके) से कैसे अलग है, और क्या UMAP जैसी single-vector dimensionality reduction techniques इसमें मदद कर सकती हैं
- यह इंगित किया गया कि UMAP values को उसी coordinate space में project नहीं करता; coordinates में स्थिति बदल जाती है, इसलिए abstract properties भले मिलती-जुलती हों, लेकिन actual coordinate-level results अलग हो सकते हैं

MUVERA - मल्टी-वेक्टर सर्च को single-vector स्तर जितना तेज़ बनाना

embedding models और information retrieval का विकास

multi-vector models का आगमन और सीमाएँ

MUVERA: FDE के साथ multi-vector search में नवाचार

सैद्धांतिक आधार

प्रयोगात्मक परिणाम और प्रदर्शन

निष्कर्ष और उपयोग

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय