LEAF: 23M पैरामीटर के साथ OpenAI embedding प्रदर्शन का 97% हासिल, सिर्फ CPU पर चलता है

LEAF (Lightweight Embedding Alignment Framework) MongoDB Research द्वारा विकसित एक embedding मॉडल है, जो knowledge distillation तकनीक का उपयोग करके RAG (Retrieval-Augmented Generation) सिस्टम की लागत और गति की समस्याओं का समाधान करने वाला एक अभिनव समाधान है। मौजूदा high-performance embedding मॉडल के लिए GPU server अनिवार्य होते हैं, लेकिन LEAF 23M पैरामीटर वाले छोटे मॉडल के रूप में OpenAI के text-embedding-3-large के प्रदर्शन का 97% हासिल करते हुए सिर्फ CPU पर चल सकता है.

पृष्ठभूमि और समस्याएँ

RAG सिस्टम में document indexing धीमी हो सकती है, लेकिन user query का जवाब कुछ सौ millisecond के भीतर आना चाहिए।
high-performance मॉडल इस्तेमाल करने पर GPU लागत भारी पड़ती है, और low-cost मॉडल पर जाने से प्रदर्शन गिर जाता है — यह एक दुविधा थी।
LEAF इस समस्या को "teacher-student model compatibility" के ज़रिए हल करता है।
मौजूदा distillation तरीकों की तरह सभी layers को align नहीं किया जाता, बल्कि केवल final output (embedding) को match किया जाता है। इससे बड़े teacher मॉडल से documents index किए जा सकते हैं, और छोटे student मॉडल से CPU पर queries तेज़ी से process की जा सकती हैं, साथ ही मॉडल बदलने पर मौजूदा index को फिर से इस्तेमाल किया जा सकता है।
training data labeling के बिना एक A100 GPU से training की जा सकती है, इसलिए इसकी accessibility अधिक है।

जारी किए गए मॉडल और प्रदर्शन

MongoDB ने Apache 2.0 लाइसेंस के तहत दो मॉडल जारी किए हैं:

mdbr-leaf-ir: search/RAG के लिए optimized मॉडल। BEIR benchmark में 53.55 अंक (OpenAI small के 51.08 से अधिक, और large के 55.43 का 97%)।
mdbr-leaf-mt: general-purpose मॉडल (classification/clustering)। MTEB v2 में 63.97 अंक (OpenAI small के 64.56 के क़रीब), 30M पैरामीटर से कम श्रेणी में सर्वश्रेष्ठ प्रदर्शन।

ये मॉडल CPU 2-core पर प्रति सेकंड 120 queries process कर सकते हैं, और केवल 87MB memory का उपयोग करते हैं, इसलिए smartphone या IoT devices पर offline चलना संभव है।

निष्कर्ष और निहितार्थ

LEAF GPU dependency को कम करके high-performance embedding को अधिक लोकतांत्रिक बनाता है, और startup या edge computing वातावरण में RAG implementation को बढ़ावा देता है।
इसकी सीमा यह है कि मूल मॉडल की तुलना में 3% प्रदर्शन हानि होती है, लेकिन अधिकांश व्यावहारिक उपयोग में यह नज़रअंदाज़ करने योग्य है।
मॉडल और training recipe Hugging Face से डाउनलोड किए जा सकते हैं, और domain data के साथ fine-tuning करना आसान है।

LEAF: 23M पैरामीटर के साथ OpenAI embedding प्रदर्शन का 97% हासिल, सिर्फ CPU पर चलता है

पृष्ठभूमि और समस्याएँ

जारी किए गए मॉडल और प्रदर्शन

निष्कर्ष और निहितार्थ

संबंधित पढ़ाई

1 टिप्पणियां