ir - qmd का विकल्प लोकल सर्च इंजन (कोरियाई preprocessing सपोर्ट सहित)
(github.com/vlwkaos)मौजूदा qmd का उपयोग करते समय मुझे कुछ समस्याएँ मिलीं, इसलिए उसके विकल्प के रूप में लोकल उपयोग के लिए एक सर्च इंजन बनाया।
एक ही sqlite DB में सभी collection को एक साथ indexing/embedding करना पड़ने की असुविधा
-> इसे अलग करने पर प्रोजेक्ट-आधारित collection management संभव होता है, और कई agent एक साथ काम करते समय भी index update आदि आसानी से हो सकते हैं।
सिर्फ अंग्रेज़ी-आधारित basic preprocessing सपोर्ट होने की समस्या
-> command के i/o-आधारित preprocessor को सीधे जोड़ने का सपोर्ट है। repo में कई benchmarking के बाद सबसे अच्छा performance देने वाला lindera-ko छोड़ा गया है। installation के लिए guide देखें।
BM25 gap test fail होने पर hybrid search के लिए मॉडल को cold loading करते समय बहुत अधिक समय लगने की समस्या
-> daemon चलता रहता है और मॉडल को memory में लोड रखता है.
qmd की तुलना में warm state में 20 गुना से अधिक तेज़ है,
और relevance score के benchmark के बिना qmd के विपरीत,
वास्तविक corpus पर थोड़ा score tuning भी किया गया है।
यह पहली सार्वजनिक रिलीज़ है, इसलिए समस्या आ सकती है। कृपया comment में बताएं या issue दर्ज करें, इसके लिए आभारी रहूँगा।
कोरियाई guide: https://github.com/vlwkaos/ir/blob/main/README.ko.md
2 टिप्पणियां
QMD की सीमाओं की वजह से मैं सोच में था, लेकिन यह काफ़ी उम्मीद जगाने वाला लग रहा है!
ओह, मैं इसे अच्छी तरह इस्तेमाल करूंगा!