Node.js के लिए बेहद सरल chunking लाइब्रेरी
(github.com/golbin)आज मैंने LLM prototyping के लिए बनाई गई एक सरल vectorDB का परिचय दिया था..(https://hi.news.hada.io/topic?id=10798)
उसी जोश में मैंने Node.js के लिए एक बेहद सरल text chunking लाइब्रेरी भी बना ली।
LLM का उपयोग करके दस्तावेज़ों को embed करते समय आसानी से इस्तेमाल करने लायक चीज़ें लगभग नहीं मिलतीं, और Node.js के लिए तो और भी नहीं, इसलिए हर बार भारी-भरकम लाइब्रेरी इस्तेमाल करना खटकता था। (Edge में इस्तेमाल करने की तो कल्पना भी नहीं की थी)
चूँकि मैंने एक सरल VectorDB भी बनाया था, इसलिए उसे साथ में इस्तेमाल करने के लिए यह भी बना लिया। और वैसे भी अगर LLM के लिए इस्तेमाल करना है, तो ज़्यादातर मामलों में बहुत अधिक precision की ज़रूरत नहीं होती, इसलिए मैंने बस इतना बनाया कि साधारण वाक्य/अनुच्छेद विभाजन के आधार पर काटा जा सके और overlap को उचित रूप से रखा जा सके।
थोड़ा इस्तेमाल करके देखा, और हमेशा की तरह यही लगा: It just works, simple is the best haha
1 टिप्पणियां
संबंधित प्रोडक्ट: Node.js के लिए बेहद सरल vectorDB -> https://hi.news.hada.io/topic?id=10798