समस्या

  • semantic/natural language search और RAG के लिए vector embedding करना पड़ता है
  • अधिकांश embedding models में input length limit होती है
    • उचित input length तय करना search quality से जुड़ा होता है
    • input length limit की वजह से अधिकांश मामलों में paragraphs को अलग करके स्टोर करना पड़ता है
  • मूल पाठ को अलग-अलग स्टोर करने से एक दस्तावेज़ कई दस्तावेज़ों में विभाजित हो जाता है
    • अधिकांश दस्तावेज़ केवल एक text data field से नहीं बने होते; उनमें metadata, लंबे अन्य fields आदि भी होते हैं
    • विभाजित data को स्टोर करने के लिए या तो विभाजित मूल पाठ और अतिरिक्त जानकारी को duplicate करके स्टोर करना पड़ता है, या collections (या tables) को अलग करके स्टोर करना पड़ता है
      • duplicate storage से storage capacity बढ़ने के कारण inefficiency आती है, और अलग collections search process में join, score calculation, document count calculation जैसी complexity बढ़ा देती हैं
    • इस तरह की समस्या अधिकांश vector stores का उपयोग करते समय अक्सर सामने आती है

समाधान

  • हमने ऐसा दूसरा तरीका खोजा जिसमें मूल पाठ को विभाजित न करना पड़े
  • DB और संबंधित libraries को इस तरह संशोधित किया कि embedding data स्टोर होने वाला field 2D data input ले सके
    • इससे मूल पाठ को विभाजित किए बिना, एक या अधिक हिस्सों में बँटे प्रत्येक दस्तावेज़ के लिए variable-length vector data स्टोर करना संभव हो गया
    • इस तरीके से मूल पाठ और उससे अलग vector data बिना collection split के साथ-साथ रह सकते हैं, जिससे data management और queries अधिक सरल हो जाती हैं

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.