• BM25 एल्गोरिदम को समझना

    • BM25 एक व्यापक रूप से उपयोग किया जाने वाला फुल-टेक्स्ट सर्च एल्गोरिदम है, जो Lucene/Elasticsearch और SQLite आदि में डिफ़ॉल्ट रूप से इस्तेमाल होता है।
    • हाल के समय में फुल-टेक्स्ट सर्च और vector similarity search को मिलाकर "hybrid search" लागू करना आम हो गया है।
    • इसकी शुरुआत इस सवाल से होती है कि क्या BM25 स्कोर की तुलना कई queries के बीच की जा सकती है।
  • दस्तावेज़ों की रैंकिंग

    • फुल-टेक्स्ट सर्च एल्गोरिदम का मूल लक्ष्य query से सबसे अधिक संबंधित दस्तावेज़ ढूँढना है।
    • BM25 इस संभावना के आधार पर दस्तावेज़ों की रैंकिंग करता है कि कोई दस्तावेज़ query से संबंधित है।
  • BM25 के घटक

    • Query terms: कई terms से बनी query के मामले में, हर term के लिए अलग स्कोर निकाला जाता है और फिर उन्हें जोड़ा जाता है।
    • Inverse Document Frequency (IDF): पूरे दस्तावेज़ संग्रह में किसी विशेष search term की दुर्लभता की गणना करता है।
    • दस्तावेज़ के भीतर term frequency: किसी विशेष दस्तावेज़ में search term कितनी बार आता है, इसकी गणना करता है।
    • दस्तावेज़ लंबाई normalization: दस्तावेज़ की लंबाई को दूसरे दस्तावेज़ों की तुलना में normalize करता है।
  • BM25 की गणितीय अभिव्यक्ति

    • BM25 एल्गोरिदम गणितीय रूप से जटिल लग सकता है, लेकिन इसके हर घटक को समझ लेने पर इसे आसानी से समझा जा सकता है।
    • मुख्य सूत्र हर query term के स्कोर को जोड़कर निकाला जाता है।
  • BM25 की विशिष्टता

    • Probability की गणना किए बिना probability-आधारित ranking: BM25 probabilistic relevance framework पर आधारित होकर दस्तावेज़ों की रैंकिंग करता है।
    • यह मानना कि अधिकांश दस्तावेज़ संबंधित नहीं होते: BM25 यह मानकर चलता है कि अधिकांश दस्तावेज़ query से संबंधित नहीं हैं, इसलिए relevance जानकारी के बिना भी यह उपयोगी बनता है।
  • निष्कर्ष

    • BM25 स्कोर की तुलना उसी collection के भीतर अलग-अलग queries के बीच की जा सकती है।
    • BM25 का फोकस दस्तावेज़ की relevance का अनुमान लगाने पर नहीं, बल्कि query के लिए relevance ranking करने पर है।
    • उसी collection के भीतर एक ही दस्तावेज़ के BM25 स्कोर की तुलना की जा सकती है।
  • अतिरिक्त पढ़ाई

    • अगर आप BM25 के सिद्धांत और इतिहास के बारे में और जानना चाहते हैं, तो Elastic इंजीनियर Britta Weber का 2016 का व्याख्यान और Stephen Robertson तथा Hugo Zaragoza का "The Probabilistic Relevance Framework: BM25 and Beyond" सुझाए जाते हैं।

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.