30 पॉइंट द्वारा xguru 2021-04-05 | 1 टिप्पणियां | WhatsApp पर शेयर करें

English Wikipedia के title+summary पूरे डेटा का उपयोग करके, किसी खास तकनीक के बजाय सर्च इंजन की बुनियाद को चरण-दर-चरण समझाने वाला लेख

  1. Abstract ऑब्जेक्ट बनाकर डेटा तैयार करना

  2. Index बनाना: Tokenization और filtering

→ lowercase

→ stemming

→ English में सबसे ज़्यादा इस्तेमाल होने वाले 25 शब्द हटाना (the, be, to, of, a..)

  1. बेसिक सर्च बनाना

  2. relevance फीचर जोड़ना: Term Frequency (summary में वह शब्द कितनी बार इस्तेमाल हुआ है)

  3. Inverse Document Frequency जोड़ना: इस दस्तावेज़ से जुड़े अन्य दस्तावेज़ों की संख्या

कोड: https://github.com/bartdegoede/python-searchengine

1 टिप्पणियां

 
xguru 2021-04-05

फ़ज़ी स्ट्रिंग सर्च जो Korean initial-consonant search को भी support करता है https://hi.news.hada.io/topic?id=3631

यह लेख तकनीकी आधार या implementation के लिहाज़ से इससे बिल्कुल अलग है, लेकिन बुनियादी हिस्सों को चरण-दर-चरण विस्तार से समझाने वाला लेख होने के कारण इसे पढ़ना काफ़ी रोचक लगा।

इस तरह के full-text search/topic modeling/document indexing/similarity से जुड़े features को थोड़ा और गंभीरता से implement करने वाली कई Python libraries भी मौजूद हैं।

SQLite के लिए अलग से Full-Text-Search extension भी है।