- sgrep एक कमांड-लाइन टूल है जो word embeddings का उपयोग करके टेक्स्ट इनपुट पर semantic search करता है
- यह साधारण string matching से आगे बढ़कर query के लिए semantic रूप से समान matches खोजता है
- इसे grep जैसे अनुभव देने के लिए डिज़ाइन किया गया है
- सुविधाएँ
- Word2Vec embeddings का उपयोग करके semantic search
- similarity threshold सेट करने की सुविधा
- match होने वाली line के पहले और बाद का context दिखाना
- matching words और line numbers के लिए color-coded output
- files या standard input से पढ़ने का समर्थन
- JSON files और command-line arguments के माध्यम से configuration संभव
- उपयोग उदाहरण
- Word2Vec मॉडल
- sgrep को binary format में Word2Vec model चाहिए। आप Google के Word2Vec model जैसे pre-trained models का उपयोग कर सकते हैं या gensim जैसे tools से अपना model train कर सकते हैं
.bin file को लोकल में डाउनलोड करें और config.json अपडेट करें
download-model.sh एक सरल helper script है जो eyaler द्वारा होस्ट किया गया छोटा word2vec model models/googlenews-slim/ directory में सहेजता है
GN⁺ का सार
- sgrep एक ऐसा टूल है जो word embeddings का उपयोग करके टेक्स्ट में semantic रूप से समान शब्द खोजता है
- यह grep जैसा उपयोग अनुभव देता है, लेकिन साधारण string matching से आगे की क्षमता प्रदान करता है
- यह similarity तय करने के लिए Word2Vec model का उपयोग करता है और कई configuration options के साथ लचीले ढंग से इस्तेमाल किया जा सकता है
- यह text analysis और natural language processing कार्यों में उपयोगी हो सकता है, खासकर जब context-based search की आवश्यकता हो
1 टिप्पणियां
Hacker News राय
कोड पढ़ते समय कुछ छोटे सुझाव साझा किए गए
यह विचार बहुत उपयोगी लगा और सोचा कि यह पहले क्यों नहीं सूझा
semgrep नाम का एक tool और company पहले से मौजूद है
अगर यह tool descriptive phrases या compound phrases को handle कर सके, तो यह बहुत उपयोगी होगा
यह बहुत शानदार tool है
यह tool बहुत शानदार है और इसे ज़रूर आज़माना चाहूँगा
मिलते-जुलते tool के रूप में fltr का सुझाव दिया गया
बहुत शानदार है, और जिज्ञासा है कि क्या यह file names भी search कर सकता है
यह बहुत शानदार tool मिला