Embeddings के बिना semantic search

क्या आप 2026 में भी अब तक यह मानते हैं कि "semantic search = embedding + vector DB"?

मुख्य तर्क

semantic search में सिर्फ similarity ही महत्वपूर्ण नहीं होती,
बल्कि ① representation + ② similarity + ③ match criteria — इन तीनों का ठीक से पूरा होना ही वास्तव में अच्छी search बनाता है।

embedding-आधारित vector search ① और ② में अच्छा है, लेकिन ③ (ठीक उसी दायरे में ही results को शामिल/बहिष्कृत करना जो user चाहता है) में बहुत कमजोर है — यही इस लेख का तर्क है।

मुख्य उदाहरण:
query: "पेड़ पर लगने वाला गोल लाल फल"
एक अच्छे embedding system के results (अक्सर ऊपर दिखते हैं):

सेब
संतरा
⚾️ baseball

→ user को baseball बिल्कुल नहीं चाहिए, लेकिन embedding उसे "गोल और लाल" होने की वजह से काफी नज़दीकी मानकर शामिल कर देता है।
इसे threshold से हल नहीं किया जा सकता (हर domain और हर query में अलग होता है)।

विकल्प के रूप में यह प्रस्ताव रखा गया है: अच्छी तरह प्रबंधित hierarchical taxonomy (Managed Taxonomies)

Wayfair furniture उदाहरण की तरह

Baby & Kids  
└─ Toddler & Kids Playroom  
   └─ Indoor Play  
      └─ Rocking Horses  
         └─ Novelty Rocking Horses

इसे अगर BM25 के ऊपर hierarchical tokenizer के साथ रखा जाए, तो

ज़्यादा specific (child) category = df कम → bm25 score अपने-आप ज़्यादा आता है
user की समझ की भाषा में scope को सटीक रूप से नियंत्रित किया जा सकता है (parent/grandparent की ओर ऊपर जाते हुए दायरा धीरे-धीरे बढ़ता है)
अगर LLM से classification automate कर दी जाए, तो maintenance burden भी काफी कम हो जाता है

निष्कर्ष:
embedding शक्तिशाली हैं, लेकिन अनिवार्य नहीं हैं।
किसी domain में पहले से मौजूद मजबूत category/classification क्षमता + LLM सहायता के दम पर भी
embeddings से कहीं अधिक सटीक और बेहतर user experience वाला semantic search बनाया जा सकता है — यही दावा है।

e-commerce, healthcare, legal, library जैसे domain-specific search पर काम करने वालों के लिए खास तौर पर अनुशंसित।

Embeddings के बिना semantic search

मुख्य तर्क

संबंधित पढ़ाई

1 टिप्पणियां