1 पॉइंट द्वारा GN⁺ 2023-09-03 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • नए browser-आधारित Wikipedia search engine पर लेख, जो offline search को सक्षम बनाता है
  • search engine की Wikipedia के 10 लाख पेजों में real-time search करने की क्षमता, mobile device पर हर 10ms में परिणाम लौटाता है
  • search engine database का छोटा आकार, बिना किसी विशेष processing के 10 लाख embeddings को support करने वाले casual use case
  • sentence transformer का उपयोग करके document embedding, product quantization के जरिए embedding compression, और browser में distance calculation चलाने के लिए pq.js का उपयोग करने वाला search engine
  • query के लिए browser के भीतर sentence transformer चलाने हेतु transformers.js का उपयोग करने वाला search engine
  • compressed page size के आधार पर embeddings को sort करने वाला search engine, जहाँ अधिक information density वाले पेज पहले analyze होते हैं और top 10 ranking में लौटाए जाते हैं
  • high performance के लिए JSON की जगह Arrow का उपयोग करने वाला search engine, Arrow 8-bit integer product quantization arrays को compact रूप में store कर सकता है
  • WebAssembly में चलने वाले ONNX model का उपयोग करने वाला search engine, जिसमें अभी GPU acceleration नहीं है
  • sentence transformer से पूरी Wikipedia को embed करने, product quantization से embeddings को compress करने, और ONNX को manually लिखने वाला search engine
  • embeddings और metadata को store करने के लिए numpy को Arrow में export करने वाला search engine, जो memory और disk दोनों में कहीं अधिक compact है
  • product subcategory में real-time search की अनुमति देने वाली faceted search को support करने वाला search engine
  • लेखक feedback और improvement suggestions आमंत्रित करते हैं, खासकर अलग quantization levels और अलग embedding dimensions के support पर

1 टिप्पणियां

 
GN⁺ 2023-09-03
Hacker News राय
  • ऑफलाइन Wikipedia सर्च करने के लिए एक नए टूल पर लेख
  • कुछ उपयोगकर्ताओं ने बताया कि यह टूल ChatGPT जैसी AI सेवाओं की तुलना में कम सटीक है
  • यह टूल टेक्स्ट embeddings का उपयोग करके search query को match करता है
  • "अमूर्त विवरणों के आधार पर टेक्स्ट सर्च" शीर्षक वाला एक हालिया पेपर और अधिक अमूर्त search query को संभव बनाता है
  • कुछ उपयोगकर्ताओं ने पाया कि यह टूल Google की तुलना में अपेक्षित परिणाम लौटाने में कम प्रभावी है
  • एक उपयोगकर्ता ने सुझाव दिया कि अगर पूरे Wikipedia लेखों के बजाय केवल परिभाषित करने वाले वाक्यों या पैराग्राफों को embed किया जाए, तो टूल बेहतर हो सकता है
  • सटीकता को लेकर कुछ आलोचना के बावजूद, टूल की ऑफलाइन क्षमता और उसके implementation की प्रशंसा की गई
  • कुछ उपयोगकर्ता टूल से जुड़ी तकनीकी समस्याओं का सामना कर रहे हैं, जैसे धीमा loading time
  • SemanticFinder नाम के एक समान प्रोजेक्ट का उल्लेख, जो उपयोगकर्ताओं को किसी भी लंबाई का टेक्स्ट copy-paste करने देता है और सबसे मिलते-जुलते segments लौटाता है
  • एक उपयोगकर्ता ने कहा कि इस टूल की प्रभावशीलता Wikipedia में विषयों की अभिव्यक्ति की गुणवत्ता से सीमित हो सकती है
  • कुछ उपयोगकर्ता टूल के परिणामों से निराश हैं, लेकिन उसके पीछे की प्रभावशाली तकनीक को स्वीकार करते हैं
  • एक उपयोगकर्ता ने सुझाव दिया कि पूरे लेखों को embed करने वाला टूल का दृष्टिकोण इस तरह के application के लिए सबसे अच्छा नहीं हो सकता