1 टिप्पणियां

 
GN⁺ 2024-12-26
Hacker News टिप्पणी
  • mixbread के मॉडल को क्यों चुना गया, इस पर प्रश्न था
  • embeddings को बाइनरी में बदलकर Hamming distance उपयोग करने से performance बेहतर हो सकता है या नहीं, इस पर प्रश्न था
  • अन्य vector store की तुलना में milvus चुनने का कारण क्या है, इस पर प्रश्न था
  • साप्ताहिक metadata automation उपलब्ध है या नहीं, इस पर प्रश्न था
  • "byte-level transformer" खोज पर उपयोगकर्ताओं की प्रतिक्रिया अच्छी रही, लेकिन नए शोधपत्र खोज में नहीं मिले
    • यदि अधिक परिणाम घनत्व चाहिए, तो UI विकल्प के जरिए abstracts को छोटा करके पहले ही स्क्रीन पर ज्यादा दिखाने पर विचार किया जा सकता है
  • arXiv के बाहर विस्तार की स्थिति में, बड़े प्रकाशक OpenAlex आदि से abstracts हटाने के लिए दबाव डालते हैं, जिससे literature review कठिन हो सकता है
  • क्या undermind.ai, scite.ai, elicit.org जैसे अन्य टूल पहले देखे गए हैं, इस पर प्रश्न था
  • literature review के लिए dedicated product workflow में search के अलावा क्या-क्या शामिल हो सकता है, इस पर विचार करने की जरूरत है
  • पहले gensim/doc2vec जैसी vector डेटाबेस में real-time CPU brute force संभव था
  • semantic search अन्य क्षेत्रों में भी उपयोगी हो सकता है, कुछ अच्छे ideas मौजूद हैं
    • ऑनलाइन विज्ञापन खोज: वीडियो और इमेज विज्ञापनों को embedding करके index करने से marketing inspiration खोजी जा सकती है
    • मल्टी-प्लैटफॉर्म ई-कॉमर्स खोज: Sephora, zara, h&m आदि में प्रोडक्ट खोजे जा सकते हैं
  • प्रत्येक पेपर में "similar papers" लिंक जोड़ने से नए topics खोजने में मदद मिलेगी, ऐसा विचार रखा गया
  • semantic search में टेक्स्ट खोज से क्या अतिरिक्त लाभ हैं, इस पर प्रश्न था
    • खोज सुधार दिखाने के लिए कोई vector search benchmark उपलब्ध है या नहीं, इस पर प्रश्न था
  • क्या यह Allen Institute for AI के Semantic Scholar जैसा है, इस पर प्रश्न था
  • सुझाव दिया गया कि paper-qa के backend में एक खोज टूल क्लाइंट जोड़ा जा सकता है
  • scihub को crawl करके लिंक करने की इच्छा व्यक्त की गई
  • encoding मुद्दे पर टिप्पणी दी गई
    • "UPC high-performance computing evaluation" खोजने पर लेखक नाम में बग वाला एक पेपर दिखता है