1 पॉइंट द्वारा GN⁺ 2024-02-26 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Marginalia सर्च इंजन का विकास

  • Marginalia Search जब पहली बार शुरू हुआ था, तब यह एक छोटा प्रयोग था, लेकिन अब यह एक full-time प्रोजेक्ट बन चुका है.
  • सर्च इंजन अभी तक के अपने सबसे अच्छे प्रदर्शन पर है और इसने कई milestone हासिल किए हैं.
  • सर्च इंजन अब लिविंग रूम से निकलकर एक उपयुक्त enterprise server पर स्थानांतरित हो चुका है.

कोडबेस की सफाई और एप्लिकेशन को streamlined बनाना

  • इस साल का मुख्य विषय कोडबेस को व्यवस्थित करना और एप्लिकेशन को streamlined बनाना रहा.
  • फोकस इस बात पर रहा कि operational burden प्रबंधनीय बना रहे, और दूसरे लोग एप्लिकेशन व codebase तक अधिक आसानी से पहुँच सकें.
  • इसमें बहुत काम लगा, लेकिन अब उसके परिणाम दिखने शुरू हो गए हैं.

संचालन में सुधार

  • पहले index स्विच करते समय कई दिनों का downtime चाहिए होता था, लेकिन अब यह समस्या खत्म हो गई है.
  • हाल ही में zero-downtime upgrades भी संभव हो गए हैं.
  • operations के लिहाज़ से जिन कामों के लिए पहले कई हफ्तों की manual process चाहिए होती थी, वे अब GUI में एक बटन दबाने से हो जाते हैं.

anchor text keyword support जोड़ा गया

  • anchor text keyword support जोड़ने से सर्च इंजन की प्रासंगिक परिणाम खोजने की क्षमता पर बड़ा असर पड़ा.
  • जब यह बदलाव पहली बार किया गया, तब integration अच्छा नहीं था, इसलिए इसका असर तुरंत साफ़ दिखाई नहीं दिया; लेकिन जैसे-जैसे नया relevance signal अपनी जगह बनाने लगा, कई चौंकाने वाले पल आए.

full-time में बदलाव

  • NLnet के समर्थन की बदौलत, लगभग 8 महीने पहले यह full-time में बदल गया.
  • सबसे कठिन हिस्सा बहुत ज़्यादा काम न करना था, और हफ्ते में कम से कम एक दिन आराम करने की कोशिश की गई.
  • यह समझते हुए कि पर्याप्त आराम करने पर इंसान ज़्यादा समझदारी से काम करता है, सिद्धांततः बेहतर काम करने के लिए कभी-कभी ब्रेक लेना महत्वपूर्ण है.

1 अरब दस्तावेज़ों की indexing का लक्ष्य

  • 1 अरब दस्तावेज़ों की indexing की यात्रा धीरे-धीरे आगे बढ़ रही है.
  • मुश्किल इसलिए नहीं है कि software इसे संभाल नहीं सकता, बल्कि इसलिए कि web का signal-to-noise ratio अच्छा नहीं है, जिससे यह उम्मीद से ज़्यादा कठिन हो जाता है.
  • सर्च इंजन के अपेक्षाकृत अच्छा काम करने की एक बड़ी वजह यह भी है कि वह किन चीज़ों को index नहीं करता.
  • index एक साल पहले 5 करोड़ से 10 करोड़ के बीच था, लेकिन आख़िरी crawling में यह 22 करोड़ तक पहुँच गया, और अगला crawling round खत्म होने तक इसके 29 करोड़ से 30 करोड़ के बीच होने की उम्मीद है.

query parsing और execution में सुधार

  • query parsing और execution के क्षेत्र में सुधार की काफी गुंजाइश है.
  • वास्तविक काम शुरू होने से पहले, प्रभावित code को व्यवस्थित करने के लिए तैयारी का काम शुरू कर दिया गया है.
  • इस प्रोजेक्ट में बड़े leaps हमेशा experimental रहे हैं; कुछ योजनाबद्ध भी हैं, लेकिन लगता है कि जो चीज़ें अभी योजना में नहीं हैं, वही वास्तव में बड़ा असर डालेंगी.

आभार

  • NLnet, FUTO, Patreon समर्थकों, advocates और users का धन्यवाद.
  • इनके समर्थन के बिना यह सब संभव नहीं होता.

GN⁺ की राय

  • Marginalia सर्च इंजन एक ऐसा उदाहरण है जो छोटे प्रयोग से शुरू होकर लगातार सुधार और community support की मदद से full-time प्रोजेक्ट में विकसित हुआ.
  • anchor text keyword support जैसी functional improvements सर्च इंजन के प्रदर्शन को काफ़ी बेहतर बनाने वाले महत्वपूर्ण बदलाव साबित हुई हैं.
  • यह प्रोजेक्ट open source community और developers को सहयोग व योगदान के अवसर देता है, और सर्च इंजन तकनीक के विकास में योगदान कर रहा है.

1 टिप्पणियां

 
GN⁺ 2024-02-26
Hacker News राय
  • एक उपयोगकर्ता ने इस साइट को numerical modeling पर बेहद विशिष्ट सामग्री खोजने के लिए बुकमार्क कर रखा था। उसे 80 और 90 के दशक के solvers, mesh generation, और optimization methods पर ऐसी सामग्री मिली जो Google पर नहीं मिलती, और विशेषज्ञों द्वारा बनाए गए ऐसे साइट भी मिले जिन्हें Google से कभी ढूंढ नहीं पाया था, इसलिए उसे यह बहुत मूल्यवान लगा।
  • वेब में signal-to-noise ratio अच्छा नहीं होने के कारण अपेक्षा से ज़्यादा कठिनाई हो रही है। search engine अपेक्षाकृत अच्छी तरह काम करने की एक वजह यह भी है कि वे कुछ चीज़ों को index ही नहीं करते।
  • एक उपयोगकर्ता को एक random वेबसाइट मिली जहाँ IPv6 support के लिए C&C Tiberian Sun को binary patch किया गया था, और इससे उसे पुराने वेब की याद आ गई। उसने कहा कि यह Fravia की Searchlores की याद दिलाता है, और अगर Umberto Eco को कंप्यूटरों में दिलचस्पी होती तो शायद कुछ ऐसा ही एहसास होता। यह वैसा अनुभव है जैसे 'The Name of the Rose' की पुस्तकालय-भूलभुलैया में कुछ अद्भुत मिल जाए और बाद में वह हमेशा के लिए खो जाए।
  • एक अन्य उपयोगकर्ता ने कहा कि यह पुराने समय जैसा लगता है। 1998 में AltaVista से भी "पश्चिमी मोर्चे पर सब शांत है" किताब और फिल्म के बीच के अंतर नहीं मिलते थे, लेकिन अब उसी विषय पर बात करने वाले असंख्य व्यक्तिगत ब्लॉग पेज, विश्वविद्यालय के शोधपत्र, code sites, mailing list चर्चाएँ, ब्लॉग, Rust discussion groups, personal websites, और विशेषज्ञ चर्चाएँ मिल सकती हैं।
  • एक उपयोगकर्ता ने कहा कि जब उसने "transformers intuition" खोजा तो वह परिणामों से चकित रह गया। Google के परिणाम SEO-optimized websites, खासकर Medium, और कमज़ोर सामग्री वाली चमकदार साइटें दिखा रहे थे, जबकि इस search engine के परिणाम प्रभावशाली थे।
  • एक उपयोगकर्ता ने सोचा कि क्या Common Crawl उपयोगी हो सकता है। अभी इसमें लगभग 100TB और 3.35 अरब pages का डेटा है, इसलिए जब तक इसे सीधे S3 पर process न किया जाए, इसे download करने में बहुत समय लगेगा, और signal-to-noise ratio कैसा होगा यह स्पष्ट नहीं है।
  • कुछ उपयोगकर्ताओं ने "random site" feature पर सवाल उठाया। उन्हें लगा था कि यह uniform sampling करेगा, लेकिन ऐसा लगता है कि कुछ खास साइटें बार-बार लौट रही हैं।
  • एक उपयोगकर्ता ने कहा कि वह Google का आदी होने के कारण इसे अक्सर इस्तेमाल नहीं करता, लेकिन Marginalia उसे एक शानदार प्रोजेक्ट लगता है, और spam SEO sites तथा AI-generated answers के बढ़ते चलन को देखते हुए वह आगे इसे ज़्यादा इस्तेमाल कर सकता है।
  • अंत में, एक उपयोगकर्ता ने हाल के Google search results से इसकी तुलना की। भारत के Test cricket के सबसे कम score से जुड़ी खोज के नतीजे अच्छे नहीं थे, RAID calculator के नतीजे ठीक-ठाक थे लेकिन उनमें noise मिला हुआ था, और "पश्चिमी मोर्चे पर सब शांत है" फिल्म और किताब के अंतर पर खोज में कोई परिणाम ही नहीं मिला।