Marginalia: 3 सालों का रिकॉर्ड

(marginalia.nu)

1 पॉइंट द्वारा GN⁺ 2024-02-26 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Marginalia Search की शुरुआत “बेहतरीन इंटरनेट” को खोजने के एक छोटे प्रयोग के रूप में हुई थी, और 3 साल में यह एक फुल-टाइम प्रोजेक्ट बन गया है; सर्च इंजन भी अब तक की अपनी सबसे स्थिर स्थिति के करीब पहुंच गया है
इस साल का मुख्य काम संचालन का बोझ कम करना और दूसरे ऑपरेटरों व डेवलपर्स के लिए इसे संभालना आसान बनाना था, जिसके लिए codebase की सफाई और application simplification पर ध्यान दिया गया
पहले index switching के दौरान कई दिनों का downtime चाहिए होता था, लेकिन अब यह रुकावट खत्म हो गई है, और हाल में zero-downtime upgrades भी संभव हो गए हैं
anchor text keywords सपोर्ट के बाद search quality में सुधार हुआ है, और relevance signals स्थिर होने के साथ नतीजे खोजने की क्षमता काफी बेहतर हुई है
1 billion documents indexing का लक्ष्य अभी भी जारी है, लेकिन वेब का signal-to-noise ratio कम होने की वजह से यह उम्मीद से ज्यादा कठिन साबित हो रहा है; अगला फोकस query parsing और execution में सुधार है

प्रयोग से फुल-टाइम प्रोजेक्ट तक के 3 साल

Marginalia Search की शुरुआत 3 साल पहले एक छोटे प्रयोग के रूप में हुई थी, और अब यह एक फुल-टाइम प्रोजेक्ट बन चुका है
सर्च इंजन में अभी भी सुधार की गुंजाइश है, लेकिन इसे अब तक की स्थिति में सबसे बेहतर काम करने वाला माना जा रहा है
सबसे बड़े मील के पत्थरों में से एक यह था कि सर्च इंजन लिविंग रूम से निकलकर enterprise server पर चला गया
इस साल फोकस संचालन के बोझ को संभालने लायक स्तर तक कम करने और दूसरे ऑपरेटरों व डेवलपर्स के लिए पहुंच आसान बनाने हेतु codebase और application को व्यवस्थित करने पर रहा
संचालन का तरीका भी काफी बदल गया है
- पहले index switching के समय कई दिनों की service interruption जरूरी होती थी
- अब index switching के दौरान रुकावट खत्म हो गई है
- हाल में zero-downtime upgrades भी संभव हो गए हैं
- पहले कई हफ्तों तक चलने वाली manual process के कई हिस्से अब GUI में बटन दबाने भर से हो जाते हैं

सर्च क्वालिटी और index विस्तार

search relevance पर anchor text keywords सपोर्ट का बड़ा असर पड़ा
- बदलाव के तुरंत बाद integration पर्याप्त नहीं था, इसलिए असर तुरंत साफ नहीं दिखा
- नए relevance signals स्थिर होने के बाद सर्च इंजन की प्रासंगिक नतीजे खोजने की क्षमता काफी बेहतर हुई
यह प्रोजेक्ट NLnet के समर्थन की बदौलत लगभग 8 महीने पहले से फुल-टाइम काम बन गया
- बहुत ज्यादा काम न करना अब भी एक मुश्किल हिस्सा बना हुआ है
- कम से कम हफ्ते में 1 दिन आराम करने की कोशिश की जा रही है, और मानना है कि अच्छी तरह आराम करने पर ज्यादा समझदारी से काम किया जा सकता है
1 billion indexed documents का लक्ष्य अभी भी जारी है
- कठिनाई software की processing capacity से ज्यादा वेब के खराब signal-to-noise ratio में है
- सर्च इंजन के अपेक्षाकृत अच्छा काम करने की एक बड़ी वजह यह भी है कि वह क्या index नहीं करता
- index का आकार 1 साल पहले 50 million~100 million से बढ़कर पिछले crawl के आधार पर 220 million हो गया है
- अगला crawl round खत्म होने पर, पहले से पूरे हो चुके दो partitions की growth trend के आधार पर, यह 290 million~300 million तक पहुंच सकता है

अगली सुधार दिशा और समर्थन

अगला सुधार लक्ष्य query parsing और execution है
- इस क्षेत्र में सुधार की काफी गुंजाइश है
- मुख्य काम शुरू करने से पहले प्रभावित code को व्यवस्थित करने की तैयारी चल रही है
प्रोजेक्ट की बड़ी छलांगें हमेशा प्रयोगों से आई हैं, और भले योजनाबद्ध काम मौजूद हो, लेकिन वास्तव में बड़ा बदलाव लाने वाली चीज anchor text की तरह अनियोजित भी हो सकती है
NLnet, FUTO, Patreon समर्थकों, सहयोगियों और उपयोगकर्ताओं को धन्यवाद दिया गया है

1 टिप्पणियां

GN⁺ 2024-02-26

Hacker News की राय

मैं इसे बुकमार्क करके numerical modeling के बेहद niche मटेरियल ढूंढने में इस्तेमाल कर रहा हूँ
solvers, mesh generation, optimization methods से जुड़ी सामग्री Google पर मिलने वाली चीज़ों से कहीं बेहतर मिलती है, और 80–90 के दशक की सामग्री भी अच्छी तरह सामने आ जाती है
जो लोग सिर्फ़ तैयार commercial packages पर निर्भर नहीं रहते, उनके लिए इस तरह का ज्ञान और Fortran code examples मिलना बहुत मूल्यवान है
- जानना चाहूँगा कि क्या Marginalia पर Google से ज़्यादा आसानी से मिली किसी niche expert page का उदाहरण है
सही बात है, यह सच में पुराने search जैसा लगता है
भले ही यह “all quiet on the western front book movie differences” जैसी खोज न ढूंढ पाए, लेकिन 1998 के AltaVista में भी ऐसी खोज आसान नहीं थी
लेकिन अगर सिर्फ़ “all quiet on the western front” टाइप करें तो personal blogs जैसे दुर्लभ sites बहुत मिलते हैं, और “polytopes” पर university papers और code sites आती हैं, जबकि “rust generics” पर mailing list discussions, blogs, Rust discussion groups, personal websites और गहरी तकनीकी चर्चाएँ मिलती हैं
यही तो पुराना web search था, और असली सवाल यह है कि लंबे समय में इसे आर्थिक रूप से कैसे टिकाया जाएगा
- अभी यह grants और donations से चल रहा है, और उसी की वजह से कुछ साल की गुंजाइश है
  असली running cost लगभग 100 डॉलर प्रति माह colocation की है, और बाकी सिर्फ़ व्यक्तिगत जीवन-यापन का खर्च, इसलिए आने वाला पैसा सोच से ज़्यादा लंबा चलता है
  आगे इसे और निखारने पर, शायद ऐसे ही सोच वाले लोगों से अतिरिक्त funding मिल सके, या दूसरे search engines को API access बेचा जा सके
  search को ads के अलावा monetize करना मशहूर तौर पर कठिन है, लेकिन अगर लागत कम रहे तो यह काफ़ी व्यावहारिक रास्ता लग सकता है
मैंने “transformers intuition” खोजकर देखा, और नतीजे सच में प्रभावशाली थे
Google ने SEO-optimized sites, ज़्यादातर Medium, और दिखने में चमकदार लेकिन कमज़ोर सामग्री वाली sites दिखाईं, जबकि Marginalia कहीं बेहतर था
लॉन्च के 6 महीने बाद की एक retrospective thread, जो दिखाती है कि यह तब भी अच्छा काम कर रहा था, लेकिन साथ ही कुछ अस्पष्टताएँ भी थीं: https://news.ycombinator.com/item?id=28550764
हालाँकि अभी default filter में Reddit, Stack Exchange और Wikipedia के results शायद कुछ ज़्यादा हैं
मेरे लिए सबसे ज़्यादा असरदार बात यह थी
मुश्किल अपेक्षा से ज़्यादा है, इसकी वजह software की क्षमता नहीं बल्कि web का signal-to-noise ratio खराब होना है, और इस search engine के अपेक्षाकृत अच्छा काम करने की बड़ी वजह यह है कि यह क्या index नहीं करता
मैं Google की आदत के कारण Marginalia का बहुत नियमित उपयोग नहीं करता, लेकिन project ख़ुद शानदार है
spammy SEO sites और AI-generated answers बढ़ते जा रहे हैं, इसलिए लगता है कि आगे इसे ज़्यादा इस्तेमाल करूँगा
- अभी इसे हर रोज़ के default search engine की तरह इस्तेमाल करने में शायद थोड़ा और समय लगेगा
  आशावादी अनुमान यह है कि अगर इस गर्मी तक queries और execution से जुड़े काम पूरे हो गए, तो यह उस स्तर के क़रीब पहुँच सकता है
Viktor से पूछना चाहता हूँ कि क्या Common Crawl [0] मददगार हो सकता है
अभी इसका आकार लगभग 100TB और 3.35 अरब pages है, इसलिए अगर S3 पर सीधे process न किया जाए तो डाउनलोड में बहुत समय लगेगा, और signal-to-noise ratio कैसा है, यह पता नहीं
[0] https://commoncrawl.org/overview
बढ़िया search engine है
मैं जल्द ही source भी देखने वाला हूँ, और “ROME2D16-2T” खोजने पर काफ़ी अप्रत्याशित स्रोतों से प्रासंगिक results मिले, जो उपयोगी थे
मैंने हाल की 3 Google searches आज़माईं
“india test cricket lowest total” पर अच्छे results या जवाब नहीं मिले, “raid calculator” पर results ठीक थे लेकिन raid शब्द की वजह से Pokemon save/cheat editor pages जैसा शोर भी मिला
“all quiet on the western front movie book differences” पर 0 results मिले, यानी पूरी तरह खाली page
- इस search engine का अभी knowledge graph देने का लक्ष्य नहीं है
  यह सवालों के जवाब देने से ज़्यादा internet पर documents खोजने का tool है, और answering feature चाहने लायक ज़रूर है, लेकिन अक्सर वह document खोजने की क्षमता की कीमत पर आता है
  Pokemon result दरअसल “raidcalc” नाम की application के बारे में था, इसलिए बिना किसी user profiling के और उपयोगकर्ता की रुचि जाने बिना, search engine के नज़रिए से यह काफ़ी अच्छा match लगता है
  “all quiet on the western front movie book differences” शायद query length limit से टकरा गया, जो पुराने समय का अवशेष लगता है जब लंबी queries ठीक से handle नहीं होती थीं, इसलिए इसे हटाया जा सकता है
  limit बढ़ाकर भी देखा, लेकिन results अब भी बहुत अच्छे नहीं थे, और यह ठीक अगले काम यानी query understanding और execution के दायरे में आता है
  अभी search engine इसे इंसान की तरह नहीं समझता कि all quiet on the western front एक phrase है, जो title में हो या कई बार आए तो अच्छा है, और movie, book, differences दस्तावेज़ में महत्वपूर्ण हैं लेकिन ज़रूरी नहीं कि उसी क्रम में हों
  अभी यह उन documents को ढूंढता है जहाँ सारे शब्द एक-दूसरे के क़रीब हों, या जहाँ अलग-अलग शब्दों की tf-idf relevance ऊँची हो, इसलिए यह query उसके लिए उपयुक्त नहीं है
दिलचस्प है। किसी ने शायद सिर्फ़ मज़े के लिए C&C Tiberian Sun में IPv6 support जोड़ने के लिए binary patch किया हुआ एक random website [0] ढूंढ निकाला
उससे पुराने web की याद बहुत गहराई से आती है
अजीब तरह से इससे Fravia की Searchlores [1] याद आ गई; अगर Umberto Eco को computers में दिलचस्पी होती, तो शायद कुछ ऐसा ही लगता
site ख़ुद भी The Name of the Rose की library maze जैसी लगी, जहाँ किसी भी मोड़ पर कुछ चौंकाने वाला मिल जाए और बाद में वह हमेशा के लिए खो जाए :D
[0] http://ts.sesse.net/
[1] https://www.biostatisticien.eu/www.searchlores.org/indexo.ht...

Marginalia: 3 सालों का रिकॉर्ड

प्रयोग से फुल-टाइम प्रोजेक्ट तक के 3 साल

सर्च क्वालिटी और index विस्तार

अगली सुधार दिशा और समर्थन

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय