21 पॉइंट द्वारा GN⁺ 2025-09-12 | 2 टिप्पणियां | WhatsApp पर शेयर करें
  • लॉन्ड्री रूम में रखे एक निजी सर्वर पर Searcha Page/Seek Ninja नाम का सर्च इंजन बनाकर Google जैसा अनुभव देने वाला DIY प्रोजेक्ट
  • लगभग 2 अरब पेज इंडेक्स से शुरुआत, और छह महीनों में 4 अरब दस्तावेज़ तक पहुँचने का लक्ष्य; पारंपरिक indexing के साथ LLM-आधारित keyword expansion और context understanding को जोड़ा गया है
  • पुराने सर्वर पार्ट्स से तैयार AMD EPYC 7532(32-कोर)·RAM 0.5TB स्तर के सिस्टम पर कुल 5,000 डॉलर खर्च, और upgrade arbitrage रणनीति से लागत घटाई गई
  • cloud पर निर्भरता कम रखते हुए LLM inference के लिए SambaNova की Llama 3 का उपयोग; Seek Ninja एक privacy-focused संस्करण है जो profile storage और location usage नहीं करता
  • AI के आने से कम लागत पर scale करना संभव हुआ, और उसके 1.5 लाख लाइन के codebase में LLM ने दोहराव वाले development को तेज कर दिया, जिससे अकेले बड़े पैमाने की system building संभव हुई
  • व्यक्तिगत और कम लागत वाले सेटअप के बावजूद local search accuracy और speed हासिल की गई; आगे traffic बढ़ने पर colocation migration पर विचार किया जा रहा है, जो alternative search की प्रयोगात्मक संभावना दिखाता है

पृष्ठभूमि: छोटे हार्डवेयर पर ‘लगभग Google जैसा’ search experience

  • Google के Stanford दौर के Duplo case server से शुरुआत वाले इतिहास के मुकाबले, यह उदाहरण दिखाता है कि एक पुराने सर्वर से भी modern search experience के क़रीब पहुँचा जा सकता है
  • 30 साल पहले Google ने Stanford campus में Backrub के रूप में शुरुआत की थी, और Duplo blocks से बने केस में 40GB डेटा रखने वाला एक प्रयोगात्मक सर्वर इस्तेमाल किया था
    • बाद में IBM और Intel के दान से इसे एक छोटे server rack तक अपग्रेड किया गया, लेकिन 2025 तक Google Search का आकार इतना बढ़ चुका है कि वह एक single data center में भी समा नहीं सकता
  • Ryan Pearce का Searcha Page मूल Google सर्वर के आकार जैसी मशीन पर modern search experience लागू करता है
    • सर्वर को washing machine और dryer के पास लगाया गया, ताकि heat और noise की समस्या कम हो सके; पहले यह bedroom में था
    • लॉन्ड्री रूम जैसी सीमाओं के बावजूद वास्तविक search result quality को अनुभव के आधार पर ऊपरी स्तर के क़रीब माना गया
  • इंडेक्स का आकार अभी लगभग 2 अरब दस्तावेज़ है और 6 महीनों में 4 अरब दस्तावेज़ तक पहुँचने की उम्मीद है
    • तुलना के लिए: 1998 में Google के पास 2.4 करोड़ पेज, 2020 में 400 अरब पेज थे
    • कुल आकार भले छोटा हो, लेकिन self-hosted single server के हिसाब से यह बहुत बड़ा scale है

मुख्य तकनीक: पारंपरिक indexing + LLM सहायता

  • पूरी architecture पारंपरिक search engine structure का अनुसरण करती है, लेकिन LLM की मदद से keyword expansion और context judgment देने वाला hybrid design अपनाया गया है
    • RankBrain जैसे बड़े search engine सिस्टमों में पहले से मौजूद AI integration के इतिहास की याद दिलाते हुए यह रेखांकित किया गया कि LLM के प्रति संदेह अलग बात है, पर AI पहले से ही search का मुख्य तत्व रहा है
    • LLM का उपयोग dataset building और contextualization में development speed और scalability बढ़ाने वाले व्यावहारिक टूल के रूप में किया गया
  • ऑपरेटर ने शुरुआत में LLM से implementation किया, फिर उसे पारंपरिक logic से replace करने के तरीके से iterative development किया, और codebase लगभग 1.5 लाख lines तक बढ़ गया
    • iteration को शामिल करें तो वास्तविक काम का परिमाण करीब 5 लाख lines के बराबर माना गया

इन्फ्रास्ट्रक्चर: self-sufficient indexing और पुराने सर्वरों का ‘upgrade arbitrage’

  • सिस्टम AMD EPYC 7532(32-कोर) आधारित पुराने सर्वर पर बना है, और जिस CPU की लॉन्च के समय कीमत 3,000 डॉलर+ थी, वह अब 200 डॉलर से कम में मिल रहा है; इस price drop का सक्रिय उपयोग किया गया
    • कुल build cost 5,000 डॉलर के आसपास है, जिसमें से storage पर लगभग 3,000 डॉलर खर्च हुए
    • RAM 0.5TB जैसी configuration के साथ सैकड़ों concurrent sessions संभालने की क्षमता हासिल की गई
  • self-hosting नीति के तहत cloud usage को न्यूनतम रखा गया, लेकिन LLM inference के लिए SambaNova(Llama 3) से कम लागत और तेज़ access लिया गया
    • Common Crawl सहित सार्वजनिक web corpora का उपयोग कर crawler और indexer को तेज किया गया, और लंबी अवधि में dependencies कम करने की योजना है

प्रोडक्ट: Searcha Page और Seek Ninja

  • Searcha Page: Google जैसी पारंपरिक SERP UX, और local search में भी उपयोगी परिणाम
    • meta description की जगह LLM summary का उपयोग कर query-document relevance explanation को मजबूत करने की बात कही गई
  • Seek Ninja: profile storage नहीं, location usage नहीं वाला privacy-first रूपांतर
    • secret mode के विकल्प की तरह उपयोग योग्य हल्का और minimal approach
  • monetization के लिए आक्रामक banner ads की जगह मृदु affiliate-style advertising का परीक्षण हो रहा है, और traffic बढ़ने पर colocation migration की योजना है

तुलना का मामला: Wilson Lin का cloud और vector approach

  • इसी समय के एक अन्य व्यक्तिगत प्रयोग में Wilson Lin ने cloud-native रणनीति और अपने vector engine(CoreNN) को जोड़कर अत्यंत कम लागत वाला संचालन लक्ष्य बनाया
    • हर दस्तावेज़ के लिए LLM summary बनाकर query-document matching को अलग तरीके से व्यक्त किया गया
    • उनका साझा आकलन है कि सबसे बड़ी बाधा तकनीक नहीं, बल्कि market और channel हैं
  • Pearce ने एक समय vector DB भी आज़माया, लेकिन परिणाम इतने अस्पष्ट और कलात्मक निकले कि ranking accuracy के लिहाज़ से वह फिर पारंपरिक तकनीकों पर लौट आया

संचालन संबंधी मुद्दे: heat·noise और लॉन्ड्री रूम की भौतिक सीमाएँ

  • सर्वर पहले bedroom में heat के कारण रहने की समस्या पैदा कर रहा था, इसलिए उसे utility room में शिफ्ट किया गया और cable drilling आदि से connectivity सुनिश्चित की गई
    • अगर दरवाज़ा लंबे समय तक बंद रहे तो heat buildup समस्या बन सकती है, इसलिए ventilation अहम है
  • cloud skepticism होने के बावजूद, LLM और traffic limits को देखते हुए data center colocation में शिफ्ट होने पर trigger-based तरीके से विचार चल रहा है

महत्व: एकल डेवलपर का Google को चुनौती देने वाला प्रयोग और LLM की व्यावहारिक भूमिका

  • आम धारणा के विपरीत कि LLM ‘search quality बिगाड़ने वाला टूल’ है, यह दिखाता है कि वह एक development और scale accelerator के रूप में व्यक्ति को search engine build करने की क्षमता देने वाला व्यावहारिक साधन भी हो सकता है
    • पारंपरिक indexing + LLM assistance का मॉडल accuracy और explainability दोनों साधने वाला व्यावहारिक समझौता है
  • कम लागत वाले पुराने सर्वर + सार्वजनिक corpus + सस्ता LLM API का संयोजन यह साबित करता है कि बड़े Big Tech संसाधनों के बिना भी alternative search पर काम किया जा सकता है
    • आगे language expansion, ongoing crawling cost, और spam resistance जैसी चुनौतियाँ बाकी हैं, लेकिन niche search और privacy-focused क्षेत्र में यह एक प्रयोगात्मक प्रतिस्पर्धी मॉडल के रूप में सामने आता है

2 टिप्पणियां

 
savvykang 2025-09-12

पेवाल बायपास लिंक https://archive.is/dLEl5

 
GN⁺ 2025-09-12
Hacker News टिप्पणियाँ
  • मैंने खुद एक domain index बनाया है। मैंने हर domain के अंदर के सभी pages crawl नहीं किए, लेकिन वह मकसद भी नहीं था। अभी मेरे पास 1,542,766 domains हैं। बहुत ज़्यादा नहीं हैं, लेकिन यह ईमानदारी से जुटाया गया data है। यह GitHub repository में सबके लिए उपलब्ध है, इसलिए अगर आप crawling शुरू करना चाहते हैं तो इसे reference के तौर पर इस्तेमाल कर सकते हैं: Internet-Places-Database

    • यह सच में बहुत शानदार project है। शुरुआत में किस चीज़ से प्रेरणा मिली, यह जानने की उत्सुकता है। और Readme में एक टूटा हुआ link है: https://rumca-js.github.io/internet full internet search

    • अगर आप ICANN की zone files का अनुरोध करें, तो क्या उस दिन की आधिकारिक domain list नहीं मिल जाती?

  • मैंने 2023 में ऐसा कुछ बनाने की कोशिश करने का सोचा था! Search engine बनाने का सबसे कठिन हिस्सा असल में 'search' खुद नहीं, बल्कि index बनाना और, जैसा दूसरे लोग कह रहे हैं, बहुत शत्रुतापूर्ण internet को crawl करना है, खासकर जब आप यह सब एक single residential server पर बिना IP rotation के चला रहे हों। उम्मीद है यह व्यक्ति सफल हो और community में Marginalia बनाने वाले की तरह एक reference बनकर रहे। यह पोस्ट देखकर मेरा भी फिर से कोशिश करने का मन हो रहा है

    • openwebsearch.eu का open-webindex bookmark करके रखना अच्छा रहेगा। यह अभी open source नहीं है, लेकिन beta phase खत्म होने के बाद शायद सार्वजनिक हो जाए। बारीक योजना अभी स्पष्ट नहीं है

    • सोच रहा हूँ कि क्या commoncrawl data ऐसे project में उपयोगी हो सकता है

    • मैंने सोचा कि crawling को crowdsource किया जाए तो कैसा रहेगा। IP rotation की समस्या भी हल हो सकती है, और load भी distribute किया जा सकता है

    • IP वाला मुद्दा दिलचस्प है। पहले मैंने CSGO bots बनाकर Steam prices scrape करने की कोशिश की थी, proxies service भी किराये पर ली थी, लेकिन Steam ने block कर दिया। इसलिए सोचता हूँ कि क्या लोग सच में असली IP खरीदते हैं

    • Index होना और न होना, दोनों में साफ़ फर्क है। लेकिन results को sort करना एक अलग ही बात है। उदाहरण के लिए 200वें page पर क्या आना चाहिए, और वहाँ के results का कोई मतलब भी है या नहीं, यह बड़ा सवाल है

  • मैंने https://searcha.page/ पर random search किया, और संदेश मिला: "search results बनाते समय error हुआ"

    • चिंता है कि कहीं hug of death तो नहीं आ गया। laundromat का तापमान बहुत बढ़ गया होगा

    • इस हफ्ते मेरा usage पिछले हफ्ते की तुलना में 20 गुना बढ़ गया है। असल bottleneck search service खुद नहीं थी, बल्कि context expansion समस्या थी। Usage graph लगभग सीधा vertical है। समझ नहीं आ रहा कि यह अच्छा हफ्ता था या नहीं

    • मुझे https://seek.ninja/s?q=beatles पर भी बिल्कुल यही अनुभव हुआ

    • इस समस्या से पहले पहला search results page (SERP) काफ़ी प्रभावशाली था

  • मुझे article limit पहुँचने की सूचना मिली। FastCompany का link देखे हुए शायद 10 साल हो गए! इतने समय बाद उनका लेख पढ़ने की उम्मीद जगी थी, लेकिन निराशा ही हाथ लगी। archive में संबंधित बातें देखीं:

    • नए search engine Search-a-Page का एक privacy-focused version Seek Ninja भी है,
    • इसकी खास बात large language model है। यह पारंपरिक search जैसा ही है, बस AI keyword expansion और context understanding में मदद करता है।
    • Wilson Lin नाम के एक महत्वाकांक्षी hobby developer की blog post है, जिसमें उसने अपने तरीके से search engine बनाया ब्लॉग
    • Marginalia जैसे non-commercial toy search engine का भी ज़िक्र है Marginalia
    • "Laundromat क्यों? गर्मी और शोर की वजह से।" Engine में 32-core AMD EPYC 7532, 0.5TB RAM है, कुल लागत $5,000 और storage पर $3,000 लगे
    • हाल में मैंने Wilson Lin की blog posts सच में लगातार पढ़ डालीं, और search engine तथा LLM में रुचि रखने वाले amateurs के लिए वे बहुत उपयोगी और high-quality हैं ब्लॉग

    • Firefox reader mode, कभी-कभी refresh जोड़कर, ज़्यादातर paywalls पार कर सकता है, इस article में भी

  • "32-core AMD EPYC 7532 processor लॉन्च के समय $3,000 से ज़्यादा का था, लेकिन अब eBay पर $200 से कम में मिल सकता है।" ऐसे शानदार deals हमेशा तब क्यों नहीं दिखते जब मैं homelab parts ढूँढ़ रहा होता हूँ?

    • आपको समय लगाकर खराब labels वाली deals भी ध्यान से ढूँढ़नी पड़ती हैं, और बिना reputation वाले sellers से खरीदने के लिए भी तैयार रहना पड़ता है

    • 'AMD EPYC 7532' खोजने पर $150~$200 range की बहुत सारी listings दिखती हैं। क्या अफ़सोस इस बात का है कि जब आप homelab parts ढूँढ़ रहे थे तब ऐसी deals नहीं थीं?

    • CPU नहीं, लेकिन इस साल की शुरुआत में मैंने eBay से 2020 में बना Thinkpad workstation $500 में खरीदा। नया होने पर उसकी कीमत $5,700 थी। eBay hardware market लगभग ऐसा ही है। 5 साल इंतज़ार करो, और कीमत 10वें हिस्से तक गिर जाती है

    • TheServerStore.com पर कभी-कभी अच्छे deals मिल जाते हैं। इस साल की शुरुआत में मैंने 64-core EPYC 7702 server, 256GB RAM और 8TB NVMe के साथ, लगभग $3,000 में तैयार किया

    • QC-grade chip खरीदकर खुद कोशिश करना भी एक तरीका है। मैंने भी इसी तरह खरीदा। मेरे लिए सबसे बड़ी लागत disks थीं, उसके बाद RAM। Chip तुलनात्मक रूप से सस्ती लगी

  • मुझे यह project बहुत शानदार लगता है, बस उम्मीद है कि यह मज़े के लिए बना रहे। मैंने भी निजी तौर पर दर्जनों बार search engine बनाने की कल्पना की है, लेकिन हर बार दीवार से टकराया हूँ। 1999 का internet और आज का internet बहुत अलग हैं। अब दुनिया में discovery खुद उतनी अर्थपूर्ण नहीं रही। उदाहरण के लिए, अगर आपको dinosaurs पर किसी का निजी blog मिल भी जाए, तो अक्सर वह 2004 के बाद update नहीं हुआ होगा, images और links टूटे होंगे, और अब Wikipedia या Smithsonian जैसी जगहें उससे कहीं बेहतर हैं। ऐसे अनोखे personal sites ढूँढ़ना अब भी मज़ेदार है, लेकिन पहले जितना मूल्यवान नहीं रहा। वास्तविकता में देखें तो YouTube, TikTok, Medium, Reddit, Mayo Clinic जैसी platforms विशेष तरह के content पर कब्ज़ा करने वाले "hubs" केंद्रित network की ओर वापसी हो रही है। ये बड़ी कंपनियाँ individual crawlers के प्रति रक्षात्मक हैं, लेकिन Google crawler के प्रति दोस्ताना, क्योंकि Google उन्हें user traffic देता है। अगर crawler मेरा हो, तो क्या वे आसानी से अनुमति देंगे? फिर भी मैं हार नहीं मानता। शायद इस hub-based internet के लिए hub-aware search engine की ज़रूरत है

  • 'Google rival' कहना थोड़ा बढ़ा-चढ़ाकर कहना है। आज के Google के सारे कामों को देखें, तो इसे बस 'search engine' कहना ही ज़्यादा सटीक होगा

  • सबको अलग-अलग जवाब देना मुश्किल है, लेकिन मैं वही व्यक्ति हूँ जो यह search engine चला रहा है। हाँ, आज traffic spike की वजह से यह down हो गया था। Usage पिछले हफ्ते से 20 गुना बढ़ गया, और मैं इसके लिए बिल्कुल तैयार नहीं था। मेरे दिमाग में बस यह धुंधली कल्पना थी कि users धीरे-धीरे और लगातार बढ़ेंगे। इस्तेमाल करने वालों का धन्यवाद, और अगर service ने ठीक से काम नहीं किया तो माफ़ी चाहता हूँ। आज पहली बार सचमुच 'trial by fire' जैसा दिन था

  • शानदार innovation और cloud-skeptical self-hosting का संयोजन है। मुझे लगता है, ऐसी चीज़ें बहुत ज़्यादा होनी चाहिए