4 पॉइंट द्वारा GN⁺ 2025-11-06 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Anna’s Archive pirated e-books और सामग्री खोजने के लिए एक shadow library metasearch engine है, जिसे 2022 की शरद ऋतु में शुरू किया गया था
  • पिछले 3 वर्षों में publishers और authors की copyright complaints के कारण Google ने इस साइट के 74.9 करोड़ URL search results से हटा दिए
  • यह Google द्वारा अब तक प्रोसेस किए गए सभी copyright-संबंधित URL का 5% है, और The Pirate Bay से कहीं बड़ा पैमाना है
  • Penguin Random House, John Wiley & Sons सहित 1,000 से अधिक rights holders ने DMCA requests जमा की हैं, और हर हफ्ते लगभग 1 करोड़ नए URL रिपोर्ट किए जा रहे हैं
  • बड़े पैमाने पर हटाने के बावजूद Anna’s Archive का मुख्य domain अब भी accessible है, और Google search में साइट के नाम से इसे आसानी से पाया जा सकता है

Anna’s Archive का परिचय

  • Anna’s Archive कई shadow libraries में एक साथ खोज करने वाला metasearch engine है, जो pirated books और सामग्री खोजने की सुविधा देता है
    • 2022 की शरद ऋतु में, Z-Library पर अमेरिकी अधिकारियों की कार्रवाई के तुरंत बाद इसे शुरू किया गया था
    • इसकी शुरुआत जनता को ‘free’ किताबें और शोधपत्र उपलब्ध कराते रहने के उद्देश्य से हुई
  • लॉन्च के बाद 3 वर्षों में इसे कई देशों में block किया गया, और WorldCat data के 2.2TB अनधिकृत scraping के आरोप में अमेरिका में मुकदमा दायर हुआ
  • यह AI researchers को data access देने से जुड़ी गतिविधियों में भी सक्रिय है

Google की बड़े पैमाने पर हटाने की कार्रवाई

  • Google suspected copyright infringement वाले URL को rights holders के अनुरोध पर search results से हटाता है
  • Anna’s Archive से जुड़े कुल 78.4 करोड़ URL रिपोर्ट किए गए, जिनमें से 74.9 करोड़ वास्तव में हटा दिए गए
    • कुछ links Google द्वारा index न किए जाने के कारण removal के दायरे में नहीं आए
  • तुलना के लिए, The Pirate Bay के 42 लाख URL हटाए गए, जिससे Anna’s Archive का पैमाना कहीं बड़ा दिखता है
  • साइट कई country-specific subdomains चलाती है और इसके पास बहुत बड़ी संख्या में pages हैं, इसलिए हटाए जाने वाले URL की संख्या अधिक है

Google की कुल copyright removals का 5%

  • Google की transparency report के अनुसार, 2012 के बाद से कुल 15.1 अरब copyright-infringing URL रिपोर्ट किए गए हैं
    • इनमें Anna’s Archive से जुड़े URL कुल का 5% हैं
  • Penguin Random House और John Wiley & Sons प्रमुख complainants हैं, और 1,000 से अधिक publishers और authors ने DMCA requests जमा की हैं
  • अभी भी हर हफ्ते लगभग 1 करोड़ नए URL अतिरिक्त रूप से रिपोर्ट किए जा रहे हैं

search results में visibility

  • बड़े पैमाने पर removals के कारण books से जुड़े search queries में साइट की visibility घटी है
    • कई URL को hide कर दिया गया है या उनकी search ranking नीचे चली गई है
  • लेकिन ‘Anna’s Archive’ नाम से सीधे search करने पर इसका मुख्य domain अब भी ऊपर दिखाई देता है
  • Google की कार्रवाई के बावजूद साइट तक पहुंच स्वयं block नहीं हुई है

publishing industry की प्रतिक्रिया और सीमाएं

  • publishers के लिए साइट को सीधे block कराना मुश्किल होने के कारण वे Google जैसे third-party platforms को removal requests लगातार भेज रहे हैं
  • कानूनी दबाव के बावजूद annas-archive.org, .li, .se जैसे मुख्य domains अब भी चालू हैं
  • मूल लेख में आगे की किसी अतिरिक्त कार्रवाई या policy change का उल्लेख नहीं है

1 टिप्पणियां

 
GN⁺ 2025-11-06
Hacker News राय
  • यह अजीब लग सकता है, लेकिन मैंने पाया है कि Yandex DMCA अनुरोधों के कारण हटाई गई सामग्री खोजने के लिए काफ़ी शानदार सर्च इंजन है
    उदाहरण के लिए, जब मैं ऐसी फ़िल्म को वेब स्ट्रीमिंग पर देखना चाहता हूँ जो Netflix पर नहीं है, तो उसके सर्च रिज़ल्ट काफ़ी बेहतर होते हैं
    मानो फिर से 2005 का Google इस्तेमाल कर रहे हों

    • मैंने कुछ साल पहले bittorrent infohash खोजने के लिए Yandex इस्तेमाल करना शुरू किया था
      क्योंकि Google, Bing, DuckDuckGo अब ठीक-ठाक रिज़ल्ट नहीं दे रहे थे
      आजकल blockchain explorer जैसी जगहों पर सिर्फ़ छोटे हिस्से का मैच दिखता है, और समझ नहीं आता कि यह जानबूझकर है या fuzzy matching की कोशिश की वजह से
      जो भी हो, इस उपयोग के लिए यह पूरी तरह बेकार है
    • मैंने Kagi, Startpage, Ecosia, DDG जैसे कई सर्च इंजन इस्तेमाल किए हैं, और सबने Google से ज़्यादा प्रासंगिक रिज़ल्ट दिए
      Google बहुत ज़्यादा personalized हो चुका है
    • एक यूक्रेनी होने के नाते मुझे गुस्सा आता है कि Yandex प्रचार के औज़ार में बदल गया है, लेकिन एक इंजीनियर के रूप में मैं उनकी दशकों की रिसर्च विरासत और बेहतरीन सर्च तकनीक का सम्मान करता हूँ
    • मैं लंबे समय से सर्च इंजन की क्वालिटी को इसी तरह टेस्ट करता आया हूँ
      अच्छा इंजन pirate sites दिखाता है, और बेहतरीन इंजन उन्हें फर्जी रिज़ल्ट्स से ऊपर रखता है
      लेकिन जितना बेहतरीन इंजन होगा, उतनी ही जल्दी वह ध्यान में आएगा और उसके रिज़ल्ट हटा दिए जाएँगे
      तब समझो किसी और जगह जाने का समय आ गया है
    • मज़ेदार बात यह है कि कुछ दिन पहले मेरी पत्नी अपने देश के इतिहास के बारे में बता रही थी और उससे जुड़ी एक फ़िल्म सुझाई, लेकिन वह Google, DDG, Bing, Brave कहीं नहीं मिली
      जबकि Yandex में वह टॉप 3 में ही आ गई
      वैसे DDG अब लगभग Google जैसा ही हो गया है, यहाँ तक कि sponsored results भी हैं
  • Anna’s Archive ने शायद Google के Gemini training के लिए ज़रूरी सारा डेटा पहले ही दे दिया, इसलिए अब ऐसा लग रहा है जैसे वह दिखावा कर रहा हो कि वह मौजूद ही नहीं है

    • सोचता हूँ क्या कभी Anna’s Archive ने दुनिया की जानकारी को व्यवस्थित करके उसे सार्वभौमिक रूप से सुलभ बनाया था
    • Google स्वेच्छा से transparency log चलाता है, और DMCA compliance सिर्फ़ क़ानूनी व्याख्या का मामला है
      इस पर online communities का दुर्भावनापूर्ण साज़िश सिद्धांत बना लेना समझना मुश्किल है
  • Google अब फिर से search करता है?
    आजकल मेरा इस्तेमाल किया हुआ chatbot brand ही 100 SEO spam sites को पार करके वही जानकारी ढूँढ देता है, तो समझ नहीं आता उस सुविधा को कैसे हराया जा सकता है

    • मैंने सुना है कि chatbot Google की तुलना में spam से कम प्रभावित होते हैं, लेकिन पता नहीं यह सच है या नहीं
    • मुझे याद है कि एक ज़माना था जब Google सच में search किया करता था
      (nickname बढ़िया है)
    • chatbot के पास अपना internet-scale index नहीं होता
      आख़िरकार यह जानकारी के स्रोत को सीधे जाँचने की निर्णय क्षमता छोड़ देने जैसा है
    • chatbot जो links देता है, उनमें 25~90% तक hallucination होती है
      नहीं तो वह बस Google search की जगह ले रहा होता है
    • LLM आधारित AI मूल रूप से data manipulation attacks के प्रति संवेदनशील है
      सचमुच मानव-स्तर का AGI होता तो ऐसी कोशिशों को पकड़ लेता, लेकिन मौजूदा chatbot ऐसा नहीं कर पाते
      संबंधित लेख: NYTimes - AI Chatbot Prompts and Manipulation
  • मैं ऐसे search बिल्कुल नहीं करता जिनसे Google को असहजता हो
    serial numbers, company phone numbers, papers, books जैसी चीज़ें मैं सब Yandex या Brave से खोजता हूँ
    Google जो चाहे करे, मैं वैसे भी उसका इस्तेमाल नहीं करता

  • Anna’s Archive गायब होने से पहले मैं सोच रहा हूँ कि सारे z-archive torrents डाउनलोड कर लूँ
    बड़े PDF और गैर-अंग्रेज़ी किताबों को छोड़ दें तो शायद इन्हें compress करके 32TB की दो drives में रखा जा सकता है
    https://annas-archive.org/torrents

    • क्या बड़े PDF हटाना कुछ ज़्यादा ही मनमाना मानदंड नहीं है?
      PDF अक्सर रंग या resolution की समस्या की वजह से बड़े होते हैं, सामग्री की वजह से नहीं
    • मैंने पहले DPI और color depth घटाकर फिर से PDF में मिलाने के तरीके से आकार कम किया है
      एक ही किताब के कई editions को अपने-आप पहचानकर सिर्फ़ एक epub छोड़ना और बाकी हटाना भी संभव है
    • मैं भी अंग्रेज़ी/जर्मन/फ़्रेंच versions का backup बनाना चाहता हूँ
      बस HDD और filesystem की समस्या है, इसलिए शायद torrent splitter जैसा कुछ ख़ुद बनाना पड़े
    • मैं सूची को उलटकर छोटी files से भरना शुरू करने वाले तरीके से व्यवस्थित करता हूँ
  • https://annas-archive.org

  • मैंने लगभग कभी भी ऐसे sites की सामग्री Google पर निर्भर होकर नहीं खोजी
    site ख़ुद ही title, author, format, date के आधार पर अच्छी तरह index होती है, इसलिए free search काफ़ी है

    • Google जैसे web search की ताकत similar-term search में होती है
      जैसे “a a a a ah ah ah ah dance song” खोजो, तो वह Otto Knows का “Million Voices” ढूँढ देता है
    • लेकिन क्या ऐसी sites में full-text search नहीं होती?
      मुझे नहीं लगता Google भी Anna’s Archive pages के मुख्य पाठ तक index करता होगा
  • हाल ही में Library Genesis के बंद होने के बाद, लगता है Anna’s Archive ही आख़िरी बचा हुआ book repository है
    जानना चाहता हूँ कि कोई और विकल्प है या नहीं

    • Anna’s Archive से लिंक किया गया Open-Slum.org है
    • किताबों के लिए WeLib.org, और audiobooks के लिए AudiobookBay की सिफारिश करता हूँ
  • Google की निरर्थकता की ओर मार्च जारी है

    • फिर भी दुनिया भर की search queries का 97% अभी भी Google के हिस्से में है
  • web search का माहौल पूरी तरह बदल गया है

    • walled gardens बढ़ गए हैं, इसलिए कई ऐसे क्षेत्र हैं जहाँ search engines पहुँच ही नहीं सकते
    • क़ानूनी पाबंदियों के कारण भी बहुत-सा डेटा inaccessible हो गया है
    • अब सिर्फ़ Google नहीं, बल्कि Yandex, Kagi, ChatGPT सबको साथ में इस्तेमाल करना पड़ता है
    • मैं अपना बनाया हुआ index Internet Places Database भी साथ में इस्तेमाल करता हूँ