- Anna’s Archive pirated e-books और सामग्री खोजने के लिए एक shadow library metasearch engine है, जिसे 2022 की शरद ऋतु में शुरू किया गया था
- पिछले 3 वर्षों में publishers और authors की copyright complaints के कारण Google ने इस साइट के 74.9 करोड़ URL search results से हटा दिए
- यह Google द्वारा अब तक प्रोसेस किए गए सभी copyright-संबंधित URL का 5% है, और The Pirate Bay से कहीं बड़ा पैमाना है
- Penguin Random House, John Wiley & Sons सहित 1,000 से अधिक rights holders ने DMCA requests जमा की हैं, और हर हफ्ते लगभग 1 करोड़ नए URL रिपोर्ट किए जा रहे हैं
- बड़े पैमाने पर हटाने के बावजूद Anna’s Archive का मुख्य domain अब भी accessible है, और Google search में साइट के नाम से इसे आसानी से पाया जा सकता है
Anna’s Archive का परिचय
- Anna’s Archive कई shadow libraries में एक साथ खोज करने वाला metasearch engine है, जो pirated books और सामग्री खोजने की सुविधा देता है
- 2022 की शरद ऋतु में, Z-Library पर अमेरिकी अधिकारियों की कार्रवाई के तुरंत बाद इसे शुरू किया गया था
- इसकी शुरुआत जनता को ‘free’ किताबें और शोधपत्र उपलब्ध कराते रहने के उद्देश्य से हुई
- लॉन्च के बाद 3 वर्षों में इसे कई देशों में block किया गया, और WorldCat data के 2.2TB अनधिकृत scraping के आरोप में अमेरिका में मुकदमा दायर हुआ
- यह AI researchers को data access देने से जुड़ी गतिविधियों में भी सक्रिय है
Google की बड़े पैमाने पर हटाने की कार्रवाई
- Google suspected copyright infringement वाले URL को rights holders के अनुरोध पर search results से हटाता है
- Anna’s Archive से जुड़े कुल 78.4 करोड़ URL रिपोर्ट किए गए, जिनमें से 74.9 करोड़ वास्तव में हटा दिए गए
- कुछ links Google द्वारा index न किए जाने के कारण removal के दायरे में नहीं आए
- तुलना के लिए, The Pirate Bay के 42 लाख URL हटाए गए, जिससे Anna’s Archive का पैमाना कहीं बड़ा दिखता है
- साइट कई country-specific subdomains चलाती है और इसके पास बहुत बड़ी संख्या में pages हैं, इसलिए हटाए जाने वाले URL की संख्या अधिक है
Google की कुल copyright removals का 5%
- Google की transparency report के अनुसार, 2012 के बाद से कुल 15.1 अरब copyright-infringing URL रिपोर्ट किए गए हैं
- इनमें Anna’s Archive से जुड़े URL कुल का 5% हैं
- Penguin Random House और John Wiley & Sons प्रमुख complainants हैं, और 1,000 से अधिक publishers और authors ने DMCA requests जमा की हैं
- अभी भी हर हफ्ते लगभग 1 करोड़ नए URL अतिरिक्त रूप से रिपोर्ट किए जा रहे हैं
search results में visibility
- बड़े पैमाने पर removals के कारण books से जुड़े search queries में साइट की visibility घटी है
- कई URL को hide कर दिया गया है या उनकी search ranking नीचे चली गई है
- लेकिन ‘Anna’s Archive’ नाम से सीधे search करने पर इसका मुख्य domain अब भी ऊपर दिखाई देता है
- Google की कार्रवाई के बावजूद साइट तक पहुंच स्वयं block नहीं हुई है
publishing industry की प्रतिक्रिया और सीमाएं
- publishers के लिए साइट को सीधे block कराना मुश्किल होने के कारण वे Google जैसे third-party platforms को removal requests लगातार भेज रहे हैं
- कानूनी दबाव के बावजूद annas-archive.org, .li, .se जैसे मुख्य domains अब भी चालू हैं
- मूल लेख में आगे की किसी अतिरिक्त कार्रवाई या policy change का उल्लेख नहीं है
1 टिप्पणियां
Hacker News राय
यह अजीब लग सकता है, लेकिन मैंने पाया है कि Yandex DMCA अनुरोधों के कारण हटाई गई सामग्री खोजने के लिए काफ़ी शानदार सर्च इंजन है
उदाहरण के लिए, जब मैं ऐसी फ़िल्म को वेब स्ट्रीमिंग पर देखना चाहता हूँ जो Netflix पर नहीं है, तो उसके सर्च रिज़ल्ट काफ़ी बेहतर होते हैं
मानो फिर से 2005 का Google इस्तेमाल कर रहे हों
क्योंकि Google, Bing, DuckDuckGo अब ठीक-ठाक रिज़ल्ट नहीं दे रहे थे
आजकल blockchain explorer जैसी जगहों पर सिर्फ़ छोटे हिस्से का मैच दिखता है, और समझ नहीं आता कि यह जानबूझकर है या fuzzy matching की कोशिश की वजह से
जो भी हो, इस उपयोग के लिए यह पूरी तरह बेकार है
Google बहुत ज़्यादा personalized हो चुका है
अच्छा इंजन pirate sites दिखाता है, और बेहतरीन इंजन उन्हें फर्जी रिज़ल्ट्स से ऊपर रखता है
लेकिन जितना बेहतरीन इंजन होगा, उतनी ही जल्दी वह ध्यान में आएगा और उसके रिज़ल्ट हटा दिए जाएँगे
तब समझो किसी और जगह जाने का समय आ गया है
जबकि Yandex में वह टॉप 3 में ही आ गई
वैसे DDG अब लगभग Google जैसा ही हो गया है, यहाँ तक कि sponsored results भी हैं
Anna’s Archive ने शायद Google के Gemini training के लिए ज़रूरी सारा डेटा पहले ही दे दिया, इसलिए अब ऐसा लग रहा है जैसे वह दिखावा कर रहा हो कि वह मौजूद ही नहीं है
इस पर online communities का दुर्भावनापूर्ण साज़िश सिद्धांत बना लेना समझना मुश्किल है
Google अब फिर से search करता है?
आजकल मेरा इस्तेमाल किया हुआ chatbot brand ही 100 SEO spam sites को पार करके वही जानकारी ढूँढ देता है, तो समझ नहीं आता उस सुविधा को कैसे हराया जा सकता है
(nickname बढ़िया है)
आख़िरकार यह जानकारी के स्रोत को सीधे जाँचने की निर्णय क्षमता छोड़ देने जैसा है
नहीं तो वह बस Google search की जगह ले रहा होता है
सचमुच मानव-स्तर का AGI होता तो ऐसी कोशिशों को पकड़ लेता, लेकिन मौजूदा chatbot ऐसा नहीं कर पाते
संबंधित लेख: NYTimes - AI Chatbot Prompts and Manipulation
मैं ऐसे search बिल्कुल नहीं करता जिनसे Google को असहजता हो
serial numbers, company phone numbers, papers, books जैसी चीज़ें मैं सब Yandex या Brave से खोजता हूँ
Google जो चाहे करे, मैं वैसे भी उसका इस्तेमाल नहीं करता
Anna’s Archive गायब होने से पहले मैं सोच रहा हूँ कि सारे z-archive torrents डाउनलोड कर लूँ
बड़े PDF और गैर-अंग्रेज़ी किताबों को छोड़ दें तो शायद इन्हें compress करके 32TB की दो drives में रखा जा सकता है
https://annas-archive.org/torrents
PDF अक्सर रंग या resolution की समस्या की वजह से बड़े होते हैं, सामग्री की वजह से नहीं
एक ही किताब के कई editions को अपने-आप पहचानकर सिर्फ़ एक epub छोड़ना और बाकी हटाना भी संभव है
बस HDD और filesystem की समस्या है, इसलिए शायद torrent splitter जैसा कुछ ख़ुद बनाना पड़े
https://annas-archive.org
मैंने लगभग कभी भी ऐसे sites की सामग्री Google पर निर्भर होकर नहीं खोजी
site ख़ुद ही title, author, format, date के आधार पर अच्छी तरह index होती है, इसलिए free search काफ़ी है
जैसे “a a a a ah ah ah ah dance song” खोजो, तो वह Otto Knows का “Million Voices” ढूँढ देता है
मुझे नहीं लगता Google भी Anna’s Archive pages के मुख्य पाठ तक index करता होगा
हाल ही में Library Genesis के बंद होने के बाद, लगता है Anna’s Archive ही आख़िरी बचा हुआ book repository है
जानना चाहता हूँ कि कोई और विकल्प है या नहीं
Google की निरर्थकता की ओर मार्च जारी है
web search का माहौल पूरी तरह बदल गया है