1 पॉइंट द्वारा GN⁺ 2025-08-19 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • हालिया मिशन पर हमले बढ़ने के कारण इन्फ्रास्ट्रक्चर और ऑपरेशनल सिक्योरिटी को मजबूत किया जा रहा है
  • 2022 में शुरुआत के बाद से करोड़ों किताबें, शोध-पत्र, मैगज़ीन, समाचारपत्र और अन्य सामग्री को सुरक्षित रूप से संरक्षित और साझा किया जा रहा है
  • बड़े पैमाने की scraping के ज़रिए WorldCat, Google Books आदि से विशाल metadata हासिल किया गया है, जिसका उपयोग अब तक न जुटाई गई सामग्री की पहचान में किया जाता है
  • LibGen, Z-Library आदि के साथ साझेदारी के माध्यम से करोड़ों अतिरिक्त सामग्री प्राप्त की गई, हालांकि कुछ पार्टनर्स के गायब हो जाने का अफसोस भी है
  • WeLib जैसी नई साइटों के साथ सावधानीपूर्ण संबंध बनाए रखे गए हैं, और कम्युनिटी में पर्याप्त योगदान न होने के कारण इसके उपयोग से बचने की सलाह दी गई है

हालिया स्थिति और टीम की प्रतिक्रिया

  • हाल में Anna's Archive के मिशन को निशाना बनाने वाले हमले बढ़े हैं
  • इसके जवाब में इन्फ्रास्ट्रक्चर और ऑपरेशनल सिक्योरिटी को मजबूत करने के उपाय किए जा रहे हैं
  • मानवता की ज्ञान-संपदा को सुरक्षित रूप से संरक्षित करना अब भी एक ऐसा काम है जिसका पीछा करना सार्थक है

सामग्री की मुक्ति और संग्रहण गतिविधियां

  • 2022 में शुरुआत के बाद से करोड़ों किताबें, वैज्ञानिक शोध-पत्र, मैगज़ीन, समाचारपत्र और विभिन्न तरह की सामग्री जुटाई गई है
  • ये सामग्री प्राकृतिक आपदाओं, युद्ध, बजट कटौती और अन्य खतरों से सुरक्षित रखी गई है
  • torrent के माध्यम से सामग्री वितरण में साथ देने वाले सभी लोगों के प्रयासों से, सामग्री के खो जाने की आशंका काफी कम हुई है

बड़े पैमाने की scraping और metadata संग्रह

  • Anna's Archive ने IA Controlled Digital Lending, HathiTrust, DuXiu आदि से संगठित रूप से बड़े पैमाने पर scraping की है
  • tens of millions तक पहुंचने वाली सामग्री फ़ाइलें हासिल करने में सफलता मिली है
  • WorldCat, Google Books आदि से किताबों के metadata का विशाल संग्रह बनाया गया है
  • इस metadata की मदद से उन किताबों की पहचान की जाती है जो अब भी कलेक्शन में शामिल नहीं हैं, और इसका उपयोग दुर्लभ सामग्री को प्राथमिकता से जुटाने की रणनीति में किया जाता है

कम्युनिटी, सहयोग और नया विकास

  • LibGen fork, STC/Nexus, Z-Library जैसे सहयोगी पार्टनर्स के साथ काम करके करोड़ों अतिरिक्त फ़ाइलें हासिल की गई हैं
  • पार्टनर्स फ़ाइलों को mirror करके मिशन में बड़ी मदद कर रहे हैं
  • हालांकि LibGen forks में से एक का गायब हो जाना अफसोस की बात माना गया है

नए प्रोजेक्ट्स और सावधानियां

  • हाल में WeLib नाम का एक नया प्रोजेक्ट सामने आया है
    • यह अधिकतर archive collections को mirror करता है और Anna’s Archive codebase fork का उपयोग कर रहा है
    • WeLib के user interface में किए गए कुछ सुधारों को अपनाकर लागू किया गया है
    • लेकिन नए collections साझा नहीं किए गए हैं और codebase में सुधार भी साझा नहीं किए गए, इसलिए ecosystem में योगदान के वादे की कमी है
    • इसी कारण WeLib के उपयोग में सावधानी बरतने की सलाह दी गई है
  • इसके अलावा, अंदरूनी तौर पर सैकड़ों terabytes की नई collections सर्वरों पर तैयार हैं और प्रोसेस होने की प्रतीक्षा कर रही हैं

स्वयंसेवा और सहयोग के लिए अनुरोध

  • कोई भी व्यक्ति स्वयंसेवा और donation page के माध्यम से प्रोजेक्ट में भाग ले सकता है

  • सब कुछ छोटे बजट पर चलाया जा रहा है, इसलिए थोड़ी सी मदद भी बहुत मूल्यवान है

  • आगे भी ज्ञान-संपदा की रक्षा और मुक्ति के लिए लगातार प्रयास जारी रखने का आह्वान किया गया है

  • Anna और पूरी टीम (Reddit कम्युनिटी संदर्भ)

1 टिप्पणियां

 
GN⁺ 2025-08-19
Hacker News टिप्पणियाँ
  • मैं जो किताबें खरीदता हूँ, उन्हें Anna's Archive से चुनकर खरीदता हूँ, कॉमिक्स readComicsOnline से, और यूरोपीय graphic novels #WONTTELL से चुनता हूँ। मैं इन तीनों ऑफलाइन स्टोर्स का नियमित ग्राहक हूँ। विज्ञापनों के हिसाब से चलन में जो है वह खरीदने के बजाय, मैं बहुत गहराई से खोजकर सिर्फ सच में अच्छे काम ढूँढ़ता हूँ। कभी-कभी स्टोर के कर्मचारियों को मेरे ऑनलाइन खोजे गए दुर्लभ किताबें ऑर्डर करने में काफ़ी मेहनत करनी पड़ती है। पता नहीं मैं अपवाद हूँ या नहीं, लेकिन ऐसी सेवाएँ मेरी स्वतंत्र पसंद का अधिकार बचाए रखती हैं।

    • यह एक जटिल मुद्दा है। मैं पहले movie release groups में सक्रिय था, और उस समूह के ज़्यादातर सदस्यों के पास औसत लोगों की तुलना में बहुत ज़्यादा VHS/DVD संग्रह था। यह ऐसा काम है जिसमें काफ़ी मेहनत और समय लगता है। जो लोग सिर्फ डाउनलोड करते थे, वे कहीं ज़्यादा मिश्रित समूह थे। कुछ लोग विदेश में रहते थे और अपने देश में रिलीज़ न होने वाली चीज़ें नहीं देख पाते थे, और कुछ लोग इस बात पर गर्व करते थे कि वे कोई media खरीदते ही नहीं।

    • मेरी स्थिति भी कुछ ऐसी ही है। Anna's Archive की वजह से मैं अपने school library से भी ज़्यादा आसानी से सामग्री ढूँढ़ सकता हूँ। घर से खोजो, ज़रूरी जानकारी लो, और हटाया भी जा सकता है। पहले से सामग्री देख सकता हूँ, और अगर सच में अच्छी लगे तो संग्रह के लिए खरीद लेता हूँ। मैं पहले से ज़्यादा किताबें नहीं खरीदता, लेकिन संतुष्टि बहुत अधिक है। दूसरी ओर, upload sites की वजह से मुझे ऐसी बेहतरीन फ़िल्में पता चलीं जिनके बारे में मैंने पहले कभी नहीं सुना था, और अब मैं पहले से कहीं ज़्यादा फ़िल्में खरीदता हूँ।

    • फ़्रांसीसी comics piracy जगत में आम तौर पर लगभग 6 महीने की देरी से रिलीज़ सामग्री फैलायी जाती है। यह क्षेत्र छोटा है, इसलिए यह नियम काफ़ी हद तक काम करता है। इसी से मेरी comics में रुचि बनी, और जो काम पसंद आए उन्हें मैं रिलीज़ के समय ही ख़ुशी से खरीदता हूँ, और DRM को निजी संग्रह के लिए हटा देता हूँ। मेरे ज़्यादातर डाउनलोड संग्रह/archiving प्रवृत्ति के हैं, और जिन्हें मैं सच में मज़े से पूरा पढ़ता हूँ, उनके लेखक को मैं support करता हूँ।

    • मैं भी बिल्कुल ऐसा ही हूँ। अगर कोई series दिलचस्प लगे, तो पहले सिर्फ पहला volume लेता हूँ और लगभग एक-तिहाई पढ़ता हूँ। अगर बहुत अच्छा लगे, तो बाद में खरीदकर पढ़ता हूँ। मैं महीने में लगभग 3-4 किताबें खरीदता हूँ (जहाँ संभव हो drm free epub पसंद करता हूँ), और यूरोपीय graphic novels लगभग 10 प्रति माह खरीदता हूँ (सिर्फ paperback)। मैं भी भारी consumer हूँ।

    • मैं पहले एक indie game को follow करता था, जहाँ developer DRM-free अनुभव देना चाहता था। उसमें online features भी थे, जैसे leaderboard, लेकिन उसने पाया कि वास्तविक sales से कहीं ज़्यादा accounts online जुड़ रहे थे, जिससे वह घबरा गया। बाद में developers ने feature descriptions में लोगों से copy इस्तेमाल न करने और original खरीदने की अपील करनी शुरू कर दी। आख़िरकार game काफ़ी लोकप्रिय हुआ, लेकिन piracy copies बहुत ज़्यादा थीं और भुगतान करने वाले बहुत कम, इसलिए टीम ने project छोड़ दिया। piracy की बात आते ही बहुत लोग अपने व्यवहार को यह कहकर सही ठहराने लगते हैं कि वे औसत से ज़्यादा खरीदते हैं, लेकिन असल सांख्यिकीय data देखें तो ज़्यादातर लोग इसलिए इस्तेमाल करते हैं क्योंकि वह मुफ़्त है।

  • shadow libraries चलाने वाले लोग मानवता के लिए बड़ा योगदान दे रहे हैं, इसलिए वे Nobel Prize के हकदार हैं। Satoshi भी निश्चित रूप से गर्व करेगा।

    • Satoshi को जिस बात पर गर्व होगा, वह यह है कि censorship के डर के बिना shadow libraries को support किया जा सकता है, और सिर्फ एक item हो तब भी उसे list की तरह गिना जा सकता है।

    • aaronsw को भी शायद गर्व होता।

    • तब तो वह कुछ सिक्के भी दे सकता था, उसके लिए तो वह छुट्टे पैसे जैसी बात होती।

  • यह उन torrents की list देता है जिनमें कोई भी seed डालकर long-term preservation में भाग ले सकता है https://annas-archive.org/torrents

    • हैरानी की बात है कि i2p-based torrents अभी तक उतने व्यापक नहीं हुए कि ऐसी sites उन्हें विकल्प के रूप में दें। मुझे लगता है क़ानूनी जोखिम की वजह से बहुत लोग योगदान नहीं कर पाते होंगे। i2p इसमें मदद कर सकता है।

    • यह प्रभावशाली है कि sci-hub लगभग 90TB है, और libgen-non-fiction लगभग 77.5TB। यही वे archive हैं जिनमें papers, textbooks और दूसरी मूलभूत वैज्ञानिक जानकारी है, इसलिए इन्हें ज़रूर सुरक्षित रखना चाहिए। मैं भी अपने home server पर लगभग 16TB रखता हूँ, लेकिन 200TB तक बढ़ाने के लिए hardware और cost दोनों आसान नहीं हैं (सिर्फ 12x16TB disks ही $2200 पड़ती हैं)। अगर data redundancy और server hardware भी जोड़ें, तो लगभग $5000 में मानवता द्वारा संचित मुख्य वैज्ञानिक ज्ञान का बड़ा हिस्सा cache किया जा सकता है। दिलचस्प बात यह है कि इन repositories का आकार हाल के समय में लगभग बढ़ा ही नहीं है। scihub भी 2022 के बाद से update नहीं हुआ, और हाल में बढ़े कई low-quality journals शायद उतने महत्वपूर्ण भी नहीं होंगे।

  • library में एक series पढ़ते हुए मैं चकित रह गया कि volume 3 या 4 गायब थे। शायद वे खो गए या खराब हो गए थे। मैंने सोचा था कि क्या मैं खुद used bookstore से खरीदकर donate कर दूँ, लेकिन नए editions महँगे भी थे और उनका माहौल भी अलग था, इसलिए बहुत सोचकर छोड़ दिया। तब मैंने Anna’s Archive से ले लिया। series के आख़िरी कुछ volume भी library में नहीं थे (शायद किसी ने उधार लेकर लौटाए नहीं, या शायद शुरू से थे ही नहीं)। मैं बस इस लेखक की पूरी रचनाएँ पढ़ना चाहता था, और जिन किताबों को मैं सच में पसंद करता हूँ, उन्हें मैं paper और audiobook दोनों रूपों में दो-दो बार खरीद चुका हूँ। बहुत पहले मेरे दोस्त किताबें जमा करने में लग गए थे, लेकिन मैं अब सिर्फ वही रखता हूँ जिन्हें दोबारा पढ़ूँगा। जब पूरा-संग्रह करने की इच्छा होती भी है, तो उसे library या ebooks से पूरा कर लेता हूँ। उम्र बढ़ने के साथ किताबों और अपनी सीमित जीवन-अवधि, दोनों का अहसास ज़्यादा होता है। रिटायर होकर अगर हफ़्ते में 3-4 किताबें भी पढ़ूँ, तब भी मेरे पास इतनी किताबें जमा हैं कि उन्हें जीवन भर में पूरा नहीं पढ़ सकूँगा। और नई किताबें और नई आवाज़ें आती ही जा रही हैं। आख़िर में मैंने Dune फिर से पढ़ी और उसे used bookstore को दे दिया; अगर दोबारा पढ़ूँगा, तो शायद audiobook version होगा।

  • “Anna’s Archive ने IA Controlled Digital Lending से करोड़ों files हासिल कीं” वाला हिस्सा, कुल मिलाकर, मुझे बहुत मददगार नहीं लगता।

    • यह बेहद अस्पष्ट सा बयान है और लगता है कि इसका अंत अदालत में ही होगा।

    • Anna's Archive का लापरवाही से ‘हमने यह भी किया’ जैसा घमंड करना बहुत स्वार्थी व्यवहार लगता है। इसमें नतीजों की कोई परवाह नहीं दिखती।

    • मुझे समझ नहीं आता कि इसमें समस्या क्या है। उनका मूल उद्देश्य तो किताबें इकट्ठा करना ही है।

  • मुझे लगता है Anna's Archive जैसी जगहें इंटरनेट पर बची आख़िरी अच्छी चीज़ों में से एक हैं।

    • मैं जानना चाहता हूँ कि वे funding कैसे जुटाते हैं और site को ज़िंदा कैसे रखते हैं। लगता है कि बहुत बड़े पैसों वाली कंपनियाँ और देश इस site को हटाना चाहते होंगे।

    • इस बात से सहमत हूँ कि यह आख़िरी अच्छी चीज़ों में से एक है (आख़िरी है, पर कमतर नहीं)।

  • इस project की टीम को बधाई। पिछले एक साल में UI बेहतर हुआ लगता है, जो प्रभावशाली है। अब बची बड़ी समस्या यह है कि service लगातार उपलब्ध कैसे रहे। जानना चाहता हूँ कि इसमें कितना प्रयास लगता है, और इतने हमलों के बीच वे टिके कैसे रहते हैं।

    • पिछले 2–5 दिनों में एक बड़ा UI update आया है। बस थोड़ी कमी यह लगी कि mobile पर पहले search results कहीं ज़्यादा कुशलता से दिखते थे, जबकि नए design में एक screen पर लगभग 4–5 ही दिखते हैं।
  • संदर्भ के लिए, यह site भी काफ़ी उपयोगी है https://open-slum.org/

    • site खुल नहीं रही। अच्छा होगा अगर आप बता सकें कि इसमें क्या है और यह उपयोगी क्यों है।

    • यह site एक Uptime Kuma instance लगती है। Uptime Kuma एक open source project है, जिसकी monitoring और dashboarding में मज़बूती है https://github.com/louislam/uptime-kuma

  • यह कुछ मज़ेदार लगता है कि नागरिक Anna's Archive जैसी चीज़ों का समर्थन करते हैं, जबकि सरकारें उसका विरोध करती हैं। यह कहीं न कहीं elitism का एक संकेत लगता है।

    • यह न तो मज़ेदार है न अजीब; इसमें author का नज़रिया ग़ायब है। जिन लेखकों की किताबें Anna’s Archive पर हैं, वे इस बारे में कितना संतुष्ट होंगे? व्यक्तिगत रूप से मैं Anna’s Archive, sci-hub आदि के पक्ष में हूँ, क्योंकि मुझे लगता है कि अगर समाज कुल मिलाकर ज़्यादा पढ़े तो फ़ायदा ही होगा। लेकिन मौजूदा व्यवस्था के भीतर compensation, क़ानून और ऐसे कई मुद्दे भी हैं।

    • मैं भी सोचता हूँ कि लेखक इसके बारे में क्या सोचते होंगे।

  • मैं जानना चाहता हूँ कि क्या Anna's Archive या ऐसी कोई मिलती-जुलती site पूरा New York Times (1930 से पहले का) PDF set या दूसरे अख़बार उपलब्ध कराती है। अभी Newspapers.com जैसी sites पर public-domain सामग्री भी बंद ढाँचे में फँसी हुई है, या पुराने Google News/newspaper की तरह लगभग पूरी तरह search न की जा सकने वाली है। उम्मीद है कि AI training data इकट्ठा करने की होड़ की वजह से ऐसी नई archives बनेंगी जो पुराने paid/abandoned sites से ज़्यादा खुली हों और AI-based discovery features दें। कुछ चीज़ें Internet Archive जैसी जगहों पर मिल जाती हैं, लेकिन असल ज़रूरत AI-based search की है।

    • https://archive.org/search?query=title%3ANew+York+Times&sort=-date&and%5B%5D=year%3A%5B1530+TO+1930%5D लिंक पर NYT के कुछ पुराने अख़बार मिल सकते हैं। पूरा PDF set एक साथ डाउनलोड नहीं किया जा सकता, लेकिन Anna’s Archive torrents से अलग-अलग PDF ढूँढ़कर उन्हें जोड़ा जा सकता है। AI-based search भी, अगर समय और इच्छा हो, तो पुराने NYT लेखों पर OCR चलाकर उन्हें text में बदला जा सकता है और फिर उन्हें किसी LLM जैसी चीज़ में डालकर semantic खोज संभव हो सकती है। आदर्श रूप से ऐसे projects को public cultural funds द्वारा academic research के रूप में support मिलना चाहिए।