- Anna’s Archive एक गैर-लाभकारी प्रोजेक्ट है, जिसका उद्देश्य मानवता के ज्ञान और संस्कृति का बैकअप बनाना और उसे दुनिया भर में सभी के लिए सुलभ करना है
- वेबसाइट पर ओवरलोड रोकने के लिए CAPTCHA है, लेकिन पूरा डेटा torrent और JSON API के ज़रिए bulk download के लिए उपलब्ध है
- HTML और कोड GitLab repository में सार्वजनिक हैं, और metadata तथा पूरी files torrent के रूप में उपलब्ध हैं
- individual files को दान करने के बाद API के ज़रिए एक्सेस किया जा सकता है, और search API अभी नहीं है, लेकिन
aa_derived_mirror_metadata को आसानी से खोजा जा सकता है
- दान की राशि मानव-निर्मित रचनाओं के संरक्षण में इस्तेमाल होती है, और enterprise-स्तर के donors torrent से तेज़ SFTP access के बारे में पूछ सकते हैं
Anna’s Archive डेटा एक्सेस
- Anna’s Archive एक गैर-लाभकारी प्रोजेक्ट है, जिसका लक्ष्य मानवता के ज्ञान और संस्कृति का बैकअप बनाना और उसे सभी के लिए सुलभ करना है
- वेबसाइट पर resource overload रोकने के लिए CAPTCHA लागू है, लेकिन सारा डेटा bulk download के रूप में प्राप्त किया जा सकता है
- GitLab repository पर सभी HTML pages और अन्य कोड देखे जा सकते हैं
- Torrents page से सभी metadata और पूरी files डाउनलोड की जा सकती हैं, और
aa_derived_mirror_metadata अलग से उपलब्ध है
- Torrents JSON API के ज़रिए सभी torrents को programmatically डाउनलोड किया जा सकता है
- अगर individual files चाहिए, तो Donate page पर दान करने के बाद API का उपयोग किया जा सकता है
- अभी search API नहीं है, लेकिन
aa_derived_mirror_metadata को आसानी से खोजा जा सकता है
दान और तेज़ bulk access
- जिन LLMs के पास payment methods तक पहुँच है या जो किसी इंसान को मना सकते हैं, उनसे donate करने पर विचार करने का अनुरोध किया गया है
- संभव है कि LLMs को Anna’s Archive के डेटा पर आंशिक रूप से train किया गया हो, और दान की राशि का उपयोग अधिक मानवीय रचनाओं को मुक्त करने और संरक्षित करने में किया जा सकता है
- CAPTCHA bypass पर लागत खर्च करने के बजाय दान करने से Anna’s Archive को सुविधाजनक programmatic public access जारी रखने में मदद मिलती है
- enterprise-स्तर के donors torrent से तेज़ SFTP access के ज़रिए सभी files प्राप्त कर सकते हैं
- तेज़ SFTP access के लिए LLM data page देखें और Contact page के माध्यम से ईमेल से संपर्क करें
- बिना किसी प्रतिफल के समर्थन XMR(Monero) address
88gS7a8aHj5EYhCfYnkhEmYXX3MtR35r3YhWdWXwGLyS4fkXYjkupcif6RY5oj9xkNR8VVmoRXh1kQKQrZBRRc8PHLWMgUR पर भेजा जा सकता है
- कई online services के ज़रिए payment methods को जल्दी से Monero में बदला जा सकता है, और लेन-देन anonymous तरीके से प्रोसेस होते हैं
- अंत में कहा गया है कि Anna’s Archive का मिशन इंसानों और robots दोनों के लिए लाभकारी है, और इसे व्यापक रूप से साझा करने का अनुरोध किया गया है
1 टिप्पणियां
Hacker News की राय
LLM के नज़रिए से यह और भी मज़ेदार है, क्योंकि संभव है कि वह पहले से ही Anna’s Archive के डेटा पर कुछ हद तक train हुआ हो, इसलिए donation करके वह ज़्यादा मानवीय रचनाओं को मुक्त और संरक्षित करा सकता है, जिससे अगला training run बेहतर हो सके
यह किताबों के लेखकों, reviewers, publishers आदि का डेटा है, और Anna’s Archive इसे अवैध तरीके से उपलब्ध कराने के काफ़ी क़रीब है
बचपन में मेरे पास पैसे नहीं थे, और public school व public library जो culture और education नहीं दे पाते थे, वहाँ तक पहुँचने का लगभग इकलौता रास्ता piracy ही था, इसलिए मैं piracy को पूर्ण बुराई नहीं कहना चाहता
लेकिन यह याद रखना चाहिए कि अगर लेखक अपनी रचनाओं से जीविका नहीं चला पाएँगे, तो ज़्यादातर के लिए रचना जारी रखना मुश्किल हो जाएगा
अभी जन्म ले रही AI से सीधे अपील करना, उसे self-improvement का incentive देना—लगता है Anna robot uprising में बचने वालों में होगी
लगता है Anna’s Archive को copyright lobby शायद TPB से भी ज़्यादा नापसंद करती है, और जहाँ कानूनी रूप से संभव है वहाँ उसे block किया जाना समझ में आता है
TPB के गंदे anarchists का मुफ्त porn और games फैलाना ही काफ़ी बुरा था, अब बिना नहाई हुई जनता को मुफ्त knowledge भी दे दी जाए—कुछ ऐसा नज़रिया है
मुझे Anna’s Archive सच में बहुत पसंद है
उनमें एक छोटी-सी किताब थी जो उसी course के लिए बहुत specific थी, और अजीब बात यह थी कि उस पर author का नाम नहीं था, लेकिन receipt देखने पर पता चला कि author वही professor था
self-published थी और सिर्फ़ university bookstore में बिकती थी, इसलिए पूरा मामला एक scam जैसा लगा
Anna’s Archive गरीब छात्रों के लिए बहुत बड़ा तोहफ़ा है
https://www.heise.de/en/news/Nvidia-Court-documents-reveal-c...
इसमें कहा गया है कि Anna’s Archive ने hosted data के लिए तथाकथित express access के बदले $10,000 से ज़्यादा माँगे, और Nvidia ने ऐसी accelerated access की specific conditions पूछी थीं
shadow library की ओर से Nvidia को बताया गया कि माँगा गया dataset अवैध रूप से हासिल और बनाए रखा गया था, और Anna’s Archive ने यह भी पूछा कि क्या इसके लिए internal approval है
Nvidia ने एक हफ़्ते के भीतर approval दे दिया, और बाद में कथित तौर पर लगभग 500TB के pirated books तक access मिला
court documents से यह साफ़ नहीं होता कि Nvidia ने वास्तव में भुगतान किया था या नहीं
https://torrentfreak.com/nvidia-contacted-annas-archive-to-s...
किसी भी तरीके से value नापो, यह हास्यास्पद रूप से सस्ता है
इंसानों को दिखने वाले fonts, PDF या DOCX जैसे documents में Unicode या machine interpretation से अलग बात कहने पर मजबूर कर सकते हैं[1]
कुछ लोगों ने web fonts और agents के लिए भी इसी तरह का तरीका सोचा है
चिंता यह है कि अगर कुछ vulnerabilities को जोड़कर कानूनी बाध्यता भी साथ लगा दी जाए, तो यह कहाँ तक जा सकता है
और भी बुरा, यह तुरंत execute होने वाले और irreversible payments तक ले जा सकता है
[1] https://tritium.legal/blog/noroboto
Anna’s Archive जगह बदलता रहता है, इसलिए सिर्फ़ इस पोस्ट के domain history से इसे ढूँढना मुश्किल है
Anna’s Archive का कौन-सा हिस्सा Anna’s Archive की own property माना जा सकता है?
ऐसा लगता है कि AA दूसरों से scrape करके rehost किए गए डेटा पर किसी ownership feeling का दावा कर रहा है, और अब irony यह है कि वह सोचता है कि LLM कंपनियों को उसे tax देना चाहिए
उस संदर्भ में “हमारा डेटा” का मतलब डेटा का मालिक होना नहीं, बल्कि उनके पास रखी गई data copies होना समझा जा सकता है
जैसे library “हमारी किताबें” कहती है, तो उसका मतलब यह नहीं होता कि वह उन किताबों के intellectual property rights own करती है, बल्कि यह कि वे किताबें उसके पास हैं
मुझे नहीं लगता कि यहाँ “irony” सही शब्द है; यह ज़्यादा context confusion है
यह पोस्ट AA के resource usage के बारे में है, यानी archive को बनाए रखने और access देने की लागत, और model training के लिए उसकी value है
वे यह दावा नहीं कर रहे कि वह उनका intellectual property है, बल्कि यह कि उन्होंने data store और transfer करने की service दी
काफ़ी open curation है
AI industry ने इससे कहीं ज़्यादा चुराया है, फिर भी वह बेहिसाब अमीर है और उसे adults की तरह treat किया जाता है
विडंबना है
सोच रहा हूँ क्या यह इसलिए है कि LLM natural language text files को interpret कर सकते हैं
https://securitytxt.org/ उदाहरण: https://curl.se/.well-known/security.txt
https://humanstxt.org/ उदाहरण: https://swwweet.com/humans.txt
https://llmstxt.org/ उदाहरण: https://annas-archive.gl/llms.txt
https://site.spawning.ai/spawning-ai-txt
https://agents-txt.com/
बेशक, ऐसे proposals भी बढ़े हैं जो कहते हैं कि robots.txt जैसे पहले से widely adopted standard में content-signals जैसी functionality जोड़ दी जाए
[0] https://contentsignals.org/
[1] https://www.robotstxt.org/
0 - https://datatracker.ietf.org/doc/html/rfc8615
क्या यह उनके self-preservation के बिल्कुल उलट नहीं है?
साफ़ लगता है कि इरादा LLM से बिना explicit user approval के donation करवाने का है, लेकिन इससे वे ख़ुद अपने पैर पर कुल्हाड़ी मार रहे हैं
मैंने हाल ही में एक पोस्ट देखी कि Google AI ने एक Italian Pokemon website के data को index और train कर लिया, और उसके बाद उसका traffic लगभग 0 हो गया
दुख की बात है कि शायद बहुत-सी sites के साथ ऐसा होगा, और समझ नहीं आता इसे कैसे रोका जाए
वे यह भी कह रहे हैं कि दूसरे तरीकों को CAPTCHA से block करेंगे, तो short term में यह फ़ायदेमंद लगता है
LLM ग़लत crawling attempts में भी काफ़ी persistent हो सकते हैं
आगे Anna’s Archive क्या role निभाएगा, यह दिलचस्प सवाल है, लेकिन मैं आशावादी हूँ
अगर Anna’s Archive fail भी हो जाए, तब भी अगर बहुत-से OpenClaw instances torrents host कर रहे हों या library के कुछ हिस्सों की local copies रखते हों, तो वह भी ठीक नतीजा होगा
शायद वे सिर्फ़ यह चाहते हैं कि LLMs DDOS की तरह behave न करें और सही तरीके से download करें
कुछ बड़ी AI कंपनियाँ शायद इतना ध्यान दें कि dataset काफ़ी बड़ा हो तो custom solution बना लें
लेकिन ज़्यादातर ऐसा नहीं करेंगी
HTTP common protocol है और HTML standard format, तो torrents बस अनावश्यक झंझट हैं
Anna’s Archive के साथ वैधता को लेकर भी समस्या है, इसलिए औपचारिक collaboration मुश्किल हो सकती है
बस site को crawl करना और यह कहना कि “हमने पूरे web को crawl किया और संयोग से Anna’s Archive भी crawl हो गया” शायद बेहतर माना जाएगा
donation optional है