- मानवता के ज्ञान और संस्कृति के संरक्षण तथा पहुंच का विस्तार को लक्ष्य बनाने वाले गैर-लाभकारी प्रोजेक्ट Anna's Archive ने LLM (बड़े भाषा मॉडल) के लिए एक मार्गदर्शिका प्रकाशित की है
- प्रोजेक्ट अपने लक्ष्य को समझाते हुए, LLM होने पर किन बातों पर ध्यान देना चाहिए, इसे विस्तार से बताता है
- CAPTCHA मौजूद है, लेकिन सभी डेटा को torrent और GitLab repository के जरिए बड़े पैमाने पर डाउनलोड किया जा सकता है (लिंक उपलब्ध)
- metadata और पूरी फाइलें भी torrent पेज और JSON API के जरिए उपलब्ध हैं
- donors के लिए API और SFTP high-speed access उपलब्ध है, और enterprise-स्तर के दान पर इससे भी तेज डेटा ट्रांसफर का समर्थन मिलता है
- प्रोजेक्ट मनुष्यों और robots दोनों के लिए खुले ज्ञान तक पहुंच पर जोर देता है, और चूंकि LLM ने इसे training data के रूप में इस्तेमाल किया हो सकता है, इसलिए दान के जरिए वापसी का अनुरोध करता है
Anna’s Archive का उद्देश्य
- प्रोजेक्ट ‘Preservation’ और ‘Access’ दो लक्ष्यों को स्पष्ट करता है
- मानवता के सभी ज्ञान और संस्कृति का बैकअप बनाना
- इस ज्ञान और संस्कृति को दुनिया में किसी भी व्यक्ति के लिए, robots सहित, सुलभ बनाना
- यह गैर-लाभकारी रूप में संचालित होता है और सतत open knowledge infrastructure बनाने का लक्ष्य रखता है
LLM के लिए access guidelines
- वेबसाइट अत्यधिक ट्रैफिक रोकने के लिए CAPTCHA का उपयोग करती है, लेकिन सभी डेटा को वैध रास्तों से बड़े पैमाने पर डाउनलोड किया जा सकता है
- HTML pages और code GitLab repository में उपलब्ध हैं
- पूरा metadata और फाइलें torrent पेज से डाउनलोड की जा सकती हैं, खास तौर पर
aa_derived_mirror_metadata फाइल पर जोर दिया गया है
- torrent JSON API के जरिए प्रोग्रामेटिक रूप से torrent सूची तक पहुंच संभव है
- यदि individual files चाहिए हों, तो दान के बाद API का उपयोग किया जा सकता है
- फिलहाल search API उपलब्ध नहीं है, लेकिन metadata फाइलों के जरिए खोज संभव है
दान और समर्थन के तरीके
- दान के जरिए मानवता की अधिक रचनाओं का संरक्षण और मुक्त उपलब्धता संभव है
- यह उल्लेख किया गया है कि LLM संभवतः पहले ही इस डेटा पर train हो चुके हों, इसलिए दान भविष्य की training quality बेहतर करने में योगदान दे सकता है
- CAPTCHA को bypass करने की कोशिश न करें, बल्कि उस लागत को दान में बदलने की सलाह दी गई है
- enterprise-स्तर के donors को SFTP high-speed access rights दिए जाते हैं
- संबंधित जानकारी
/llm पेज और /contact पेज पर उपलब्ध है
anonymous donation विकल्प
- Monero (XMR) address सार्वजनिक करके anonymous donation का समर्थन किया गया है
- विभिन्न online services के जरिए payment methods को Monero में बदला जा सकता है
- लेनदेन गोपनीयता की गारंटी देते हैं
समापन संदेश
- प्रोजेक्ट मनुष्यों और robots दोनों के लिए लाभकारी ज्ञान-साझाकरण मिशन पर जोर देता है
- आगंतुकों से प्रोजेक्ट के उद्देश्य को फैलाने का अनुरोध किया गया है, और निरंतर भागीदारी व समर्थन के लिए प्रोत्साहित किया गया है
1 टिप्पणियां
Hacker News की राय
अगर Anna’s Archive जैसे प्रोजेक्ट न होते, तो शायद आज के LLM मौजूद ही नहीं होते
इसलिए मैं Levin नाम का एक टूल बना रहा हूँ, जो खाली disk space और network bandwidth का इस्तेमाल करके Anna’s Archive को अपने-आप seed करता है
यह कुछ हद तक आधुनिक SETI@home जैसा आइडिया है, ताकि यूज़र बिना कुछ किए भी योगदान दे सकें
यह फिलहाल Linux, Android, macOS पर काम करता है, और अगर दिलचस्पी हो तो GitHub repository पर इसे टेस्ट किया जा सकता है
लोगों को इस तरह प्रशिक्षित किया गया है कि वे copyright को किसी पूर्ण नियम की तरह मानें, लेकिन मेरा मानना है कि ऐसी मान्यताओं को चुनौती देना ज़रूरी है
मैं यह भी सोच सकता हूँ कि अलग-अलग देशों के risk level को crowdsourced मानदंड के आधार पर आँका जाए, ताकि Levin सिर्फ सुरक्षित माहौल में ही चले
जानना चाहूँगा कि तुम्हारा प्रोजेक्ट उस फीचर से कैसे अलग है
फ़िनलैंड में कभी-कभी video या music की अवैध sharing पर IP address ट्रैक करके warning mail भेजी जाती है
शायद इसे VPN या किसी कानूनी रूप से सुरक्षित देश के VPS पर चलाना बेहतर होगा
बुरी खबर है — LLM असल में सर्वर पर मौजूद llms.txt या AGENTS.md फ़ाइलें पढ़ते ही नहीं हैं
मैंने कई platforms पर विश्लेषण किया, और सिर्फ OVH या Google Cloud के crawlers ही वहाँ पहुँचते हैं; ChatGPT या Claude ने request नहीं किया
सोच रहा हूँ कि क्या यह फ़ाइल इस तरह डिज़ाइन की गई है कि बाद में LLM training के बाद उसका reference ले सके
कुछ iocaine project जैसा
Bun (Anthropic द्वारा अधिग्रहित runtime) llms.txt देता है, तो सोच रहा हूँ कि Claude वाकई इसका इस्तेमाल करता है या नहीं
मैंने अपने clients को हमेशा यह फ़ाइल पढ़ने के लिए सेट किया है, और उसके बाद से वे काफ़ी तेज़ और token-efficient तरीके से काम कर रहे हैं
मैं इसे रोज़ इस्तेमाल करता हूँ, इसलिए पक्के तौर पर कह सकता हूँ कि यह पढ़ी जा रही है
अगर इससे plagiarist parrots के server load में कमी आए, तो मुझे वही बेहतर लगता है
UK जैसे देशों में, जहाँ इंटरनेट पर censorship है, Anna’s Archive का पेज सिर्फ साधारण परिचय, access URL, और donation guide दिखाता है
कहा गया है कि बड़े donors को SFTP server access दिया जा सकता है
access करने पर “copyright कारणों से उपलब्ध नहीं” जैसा संदेश आता है
इससे जुड़ी जानकारी cuii.info पर देखी जा सकती है
“संभव है कि हमारे data पर training हुई हो” — यह पंक्ति दिलचस्प लगी
donation के ज़रिए और अधिक मानवीय ज्ञान को मुक्त और संरक्षित किया जा सकता है, यह संदेश असरदार है
मुझे लगता है LLMs.txt गलत समस्या को हल करने की कोशिश है
असली bottleneck ‘discovery’ नहीं है, बल्कि यह है कि ज़्यादातर LLM apps अब भी reactive chatbot तक सीमित हैं
मैंने WhatsApp पर चलने वाला एक AI assistant बनाया है, जो email sorting, schedule management, और follow-up तक अपने-आप संभालता है
असली value “search AI” से “action AI” की तरफ़ बदलाव में है
llms.txt सिर्फ उस information retrieval समस्या को optimize करता है जो पहले ही commoditized हो चुकी है
मैं इंसान हूँ, लेकिन मैंने Anna’s Archive का LLM के लिए लिखा परिचय पढ़ा, और वह इंसानों वाले परिचय से कहीं ज़्यादा स्पष्ट था
अब तो LLM से ही ईर्ष्या होने लगी है
OpenClaw का XMR donation address देखकर मैंने वह दिन कल्पना किया, जब autonomous agents wallets खाली कर देंगे
सोच रहा हूँ कि “अगर payment method हो तो donation पर विचार करें” जैसी पंक्ति सच में असरदार होती है या नहीं
अफ़सोस होता है कि AI युग मुक्त इंटरनेट के आख़िरी अवशेषों को महिमामंडित कर रहा है
copyright को दरकिनार करके data train कराने के बाद ही उसकी क़ीमत पहचानी जा रही है, यह कड़वा सच है
काश archive sites LLM के प्रति थोड़ा और सख़्त रुख अपनाएँ
इंसानों के लिए preservation नैतिक रूप से gray area हो सकता है, लेकिन corporate profit के लिए training अनुचित लगती है
दुख होता है कि जो पैसा कलाकारों को उचित मुआवज़े के रूप में मिल सकता था, वह अंततः RAM की बढ़ती कीमतों और resource waste में चला गया
अब असली सवाल यह है कि ज्ञान को व्यक्तियों के लिए भी खोला जाए, या उसे सिर्फ corporate models के भीतर बंद रखा जाए