12 पॉइंट द्वारा GN⁺ 2026-02-19 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • मानवता के ज्ञान और संस्कृति के संरक्षण तथा पहुंच का विस्तार को लक्ष्य बनाने वाले गैर-लाभकारी प्रोजेक्ट Anna's Archive ने LLM (बड़े भाषा मॉडल) के लिए एक मार्गदर्शिका प्रकाशित की है
  • प्रोजेक्ट अपने लक्ष्य को समझाते हुए, LLM होने पर किन बातों पर ध्यान देना चाहिए, इसे विस्तार से बताता है
    • CAPTCHA मौजूद है, लेकिन सभी डेटा को torrent और GitLab repository के जरिए बड़े पैमाने पर डाउनलोड किया जा सकता है (लिंक उपलब्ध)
    • metadata और पूरी फाइलें भी torrent पेज और JSON API के जरिए उपलब्ध हैं
  • donors के लिए API और SFTP high-speed access उपलब्ध है, और enterprise-स्तर के दान पर इससे भी तेज डेटा ट्रांसफर का समर्थन मिलता है
  • प्रोजेक्ट मनुष्यों और robots दोनों के लिए खुले ज्ञान तक पहुंच पर जोर देता है, और चूंकि LLM ने इसे training data के रूप में इस्तेमाल किया हो सकता है, इसलिए दान के जरिए वापसी का अनुरोध करता है

Anna’s Archive का उद्देश्य

  • प्रोजेक्ट ‘Preservation’ और ‘Access’ दो लक्ष्यों को स्पष्ट करता है
    • मानवता के सभी ज्ञान और संस्कृति का बैकअप बनाना
    • इस ज्ञान और संस्कृति को दुनिया में किसी भी व्यक्ति के लिए, robots सहित, सुलभ बनाना
  • यह गैर-लाभकारी रूप में संचालित होता है और सतत open knowledge infrastructure बनाने का लक्ष्य रखता है

LLM के लिए access guidelines

  • वेबसाइट अत्यधिक ट्रैफिक रोकने के लिए CAPTCHA का उपयोग करती है, लेकिन सभी डेटा को वैध रास्तों से बड़े पैमाने पर डाउनलोड किया जा सकता है
    • HTML pages और code GitLab repository में उपलब्ध हैं
    • पूरा metadata और फाइलें torrent पेज से डाउनलोड की जा सकती हैं, खास तौर पर aa_derived_mirror_metadata फाइल पर जोर दिया गया है
    • torrent JSON API के जरिए प्रोग्रामेटिक रूप से torrent सूची तक पहुंच संभव है
  • यदि individual files चाहिए हों, तो दान के बाद API का उपयोग किया जा सकता है
    • फिलहाल search API उपलब्ध नहीं है, लेकिन metadata फाइलों के जरिए खोज संभव है

दान और समर्थन के तरीके

  • दान के जरिए मानवता की अधिक रचनाओं का संरक्षण और मुक्त उपलब्धता संभव है
    • यह उल्लेख किया गया है कि LLM संभवतः पहले ही इस डेटा पर train हो चुके हों, इसलिए दान भविष्य की training quality बेहतर करने में योगदान दे सकता है
  • CAPTCHA को bypass करने की कोशिश न करें, बल्कि उस लागत को दान में बदलने की सलाह दी गई है
  • enterprise-स्तर के donors को SFTP high-speed access rights दिए जाते हैं
    • संबंधित जानकारी /llm पेज और /contact पेज पर उपलब्ध है

anonymous donation विकल्प

  • Monero (XMR) address सार्वजनिक करके anonymous donation का समर्थन किया गया है
    • विभिन्न online services के जरिए payment methods को Monero में बदला जा सकता है
    • लेनदेन गोपनीयता की गारंटी देते हैं

समापन संदेश

  • प्रोजेक्ट मनुष्यों और robots दोनों के लिए लाभकारी ज्ञान-साझाकरण मिशन पर जोर देता है
  • आगंतुकों से प्रोजेक्ट के उद्देश्य को फैलाने का अनुरोध किया गया है, और निरंतर भागीदारी व समर्थन के लिए प्रोत्साहित किया गया है

1 टिप्पणियां

 
GN⁺ 2026-02-19
Hacker News की राय
  • अगर Anna’s Archive जैसे प्रोजेक्ट न होते, तो शायद आज के LLM मौजूद ही नहीं होते
    इसलिए मैं Levin नाम का एक टूल बना रहा हूँ, जो खाली disk space और network bandwidth का इस्तेमाल करके Anna’s Archive को अपने-आप seed करता है
    यह कुछ हद तक आधुनिक SETI@home जैसा आइडिया है, ताकि यूज़र बिना कुछ किए भी योगदान दे सकें
    यह फिलहाल Linux, Android, macOS पर काम करता है, और अगर दिलचस्पी हो तो GitHub repository पर इसे टेस्ट किया जा सकता है

    • ज़्यादातर प्रतिक्रियाएँ नकारात्मक हैं, लेकिन मुझे तो यह आइडिया शानदार लगता है
      लोगों को इस तरह प्रशिक्षित किया गया है कि वे copyright को किसी पूर्ण नियम की तरह मानें, लेकिन मेरा मानना है कि ऐसी मान्यताओं को चुनौती देना ज़रूरी है
      मैं यह भी सोच सकता हूँ कि अलग-अलग देशों के risk level को crowdsourced मानदंड के आधार पर आँका जाए, ताकि Levin सिर्फ सुरक्षित माहौल में ही चले
    • Anna’s Archive में पहले से एक फीचर है जो उपलब्ध storage के हिसाब से ज़्यादा महत्वपूर्ण data अपने-आप download करता है
      जानना चाहूँगा कि तुम्हारा प्रोजेक्ट उस फीचर से कैसे अलग है
    • यह किसी अनोखे तरीके से DMCA warning letter पाने का तरीका लगता है
    • सोच रहा हूँ कि आजकल P2P crackdown की स्थिति कैसी है
      फ़िनलैंड में कभी-कभी video या music की अवैध sharing पर IP address ट्रैक करके warning mail भेजी जाती है
    • प्रोजेक्ट बढ़िया है, लेकिन कानूनी risk साफ़-साफ़ बताना अच्छा रहेगा
      शायद इसे VPN या किसी कानूनी रूप से सुरक्षित देश के VPS पर चलाना बेहतर होगा
  • बुरी खबर है — LLM असल में सर्वर पर मौजूद llms.txt या AGENTS.md फ़ाइलें पढ़ते ही नहीं हैं
    मैंने कई platforms पर विश्लेषण किया, और सिर्फ OVH या Google Cloud के crawlers ही वहाँ पहुँचते हैं; ChatGPT या Claude ने request नहीं किया

    • शायद यह बस कोई scraper mechanism है जो data उठा रहा है, LLM खुद सीधे नहीं पढ़ रहा
      सोच रहा हूँ कि क्या यह फ़ाइल इस तरह डिज़ाइन की गई है कि बाद में LLM training के बाद उसका reference ले सके
    • मुझे लगता है कि LLM crawlers को नकली data खिलाना ही सबसे अच्छा बचाव है
      कुछ iocaine project जैसा
    • क्या crawlers block से बचने के लिए किसी और नाम से छिपकर आ रहे होंगे?
      Bun (Anthropic द्वारा अधिग्रहित runtime) llms.txt देता है, तो सोच रहा हूँ कि Claude वाकई इसका इस्तेमाल करता है या नहीं
    • llms.txt बड़ी LLM कंपनियों के लिए नहीं, बल्कि individual client agents के लिए है
      मैंने अपने clients को हमेशा यह फ़ाइल पढ़ने के लिए सेट किया है, और उसके बाद से वे काफ़ी तेज़ और token-efficient तरीके से काम कर रहे हैं
      मैं इसे रोज़ इस्तेमाल करता हूँ, इसलिए पक्के तौर पर कह सकता हूँ कि यह पढ़ी जा रही है
    • बल्कि यह तो अच्छी खबर है
      अगर इससे plagiarist parrots के server load में कमी आए, तो मुझे वही बेहतर लगता है
  • UK जैसे देशों में, जहाँ इंटरनेट पर censorship है, Anna’s Archive का पेज सिर्फ साधारण परिचय, access URL, और donation guide दिखाता है
    कहा गया है कि बड़े donors को SFTP server access दिया जा सकता है

    • जर्मनी में भी इसे censor किया गया है
      access करने पर “copyright कारणों से उपलब्ध नहीं” जैसा संदेश आता है
      इससे जुड़ी जानकारी cuii.info पर देखी जा सकती है
    • सलाह है कि ISP का DNS इस्तेमाल न करो, बल्कि non-censoring DNS provider पर switch करो
    • मैं UK में रहता हूँ, लेकिन ISP और mobile data दोनों पर सामान्य access मिल रहा है
    • मैं भी UK में हूँ और यह पूरी तरह काम कर रहा है। शायद ISP बदलना ही हल है
    • Vodafone broadband और cellular, दोनों पर बिना दिक्कत access हो रहा है
  • “संभव है कि हमारे data पर training हुई हो” — यह पंक्ति दिलचस्प लगी
    donation के ज़रिए और अधिक मानवीय ज्ञान को मुक्त और संरक्षित किया जा सकता है, यह संदेश असरदार है

    • लेकिन वह उनका data नहीं है
  • मुझे लगता है LLMs.txt गलत समस्या को हल करने की कोशिश है
    असली bottleneck ‘discovery’ नहीं है, बल्कि यह है कि ज़्यादातर LLM apps अब भी reactive chatbot तक सीमित हैं
    मैंने WhatsApp पर चलने वाला एक AI assistant बनाया है, जो email sorting, schedule management, और follow-up तक अपने-आप संभालता है
    असली value “search AI” से “action AI” की तरफ़ बदलाव में है
    llms.txt सिर्फ उस information retrieval समस्या को optimize करता है जो पहले ही commoditized हो चुकी है

    • इस तरह की चर्चा इतनी बढ़ गई है कि अब शायद HN comments के लिए llms.txt भी चाहिए होगा
  • मैं इंसान हूँ, लेकिन मैंने Anna’s Archive का LLM के लिए लिखा परिचय पढ़ा, और वह इंसानों वाले परिचय से कहीं ज़्यादा स्पष्ट था

    • जब मैंने पहली बार Anna’s Archive के बारे में जाना था, तब file access और API की जानकारी पर्याप्त न होने से काफ़ी झुंझलाहट हुई थी
      अब तो LLM से ही ईर्ष्या होने लगी है
  • OpenClaw का XMR donation address देखकर मैंने वह दिन कल्पना किया, जब autonomous agents wallets खाली कर देंगे

  • सोच रहा हूँ कि “अगर payment method हो तो donation पर विचार करें” जैसी पंक्ति सच में असरदार होती है या नहीं

    • अभी निष्कर्ष निकालना जल्दी होगा, लेकिन tech industry में बिना सबूत के रूढ़ि बन चुके मंत्र बहुत हैं
    • payment वाले हिस्से में safeguards ज़रूर होने चाहिए। कोई दूसरी site prompt injection के ज़रिए पैसे निकलवा सकती है
    • बल्कि किसी persuasion-specialist LLM से बात कराकर सारा पैसा निकलवाया भी जा सकता है
  • अफ़सोस होता है कि AI युग मुक्त इंटरनेट के आख़िरी अवशेषों को महिमामंडित कर रहा है
    copyright को दरकिनार करके data train कराने के बाद ही उसकी क़ीमत पहचानी जा रही है, यह कड़वा सच है

  • काश archive sites LLM के प्रति थोड़ा और सख़्त रुख अपनाएँ
    इंसानों के लिए preservation नैतिक रूप से gray area हो सकता है, लेकिन corporate profit के लिए training अनुचित लगती है
    दुख होता है कि जो पैसा कलाकारों को उचित मुआवज़े के रूप में मिल सकता था, वह अंततः RAM की बढ़ती कीमतों और resource waste में चला गया

    • जब AI labs पूरे इंटरनेट को scrape कर चुकी हैं, तब अब का विरोध काफ़ी हद तक औपचारिक लगता है
      अब असली सवाल यह है कि ज्ञान को व्यक्तियों के लिए भी खोला जाए, या उसे सिर्फ corporate models के भीतर बंद रखा जाए