1 पॉइंट द्वारा GN⁺ 4 시간 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Anna’s Archive ने Google Books के सभी पुस्तक स्कैन या इसी पैमाने के किसी संग्रह को हासिल करने के लिए $200,000 इनाम घोषित किया है
  • फिलहाल Google Books तक पहुंच मुख्य रूप से search results के आसपास दिखने वाले छोटे snippets तक सीमित है, इसलिए archive के नजरिए से full scans हासिल करना एक प्रमुख लक्ष्य माना जा रहा है
  • अगर किसी ने कोई scalable तरीका खोज लिया है, तो पूरा काम खत्म होने का इंतजार न करते हुए prototype चरण में ही संपर्क करने को कहा गया है
  • Google के अंदर access रखने वाले लोग भी इसके दायरे में हैं, और बिना images के सिर्फ OCR text हासिल होने पर भी इनाम का आधा हिस्सा दिया जा सकता है
  • यह केवल Google Books तक सीमित नहीं है; AI कंपनियों आदि द्वारा इकट्ठा किए गए rare books सहित बड़े पैमाने के collection पर भी लागू है

इनाम का दायरा और भागीदारी की शर्तें

  • Anna’s Archive, Google Books या समान पूर्ण पुस्तक स्कैन हासिल करने के लिए $200,000 इनाम दे रहा है
  • काम शुरू करने से पहले Anna’s Archive की bounties guide को ध्यान से पढ़ना चाहिए
  • Google Books के पास बड़ी संख्या में scanned books हैं, लेकिन search के जरिए पहुंचने पर फिलहाल नतीजों के आसपास के छोटे snippets ही दिखाई देते हैं
  • अगर कोई तरीका scalable लगता है, तो final version का इंतजार किए बिना prototype के साथ जल्दी संपर्क करने को कहा गया है
    • बाद में scaling के काम में Anna’s Archive मदद कर सकता है
  • Google में काम करने वाले और उस data तक पहुंच रखने वाले लोग भी इनाम के पात्र हैं
    • लिखा गया है कि $200,000 शायद बहुत बड़ी रकम न हो, लेकिन अगर कोई यह data बाहर ला सके, तो उसे “legendary archivist” कहा जाएगा
  • यह इनाम Google Books के अलावा इसी तरह के बड़े collection पर भी लागू है
    • उदाहरण के तौर पर AI कंपनियों द्वारा इकट्ठा किए गए collection का उल्लेख किया गया है
    • खासकर वे collection जिनमें काफी संख्या में rare books शामिल हों

टिप्पणियों में संक्षेपित पैमाना और डिलीवरी का तरीका

  • एक टिप्पणी में पूरे archive का आकार copyrighted material सहित लगभग 7PB बताया गया, लेकिन बाद में इसे सुधारकर लगभग 1.5PB कहा गया, और यह भी जोड़ा गया कि इसमें IUPUI site की प्रतिलिपि शामिल है
  • public domain और author-released materials का आकार लगभग 300TB बताया गया है
  • Anna’s Archive ने जवाब दिया कि अगर public domain और author-released materials के लिए अभी तक कोई scrape मौजूद नहीं है, तो वह इसके लिए अलग इनाम जोड़ने को तैयार है
  • केवल OCR text बाहर लाने की स्थिति में, full images नहीं होने पर भी, इस इनाम के उद्देश्य से आधा भुगतान किया जा सकता है
  • बड़ी मात्रा में data हासिल होने पर उसे देने के तरीके के रूप में SFTP या समान तरीका उल्लेखित किया गया है
  • issue का शीर्षक 7 जून 2025 को Google Books (or similar) all book scans — $200,000 bounty में बदल दिया गया

1 टिप्पणियां

 
GN⁺ 4 시간 전
Hacker News टिप्पणियाँ
  • मैं ऐसे देश में रहता/रहती हूँ जहाँ अंग्रेज़ी किताबें पाना मुश्किल है, और विदेश से online खरीद में प्रशासनिक प्रक्रियाएँ और पाबंदियाँ बहुत ज़्यादा हैं
    अगर Anna's Archive और Z-Library न होते, तो शायद मैं उन किताबों को कभी पढ़ ही नहीं पाता/पाती जिन्होंने मुझे आज जैसा बनाया, और सीखने का उत्साह बनाए रखना भी मुश्किल होता
    उन लेखकों का भी आभारी/आभारी हूँ जिनकी किताबों से बिना कीमत चुका पाए ज्ञान मिला

    • आधा मज़ाक, आधा गंभीरता से कोई यह कह सकता है कि फिर क्या मेरी पूरी ज़िंदगी अपराध की कमाई की बदौलत है, लेकिन ज्ञान मुक्त होना चाहिए
      ज्ञान शून्य में पैदा नहीं हुआ; वह सबका है
    • मैं उस नज़रिए को समझता/समझती हूँ, लेकिन अगर लेखक कमाई न कर पाते, तो संभव है कि उन किताबों में से काफ़ी किताबें शुरू से अस्तित्व में ही न आतीं
      पहले Reddit पर एक लेखक ने आँकड़े साझा किए थे कि उनकी किताब piracy साइटों पर आने के बाद वास्तविक बिक्री ढह गई थी
      इसलिए मैं खासकर programming books यथासंभव खरीदने की कोशिश करता/करती हूँ, और PDF को preview की तरह इस्तेमाल करता/करती हूँ. उल्टा, उसी वजह से मैं पहले से कहीं ज़्यादा खरीदने लगा/लगी हूँ
      बेशक, अगर आप ऐसे क्षेत्र में रहते हैं जहाँ खरीदना ही संभव नहीं, तो बात अलग है, लेकिन ऐसी साइटों की तारीफ़ करते समय लोग अक्सर सिर्फ़ सकारात्मक पहलू ही देखते हैं
    • अच्छा है कि username में location लिखा है. आजकल online सबसे ज़्यादा खीझ तब होती है जब लोग “हमारे देश में” कहते हैं और आख़िर तक यह नहीं बताते कि कौन सा देश
    • https://send.djazz.se/
      Kobo पर EPUB भेजने के लिए यह एक अहम tool है
  • https://SourceLibrary.org पर दुर्लभ पुस्तकों के लगभग 16,000 अनुवाद हैं, और उनमें से ज़्यादातर पहले अनुवाद हैं
    संग्रहित किताबें 50,000 हैं और funding मिलते ही उनका अनुवाद करने की योजना है, token count अंग्रेज़ी Wikipedia से भी ज़्यादा है, और आकार लगभग 0.75PB है
    पता नहीं यह bounty के दायरे में आएगा या नहीं, लेकिन साझा करना चाहता/चाहती था/थी, और Renaissance साहित्य के अनुवाद में मदद करने वाले छोटे और बड़े donors की तलाश है

    • नतीजा सुंदर है, जवाब भी उचित और असरदार हैं. funding के लिए paid research API जैसा मॉडल भी संभव लगता है
    • दिलचस्प लग रहा है
      यह तुरंत समझना मुश्किल है कि ठीक-ठीक क्या-क्या संरक्षित किया गया है, लेकिन मेरे academic historian दोस्तों में कुछ लोग खास क्षेत्रों में रुचि ले सकते हैं, और कुछ कठिन भाषाओं के सत्यापन में भी मदद कर सकते हैं
      सोच रहा/रही हूँ कि क्या region या language के हिसाब से search संभव है
      यह भी जानना चाहता/चाहती हूँ कि क्या आपने historians से इस project को लेकर संपर्क किया है. लगता है कि PhD students को यहाँ से research topics मिल सकते हैं
      timeline https://sourcelibrary.org/timeline देखते समय मुझे error मिला
    • अब तक यहाँ तक पहुँचने में कितना budget लगा, यह जानने की जिज्ञासा है. token count बहुत बड़ा है, और लगता है कि शायद Gemini Flash इस्तेमाल हो रहा है
  • कल Anna's Archive ने सचमुच मदद की
    मैं कई दिनों से 2000 के शुरुआती दशक की एक programming किताब के साथ आने वाली CD की ZIP file ढूँढ रहा/रही था/थी. सारे used listings में CD गायब थी, search से कुछ नहीं मिला, और LLM भी नहीं ढूँढ पाया
    ChatGPT बार-बार कहता रहा कि वह archive में है, लेकिन असल में नहीं थी. फिर एहतियातन AA पर गया/गई तो वहाँ 1st edition और 2nd edition, दोनों के ZIP files मिल गए. सचमुच उद्धारक जैसा लगा

  • सोचता/सोचती हूँ कि internet scraping पर भी bounty आने में कितना समय लगेगा
    Cloudflare CAPTCHA की वजह से मेरे लिए internet लगभग इस्तेमाल न कर पाने लायक हो गया है, और लगता है आगे यह और बदतर होगा
    बेहतर है कि archive.is जैसी साइटों की copies देख ली जाएँ या torrent से ले लिया जाए. दूसरा तरीका privacy के लिए भी कहीं बेहतर है, और वैसे भी मैं ad blocker इस्तेमाल करता/करती हूँ

    • काफ़ी संभावना है कि उसी network पर कोई Bright Data proxy से कमाई वाला game चला रहा हो. कुछ दिन पहले इस पर thread भी था
      smart TV भी हो सकता है. कारण ढूँढकर हटा दें तो IP reputation सुधर सकती है और CAPTCHA कम दिख सकते हैं
    • https://x.com/CloudflareDev/status/2031488099725754821
      यहाँ ऐसा एक छोटा conflict of interest है
  • जानना चाहता/चाहती हूँ कि Anna's Archive के पीछे कौन है. team और forum में बहुत से अंग्रेज़ीभाषी लोग दिखते हैं
    वैसे भी, जब तक खरीद का मतलब ownership नहीं है, मुझे इसमें कोई समस्या नहीं लगती

    • लगता है पीछे Anna ही है
      https://redlib.catsarch.com/r/Annas_Archive/comments/1f6h74r/im_curious_actually_who_is_anna/
      https://reddit.com/r/Annas_Archive/comments/1f6h74r/im_curious_actually_who_is_anna/
    • वहाँ की कई किताबें शायद मूल रूप से DRM-free रूप में खरीदी भी जा सकती हैं. हैरानी की बात है कि बहुत से लेखक DRM की उतनी परवाह नहीं करते
      और अगर paperback खरीदें, तो खरीद सचमुच ownership होती है, इसलिए किताबों के मामले में वह वाक्य थोड़ा अनुपयुक्त लगता है
    • लगता है मुख्य source रूस था, या फिर शायद वह LibGen था
      लेकिन उससे भी ज़्यादा हैरानी की बात यह है कि विकल्प इतने कम हैं. Facebook वगैरह ने LibGen के खिलाफ़ लड़ाई छेड़ी और उसके नीचे जाने के बाद भी विकल्प उम्मीद से बहुत कम रहे; Anna's Archive गिने-चुने विकल्पों में से एक था
      LibGen के साथ ठीक-ठीक क्या हुआ, यह अब भी नहीं पता, लेकिन उस हमले के बाद से वह लगभग आधा गायब-सा लगता है
    • अगर आपको सच में लगता है कि इसमें कोई समस्या नहीं, तो फिर खुले forum में यह क्यों पूछ रहे हैं कि इसके पीछे कौन है?
  • “bounty पर काम शुरू करने से पहले [this] को ध्यान से पढ़ें” इस वाक्य में [this] .li पते पर जाता है, जो एक ख़तरनाक जगह पर ले जाता है
    सही पता https://annas-archive.gl/volunteering#bounties होना चाहिए

  • अगर कोई अभी Google में नौकरी से निकाले जाने की चिंता कर रहा है, तो शायद यह उसका backup plan हो सकता है

    • अगर data निकालते हुए पकड़े गए, तो $200,000 से कहीं बड़े अमाउंट के मुकदमे का सामना करना पड़ेगा
    • यह संभावना कम है कि किसी सामान्य employee को पूरे archive तक access हो
      और जिन बहुत कम लोगों के पास access होगा, उनमें भी अगर कोई content का बहुत छोटा हिस्सा भी download करना शुरू करे, तो automated system के पकड़ लेने की संभावना काफी ज़्यादा है
    • इससे भी बड़ी समस्या यह है कि इसके कारण आर्थिक नुकसान होगा। शायद किसी दूसरे देश में जाकर बसने की तैयारी भी करनी पड़ सकती है
  • वे जो दूसरे दिलचस्प bounty tasks दे रहे हैं: https://software.annas-archive.gl/AnnaArchivist/annas-archive/-/work_items?label_name%5B%5D=2-Bounty
    Library of Congress MARC dataset की पूरी खरीद — $3,000 bounty
    संबंधित संस्थानों के लिए English Wikipedia pages — हर नए page पर अधिकतम $100
    Internet Archive Digital Lending — हर 10 लाख PDF पर $5,000
    पूरी library का text version — $20,000 आदि

    • यह भी दिलचस्प है कि उन्होंने operational security failure पर अधिकतम $500,000 तक लगा रखे हैं। इससे उम्मीद मिलती है कि किताबें साझा करने में योगदान देने वाले अमीर व्यक्ति हैं, या फिर बहुत सारे छोटे-छोटे donations आ रहे हैं
      https://software.annas-archive.gl/AnnaArchivist/annas-archive/-/work_items/194
  • आगे piracy और copyright का क्या होगा, यह सोचने वाली बात है
    अभी जैसी lending-केंद्रित स्थिति है, वह टिकाऊ नहीं लगती। आसपास के आम लोग भी अब VPN और NAS जैसी चीज़ों के बारे में काफी जानने लगे हैं

    • अगर देखो कि असली काम बनाने वाले लेखक और कलाकारों को कितना कम मिलता है, तो guillotine ही जवाब लगेगा
    • शुरुआत से ही यह कोई टिकाऊ ढांचा नहीं था, बल्कि बड़े intellectual property holders द्वारा regulatory capture का मामला था
      Spotify, Netflix, Amazon वगैरह ने कुछ समय तक ठीक-ठाक value दी, लेकिन अब जब service degradation सचमुच तेज़ हो रही है, तो बड़े पैमाने पर वापसी होने का समय आ गया है
  • संभव है कि Gemini को पहले ही उन किताबों पर train किया जा चुका हो, इसलिए सिद्धांततः वह कुछ वाक्य ज्यों-का-त्यों उगल भी सकता है
    पहले NYT द्वारा OpenAI पर दायर मुकदमे में भी ऐसे उदाहरण सामने आए थे

    • Gemini, GPT, Fable असल में internet content के बहुत अच्छे compressed versions हैं
      बस यह lossless compression नहीं है; यह वह तरीका है जिसमें next-token prediction task के लिए ज़रूरी हिस्से बचा लिए जाते हैं और बाकी की नकल करने का तरीका खोज लिया जाता है