Google Books या समान पूर्ण पुस्तक स्कैन के लिए $200,000 इनाम की पेशकश (2025)
(software.annas-archive.gl)- Anna’s Archive ने Google Books के सभी पुस्तक स्कैन या इसी पैमाने के किसी संग्रह को हासिल करने के लिए $200,000 इनाम घोषित किया है
- फिलहाल Google Books तक पहुंच मुख्य रूप से search results के आसपास दिखने वाले छोटे snippets तक सीमित है, इसलिए archive के नजरिए से full scans हासिल करना एक प्रमुख लक्ष्य माना जा रहा है
- अगर किसी ने कोई scalable तरीका खोज लिया है, तो पूरा काम खत्म होने का इंतजार न करते हुए prototype चरण में ही संपर्क करने को कहा गया है
- Google के अंदर access रखने वाले लोग भी इसके दायरे में हैं, और बिना images के सिर्फ OCR text हासिल होने पर भी इनाम का आधा हिस्सा दिया जा सकता है
- यह केवल Google Books तक सीमित नहीं है; AI कंपनियों आदि द्वारा इकट्ठा किए गए rare books सहित बड़े पैमाने के collection पर भी लागू है
इनाम का दायरा और भागीदारी की शर्तें
- Anna’s Archive, Google Books या समान पूर्ण पुस्तक स्कैन हासिल करने के लिए $200,000 इनाम दे रहा है
- काम शुरू करने से पहले Anna’s Archive की bounties guide को ध्यान से पढ़ना चाहिए
- Google Books के पास बड़ी संख्या में scanned books हैं, लेकिन search के जरिए पहुंचने पर फिलहाल नतीजों के आसपास के छोटे snippets ही दिखाई देते हैं
- अगर कोई तरीका scalable लगता है, तो final version का इंतजार किए बिना prototype के साथ जल्दी संपर्क करने को कहा गया है
- बाद में scaling के काम में Anna’s Archive मदद कर सकता है
- Google में काम करने वाले और उस data तक पहुंच रखने वाले लोग भी इनाम के पात्र हैं
- लिखा गया है कि $200,000 शायद बहुत बड़ी रकम न हो, लेकिन अगर कोई यह data बाहर ला सके, तो उसे “legendary archivist” कहा जाएगा
- यह इनाम Google Books के अलावा इसी तरह के बड़े collection पर भी लागू है
- उदाहरण के तौर पर AI कंपनियों द्वारा इकट्ठा किए गए collection का उल्लेख किया गया है
- खासकर वे collection जिनमें काफी संख्या में rare books शामिल हों
टिप्पणियों में संक्षेपित पैमाना और डिलीवरी का तरीका
- एक टिप्पणी में पूरे archive का आकार copyrighted material सहित लगभग 7PB बताया गया, लेकिन बाद में इसे सुधारकर लगभग 1.5PB कहा गया, और यह भी जोड़ा गया कि इसमें IUPUI site की प्रतिलिपि शामिल है
- public domain और author-released materials का आकार लगभग 300TB बताया गया है
- Anna’s Archive ने जवाब दिया कि अगर public domain और author-released materials के लिए अभी तक कोई scrape मौजूद नहीं है, तो वह इसके लिए अलग इनाम जोड़ने को तैयार है
- केवल OCR text बाहर लाने की स्थिति में, full images नहीं होने पर भी, इस इनाम के उद्देश्य से आधा भुगतान किया जा सकता है
- बड़ी मात्रा में data हासिल होने पर उसे देने के तरीके के रूप में SFTP या समान तरीका उल्लेखित किया गया है
- issue का शीर्षक 7 जून 2025 को
Google Books (or similar) all book scans — $200,000 bountyमें बदल दिया गया
1 टिप्पणियां
Hacker News टिप्पणियाँ
मैं ऐसे देश में रहता/रहती हूँ जहाँ अंग्रेज़ी किताबें पाना मुश्किल है, और विदेश से online खरीद में प्रशासनिक प्रक्रियाएँ और पाबंदियाँ बहुत ज़्यादा हैं
अगर Anna's Archive और Z-Library न होते, तो शायद मैं उन किताबों को कभी पढ़ ही नहीं पाता/पाती जिन्होंने मुझे आज जैसा बनाया, और सीखने का उत्साह बनाए रखना भी मुश्किल होता
उन लेखकों का भी आभारी/आभारी हूँ जिनकी किताबों से बिना कीमत चुका पाए ज्ञान मिला
ज्ञान शून्य में पैदा नहीं हुआ; वह सबका है
पहले Reddit पर एक लेखक ने आँकड़े साझा किए थे कि उनकी किताब piracy साइटों पर आने के बाद वास्तविक बिक्री ढह गई थी
इसलिए मैं खासकर programming books यथासंभव खरीदने की कोशिश करता/करती हूँ, और PDF को preview की तरह इस्तेमाल करता/करती हूँ. उल्टा, उसी वजह से मैं पहले से कहीं ज़्यादा खरीदने लगा/लगी हूँ
बेशक, अगर आप ऐसे क्षेत्र में रहते हैं जहाँ खरीदना ही संभव नहीं, तो बात अलग है, लेकिन ऐसी साइटों की तारीफ़ करते समय लोग अक्सर सिर्फ़ सकारात्मक पहलू ही देखते हैं
Kobo पर EPUB भेजने के लिए यह एक अहम tool है
https://SourceLibrary.org पर दुर्लभ पुस्तकों के लगभग 16,000 अनुवाद हैं, और उनमें से ज़्यादातर पहले अनुवाद हैं
संग्रहित किताबें 50,000 हैं और funding मिलते ही उनका अनुवाद करने की योजना है, token count अंग्रेज़ी Wikipedia से भी ज़्यादा है, और आकार लगभग 0.75PB है
पता नहीं यह bounty के दायरे में आएगा या नहीं, लेकिन साझा करना चाहता/चाहती था/थी, और Renaissance साहित्य के अनुवाद में मदद करने वाले छोटे और बड़े donors की तलाश है
यह तुरंत समझना मुश्किल है कि ठीक-ठीक क्या-क्या संरक्षित किया गया है, लेकिन मेरे academic historian दोस्तों में कुछ लोग खास क्षेत्रों में रुचि ले सकते हैं, और कुछ कठिन भाषाओं के सत्यापन में भी मदद कर सकते हैं
सोच रहा/रही हूँ कि क्या region या language के हिसाब से search संभव है
यह भी जानना चाहता/चाहती हूँ कि क्या आपने historians से इस project को लेकर संपर्क किया है. लगता है कि PhD students को यहाँ से research topics मिल सकते हैं
timeline https://sourcelibrary.org/timeline देखते समय मुझे error मिला
कल Anna's Archive ने सचमुच मदद की
मैं कई दिनों से 2000 के शुरुआती दशक की एक programming किताब के साथ आने वाली CD की ZIP file ढूँढ रहा/रही था/थी. सारे used listings में CD गायब थी, search से कुछ नहीं मिला, और LLM भी नहीं ढूँढ पाया
ChatGPT बार-बार कहता रहा कि वह archive में है, लेकिन असल में नहीं थी. फिर एहतियातन AA पर गया/गई तो वहाँ 1st edition और 2nd edition, दोनों के ZIP files मिल गए. सचमुच उद्धारक जैसा लगा
सोचता/सोचती हूँ कि internet scraping पर भी bounty आने में कितना समय लगेगा
Cloudflare CAPTCHA की वजह से मेरे लिए internet लगभग इस्तेमाल न कर पाने लायक हो गया है, और लगता है आगे यह और बदतर होगा
बेहतर है कि archive.is जैसी साइटों की copies देख ली जाएँ या torrent से ले लिया जाए. दूसरा तरीका privacy के लिए भी कहीं बेहतर है, और वैसे भी मैं ad blocker इस्तेमाल करता/करती हूँ
smart TV भी हो सकता है. कारण ढूँढकर हटा दें तो IP reputation सुधर सकती है और CAPTCHA कम दिख सकते हैं
यहाँ ऐसा एक छोटा conflict of interest है
जानना चाहता/चाहती हूँ कि Anna's Archive के पीछे कौन है. team और forum में बहुत से अंग्रेज़ीभाषी लोग दिखते हैं
वैसे भी, जब तक खरीद का मतलब ownership नहीं है, मुझे इसमें कोई समस्या नहीं लगती
https://redlib.catsarch.com/r/Annas_Archive/comments/1f6h74r/im_curious_actually_who_is_anna/
https://reddit.com/r/Annas_Archive/comments/1f6h74r/im_curious_actually_who_is_anna/
और अगर paperback खरीदें, तो खरीद सचमुच ownership होती है, इसलिए किताबों के मामले में वह वाक्य थोड़ा अनुपयुक्त लगता है
लेकिन उससे भी ज़्यादा हैरानी की बात यह है कि विकल्प इतने कम हैं. Facebook वगैरह ने LibGen के खिलाफ़ लड़ाई छेड़ी और उसके नीचे जाने के बाद भी विकल्प उम्मीद से बहुत कम रहे; Anna's Archive गिने-चुने विकल्पों में से एक था
LibGen के साथ ठीक-ठीक क्या हुआ, यह अब भी नहीं पता, लेकिन उस हमले के बाद से वह लगभग आधा गायब-सा लगता है
“bounty पर काम शुरू करने से पहले [this] को ध्यान से पढ़ें” इस वाक्य में [this] .li पते पर जाता है, जो एक ख़तरनाक जगह पर ले जाता है
सही पता https://annas-archive.gl/volunteering#bounties होना चाहिए
अगर कोई अभी Google में नौकरी से निकाले जाने की चिंता कर रहा है, तो शायद यह उसका backup plan हो सकता है
और जिन बहुत कम लोगों के पास access होगा, उनमें भी अगर कोई content का बहुत छोटा हिस्सा भी download करना शुरू करे, तो automated system के पकड़ लेने की संभावना काफी ज़्यादा है
वे जो दूसरे दिलचस्प bounty tasks दे रहे हैं: https://software.annas-archive.gl/AnnaArchivist/annas-archive/-/work_items?label_name%5B%5D=2-Bounty
Library of Congress MARC dataset की पूरी खरीद — $3,000 bounty
संबंधित संस्थानों के लिए English Wikipedia pages — हर नए page पर अधिकतम $100
Internet Archive Digital Lending — हर 10 लाख PDF पर $5,000
पूरी library का text version — $20,000 आदि
https://software.annas-archive.gl/AnnaArchivist/annas-archive/-/work_items/194
आगे piracy और copyright का क्या होगा, यह सोचने वाली बात है
अभी जैसी lending-केंद्रित स्थिति है, वह टिकाऊ नहीं लगती। आसपास के आम लोग भी अब VPN और NAS जैसी चीज़ों के बारे में काफी जानने लगे हैं
Spotify, Netflix, Amazon वगैरह ने कुछ समय तक ठीक-ठाक value दी, लेकिन अब जब service degradation सचमुच तेज़ हो रही है, तो बड़े पैमाने पर वापसी होने का समय आ गया है
संभव है कि Gemini को पहले ही उन किताबों पर train किया जा चुका हो, इसलिए सिद्धांततः वह कुछ वाक्य ज्यों-का-त्यों उगल भी सकता है
पहले NYT द्वारा OpenAI पर दायर मुकदमे में भी ऐसे उदाहरण सामने आए थे
बस यह lossless compression नहीं है; यह वह तरीका है जिसमें next-token prediction task के लिए ज़रूरी हिस्से बचा लिए जाते हैं और बाकी की नकल करने का तरीका खोज लिया जाता है