2 पॉइंट द्वारा GN⁺ 2023-11-06 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Anna's Archive गुमनाम एक्टिविस्टों द्वारा चलाया जाने वाला एक गैर-लाभकारी ऑनलाइन shadow library meta search engine है। यह विभिन्न पुस्तक संसाधनों तक पहुंच प्रदान करता है
  • इन्होंने 75 लाख पुस्तकों / 350TB के बराबर चीनी non-fiction पुस्तक संग्रह हासिल किया है (जो Library Genesis से भी बड़ा है)
  • इस संग्रह पर high-quality OCR और text extraction उपलब्ध कराने के बदले, वह LLM कंपनी को 1 साल के लिए विशेष early access देने की योजना है
  • यह संग्रह Duxiu से प्राप्त किया गया, जो SuperStar Digital Library Group द्वारा बनाया गया scanned पुस्तकों का एक विशाल डेटाबेस है, और जिसे विश्वविद्यालयों व पुस्तकालयों को डिजिटल रूप में उपलब्ध कराया जाता था
  • संग्रह का कुल file size अपने वर्तमान रूप में लगभग 359TB है
  • निकाला गया text बड़े भाषा मॉडल (LLMs) की training में इस्तेमाल होगा, और Archive का मानना है कि संग्रह के चीनी भाषा में होने के बावजूद यह अंग्रेज़ी LLMs की training के लिए भी उपयोगी हो सकता है
  • Archive इस सहयोग के जरिए उपयोगकर्ताओं को advanced search functionality देना चाहता है
  • यदि सहयोगी पक्ष pipeline का पूरा code साझा करने के लिए तैयार हो, तो Archive विशेष access अवधि बढ़ाने के लिए भी तैयार है

1 टिप्पणियां

 
GN⁺ 2023-11-06
Hacker News राय
  • माना जाता है कि यह कलेक्शन लगभग 2015 के आसपास शुरू हुआ था, और इसमें लगभग 40 लाख किताबें शामिल हैं, जिनमें से कई डुप्लिकेट हैं।
  • इस कलेक्शन का स्रोत DuXiu नाम की कंपनी है, जिसने 2000 के शुरुआती दशक से चीन की लाइब्रेरीज़ के साथ मिलकर उनके कलेक्शन स्कैन किए।
  • इस कलेक्शन में अनूदित पश्चिमी पाठ्यपुस्तकें, राजनीतिक प्रचार सामग्री, और कड़ी सेंसरशिप से पहले प्रकाशित साहित्य व इतिहास की किताबों का मिश्रण है।
  • चीन की टेक कंपनियों के पास इस कलेक्शन तक पहुंच हो सकती है, लेकिन copyright और राजनीतिक जोखिमों के कारण वे इसका उपयोग न करें।
  • साइट चलाने वाले व्यक्ति को बुद्धिमान लेकिन लापरवाह माना जाता है, और संभावित कानूनी जिम्मेदारी को लेकर चिंताएँ उठाई गई हैं।
  • DuXiu को एक संसाधन के रूप में बहुत सराहा जाता है, और उम्मीद है कि एक साल के भीतर यह पूरी तरह searchable हो जाएगा।
  • चीन की सभी किताबों का केंद्रीकरण AI training के लिए फायदेमंद माना जाता है।
  • यह तथ्य कि यह कलेक्शन books3 से 40 गुना बड़ा है, copyright और अंग्रेज़ी-भाषी दुनिया से बाहर अकादमिक रिसर्च की संभावनाओं पर सवाल उठाता है।
  • जानकारी-सघन चीनी भाषा में tokenization efficiency को लेकर अटकलें हैं।
  • यह सवाल उठाया गया कि क्या Language Models (LLMs) भाषा और query language की परवाह किए बिना ज्ञान को encode कर सकते हैं।
  • ऐसी उम्मीद है कि कोई बड़ी चीनी कंपनी प्रतिस्पर्धा के लिए OpenAI से आगे बढ़कर इस कलेक्शन पर बोली लगा सकती है।
  • LLMs interface की तरह काम कर सकते हैं, जिससे चीनी जानकारी तक पहुंच आसान हो सकती है।
  • चीनी संस्कृति में नकल के प्रति प्रतिक्रिया अलग मानी जाती है, और अक्सर इसे सम्मान के एक रूप के तौर पर देखा जाता है।