- Anna's Archive गुमनाम एक्टिविस्टों द्वारा चलाया जाने वाला एक गैर-लाभकारी ऑनलाइन shadow library meta search engine है। यह विभिन्न पुस्तक संसाधनों तक पहुंच प्रदान करता है
- इन्होंने 75 लाख पुस्तकों / 350TB के बराबर चीनी non-fiction पुस्तक संग्रह हासिल किया है (जो Library Genesis से भी बड़ा है)
- इस संग्रह पर high-quality OCR और text extraction उपलब्ध कराने के बदले, वह LLM कंपनी को 1 साल के लिए विशेष early access देने की योजना है
- यह संग्रह Duxiu से प्राप्त किया गया, जो SuperStar Digital Library Group द्वारा बनाया गया scanned पुस्तकों का एक विशाल डेटाबेस है, और जिसे विश्वविद्यालयों व पुस्तकालयों को डिजिटल रूप में उपलब्ध कराया जाता था
- संग्रह का कुल file size अपने वर्तमान रूप में लगभग 359TB है
- निकाला गया text बड़े भाषा मॉडल (LLMs) की training में इस्तेमाल होगा, और Archive का मानना है कि संग्रह के चीनी भाषा में होने के बावजूद यह अंग्रेज़ी LLMs की training के लिए भी उपयोगी हो सकता है
- Archive इस सहयोग के जरिए उपयोगकर्ताओं को advanced search functionality देना चाहता है
- यदि सहयोगी पक्ष pipeline का पूरा code साझा करने के लिए तैयार हो, तो Archive विशेष access अवधि बढ़ाने के लिए भी तैयार है
1 टिप्पणियां
Hacker News राय