13 पॉइंट द्वारा xguru 2021-10-28 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • शोधकर्ता Carl Malamud ने भुगतान वाले पेपरों सहित 107,233,728 जर्नलों से SpaCy के जरिए निकाला गया n-gram index जारी किया

  • यह पूरा टेक्स्ट नहीं बल्कि 1 शब्द से लेकर अधिकतम 5 शब्द लंबाई तक के वाक्य snippet वाला index है, इसलिए copyright प्रतिबंधों से बचा जा सकता है

  • इसे विभिन्न शोध क्षेत्रों में इस्तेमाल किया जा सके, इसलिए web archive पर मुफ़्त में जारी किया गया

→ उदाहरण: किसी विशेष रासायनिक पदार्थ का पेपरों में कितनी बार उपयोग हुआ

  • यह 3 टेबल से बना है

→ 350 अरब n-gram और जर्नल id

→ 19.7 अरब कीवर्ड और जर्नल id

→ जर्नल id और मेटाडेटा : शोधपत्र शीर्षक, लेखक, DOI (शोधपत्र का विशिष्ट पहचान नंबर)

  • कैटलॉग 5TB की compressed file है, जिसे extract करने पर 38TB हो जाती है

1 टिप्पणियां

 
xguru 2021-10-28

Nature का परिचय लेख

लगता है कि उन्होंने असली full text नहीं, सिर्फ index जारी करके copyright समस्या को एक अनोखे तरीके से टाल दिया है

Nature के लेख में भी है, मुद्दा शायद सिर्फ इतना है कि index बनाने वाले Carl ने मूल paid papers कैसे हासिल किए; लेकिन इस index का खुद research में उपयोग करना शायद समस्या नहीं होगा।

यह देखकर मुझे Aaron Swartz की याद आ गई.. नीचे सामग्री में उसका ज़िक्र भी दिया गया है

Carl Malamud ने Aaron Swartz Memorial में जो भाषण दिया था, उसका वीडियो भी साथ में देखें