Paper to HTML - शोध-पत्रों को पढ़ने में आसान HTML में बदलना

xguru · 2021-09-17T09:18:57+09:00

मशीन लर्निंग का उपयोग करके PDF, LaTeX, PubMed Central XML की सामग्री पढ़कर उसे HTML में बदलता है उद्देश्य accessibility बढ़ाना है AI-आधारित शोध सामग्री सर्च इंजन Semantic Scholar का एक experimental prototype फिलहाल केवल निकाली गई images/content को cache किया जाता है, और इसका उपयोग केवल उसी दस्तावेज़ को अपलोड करने वाले व्यक्ति को तेज़ सेवा देने के लिए होता है। अपलोड की गई files को संग्रहीत नहीं किया जाता सीमाएँ → table को image के रूप में निकाला जाता है → math सामग्री की accuracy कम है या वह लगभग निकाली ही नहीं जाती → LaTeX/PubMed processing में PDF की तुलना में कुछ features कम हो सकते हैं भविष्य में Semantic Scholar में accessibility features जोड़ने की योजना है

(papertohtml.org)

9 पॉइंट द्वारा xguru 2021-09-17 | 3 टिप्पणियां | WhatsApp पर शेयर करें

मशीन लर्निंग का उपयोग करके PDF, LaTeX, PubMed Central XML की सामग्री पढ़कर उसे HTML में बदलता है
उद्देश्य accessibility बढ़ाना है
AI-आधारित शोध सामग्री सर्च इंजन Semantic Scholar का एक experimental prototype
फिलहाल केवल निकाली गई images/content को cache किया जाता है, और इसका उपयोग केवल उसी दस्तावेज़ को अपलोड करने वाले व्यक्ति को तेज़ सेवा देने के लिए होता है। अपलोड की गई files को संग्रहीत नहीं किया जाता
सीमाएँ

→ table को image के रूप में निकाला जाता है

→ math सामग्री की accuracy कम है या वह लगभग निकाली ही नहीं जाती

→ LaTeX/PubMed processing में PDF की तुलना में कुछ features कम हो सकते हैं

भविष्य में Semantic Scholar में accessibility features जोड़ने की योजना है

3 टिप्पणियां

v08zbv8fvlkjasdflkj 2021-09-23

PDF को किसी दूसरे फ़ॉर्मैट में बदलते समय (epub अच्छा है), ऊपर गिनाई गई टेबल और फ़ॉर्मूले ही समस्या बनते हैं। अगर फ़ॉर्मूले ठीक से काम नहीं करते, तो इसकी ताकत क्या है, समझ नहीं आता।

डेमो देखकर लगता है, काम चलाऊ नहीं बल्कि काफ़ी उपयोगी है.

indigo6 2021-09-18

यह सुविधाजनक तो लगता है, लेकिन शायद कुछ लोग यह नहीं चाहेंगे कि उनका शोधपत्र HTML फ़ॉर्मेट में बदला जाए। अगर किसी तरह अधिकारधारक को इस रूपांतरण के लिए opt-out करने की सुविधा मिल सके, तो अच्छा होगा...

मैंने बहुत पहले (सच में बहुत पहले है, उदासी में) LaTeX में शोधपत्र लिखते समय एक जबरदस्त रोमांच महसूस किया था। सामग्री तो कमजोर थी, लेकिन rendering इतनी साफ़-सुथरी और सुंदर थी कि उस समय की भावना आज भी याद है। TeX को देखते हुए मुझे लगा था कि Knuth तो सचमुच देवता हैं... खैर, अचानक यह विचार आया कि किसी व्यक्ति के लिखे काम में सिर्फ़ उसकी सामग्री ही नहीं, बल्कि उस शोधपत्र का फ़ॉर्मेट और अभिव्यक्ति के बारीक विवरण भी कुछ लोगों के लिए महत्वपूर्ण हो सकते हैं।

xguru 2021-09-17

गैलरी देखकर लगा कि क्वालिटी काफ़ी काम की है।

https://papertohtml.org/gallery

यह सोच ज़रूर आता है कि अगर Google Scholar में ऐसा कुछ लागू हो जाए, तो काफ़ी सुविधाजनक होगा।

Paper to HTML - शोध-पत्रों को पढ़ने में आसान HTML में बदलना

संबंधित पढ़ाई

3 टिप्पणियां