शोधपत्रों के लिए सुलभ प्रारूप के रूप में HTML (2023)
(info.arxiv.org)- arXiv ने शोध की पहुँच बेहतर करने के उद्देश्य से PDF के साथ HTML फ़ॉर्मैट में शोधपत्र उपलब्ध कराना शुरू किया है।
- 200 लाख से अधिक शोधपत्रों में से कुछ में स्वचालित रूपांतरण की सीमाओं के कारण HTML संस्करण उपलब्ध नहीं है, और रूपांतरण की गुणवत्ता को लगातार बेहतर करने की योजना है।
- HTML की स्क्रीन रीडर, वॉयस कन्वर्ज़न (टेक्स्ट-टू-स्पीच), मोबाइल डिवाइस आदि सहायक तकनीकों के साथ अच्छी संगतता है, इसलिए एक्सेसिबिलिटी के नज़रिये से यह लाभदायक है।
- समुदाय त्रुटि रिपोर्ट करने और LaTeX रूपांतरण सुधार के माध्यम से सीधे परियोजना में भाग ले सकता है।
- यह पहल arXiv की उस दीर्घकालिक दिशा को दिखाती है, जो वैज्ञानिक शोध की समावेशिता और पहुँच को बढ़ाने पर केंद्रित है।
HTML फ़ॉर्मैट वाले शोधपत्र उपलब्ध कराने का अवलोकन
- arXiv ने पारंपरिक PDF के अतिरिक्त HTML शोधपत्र फ़ॉर्मैट पेश करना शुरू किया है ताकि शोध पहुंच में सुधार हो सके।
- समुदाय की प्रतिक्रिया के अनुसार, HTML उपलब्ध कराना अल्पकाल में सबसे अधिक प्रभाव डालने वाला कदम माना गया।
- HTML संस्करण शोधपत्र के abstract पेज पर PDF डाउनलोड लिंक के ठीक नीचे दिखाया जाता है।
- लेखक सबमिशन प्रक्रिया के दौरान अपने शोधपत्र का HTML प्रीव्यू देख सकते हैं।
- arXiv 200 लाख से अधिक शोधपत्रों में क्रमिक रूप से HTML जोड़ रहा है, लेकिन कुछ शोधपत्र रूपांतरण में विफल होने के कारण उपलब्ध नहीं हैं।
- HTML का बीटा लॉन्च अभी शुरुआत के चरण में है; LaTeX रूपांतरण गुणवत्ता में सुधार और फीडबैक संग्रह जारी है।
“प्रयोगात्मक” HTML नाम दिए जाने का कारण
- arXiv सबमिशन का 90% से अधिक हिस्सा TeX (मुख्यतः LaTeX) में होता है, इसलिए इसे HTML में सटीक रूप से बदलना तकनीकी रूप से चुनौतीपूर्ण है।
- LaTeX की एक्सटेंसिबिलिटी बहुत अधिक है और लेखक-दर-लेखक उपयोग शैली अलग-अलग होती है।
- HTML की स्क्रीन रीडर, वॉयस कन्वर्ज़न, स्क्रीन ज़ूमिंग टूल्स और मोबाइल डिवाइस के साथ उत्कृष्ट संगतता है।
- रूपांतरण के दौरान ऑटोमेशन और स्पीड बनाए रखनी होती है, इसलिए पूर्ण रूप से त्रुटिरहित रेंडरिंग संभव नहीं हो पाती।
- “प्रयोगात्मक” HTML के रूप में रिलीज़ करने के दो कारण हैं
- सुलभ शोधपत्र अभी तुरंत ज़रूरी था — एक्सेसिबिलिटी की आवश्यकता वाले शोधकर्ताओं ने इसे समय पर जारी करने की मांग की।
- समुदाय की मदद की ज़रूरत — रूपांतरण त्रुटियाँ रिपोर्ट करके विशिष्ट LaTeX पैकेज मुद्दों का ट्रैक रखने के लिए।
HTML शोधपत्रों में हो सकने वाली त्रुटियाँ
- HTML शोधपत्र अभी भी इम्प्रूवमेंट में चल रहा वर्क-इन-प्रोग्रेस है, इसलिए रूपांतरण त्रुटियाँ या रेंडरिंग समस्या उत्पन्न हो सकती है।
- arXiv त्रुटि के कारणों और उन्हें कम करने के उपाय लेखकों के साथ साझा कर रहा है।
- संबंधित विवरण अलग पृष्ठ पर उपलब्ध है।
समुदाय की भागीदारी के तरीके
-
1) HTML शोधपत्र पढ़ना और समस्या रिपोर्ट करना
- किसी भी पसंदीदा शोधपत्र के abstract पेज पर HTML लिंक क्लिक करके देखिए।
- समस्या रिपोर्ट करने के तरीके: Open Issue बटन, टेक्स्ट सेलेक्ट करके रिपोर्ट करना, या Ctrl+? शॉर्टकट।
- स्क्रीन रीडर उपयोगकर्ता Alt+y से para-by-para accessibility report बटन को टॉगल कर सकते हैं।
- सिर्फ इसलिए रिपोर्ट न करें कि HTML PDF की तरह नहीं दिख रहा।
- HTML में फ़ॉर्म से पहले फ़ंक्शन को प्राथमिकता दी गई है; लाइन-ब्रेक और स्पेसिंग का अंतर डिज़ाइन का इरादतन हिस्सा है।
- HTML सहायक तकनीकों की संगतता और डिवाइस एडेप्टेबिलिटी के लिहाज़ से PDF से बेहतर प्रदर्शन करता है।
-
2) LaTeX रूपांतरण सुधार में मदद
- लेखक arXiv की LaTeX मार्कअप बेहतरीन प्रैक्टिस गाइड का पालन कर रूपांतरण गुणवत्ता बेहतर कर सकते हैं।
- डेवलपर्स LaTeXML परियोजना के Issue सूची से रूपांतरण सुधार में योगदान दे सकते हैं।
- अकादमिक सम्मेलन या प्रकाशक असमर्थित पैकेज का उपयोग करने वाली .cls फाइलों की समीक्षा करके एक्सेसिबिलिटी सुधार में सहयोग दे सकते हैं।
सहयोगियों के लिए धन्यवाद
- पूरे प्रयास में विकलांग वैज्ञानिकों की सलाह और विशेषज्ञता ने महत्वपूर्ण भूमिका निभाई।
- HTML शोधपत्र कार्यान्वयन LaTeX Project और NIST के LaTeXML टीम के सहयोग से संभव हो सका।
- दोनों टीमों की ज्ञान, तकनीकी कौशल और एक्सेसिबिलिटी के प्रति प्रतिबद्धता के लिए हार्दिक धन्यवाद।
1 टिप्पणियां
Hacker News राय
arXiv HTML Papers के डेवलपर के रूप में एक छोटा अपडेट साझा कर रहा हूँ
मुझे पता है कि अभी पेपर रेंडरिंग में quality और coverage की समस्याएँ काफी हैं। अगर ऐसी समस्याएँ दिखें, तो कृपया उन्हें GitHub issue page पर रिपोर्ट करें
डेवलपमेंट समय की कमी सबसे बड़ा bottleneck है, और LaTeX पक्ष में सुधार की कुंजी अब भी LaTeXML ही है
मैं arXiv पेपरों को PDF की तुलना में HTML format में पढ़ना बहुत ज़्यादा पसंद करता हूँ
browser extensions का वैसे ही उपयोग करके translation, notes लिखना, LLM को भेजना जैसे कई काम आसानी से किए जा सकते हैं
अभी arXiv में एक default HTML service (https://arxiv.org/html/xxxx.xxxxx) और एक alternative service (https://ar5iv.labs.arxiv.org/html/xxxx.xxxxx) है
लेकिन default service में coverage की समस्या गंभीर है; उदाहरण के लिए यह पेपर काम नहीं करता। alternative service पर स्विच करने से कभी-कभी समस्या हल हो जाती है, लेकिन कुछ मामलों में दोनों services विफल हो जाती हैं (उदाहरण)
अगर Unicode Consortium ने emoji की जगह math symbols के support पर ज़्यादा ध्यान दिया होता, तो शायद हम (LA)TeX/PDF-केंद्रित ढाँचे से बाहर निकल सकते थे
OpenType और TrueType पहले से ही complex rendering को support करते हैं, और font fallback भी संभव है
समस्या तकनीकी सीमा नहीं थी, बल्कि यह policy decision था कि उन्हें “symbol layer में शामिल नहीं किया जाएगा”
दिलचस्प बात यह है कि Gemini 3 Pro किसी भी setting में LaTeX equations को ज़बरदस्ती output करता है। मैंने प्रयोग के नतीजे यहाँ साझा किए हैं
क्योंकि Unicode मूलतः एक character system है, layout system नहीं
HTML-आधारित papers पूरी तरह संभव हैं, लेकिन researchers अब भी पारंपरिक 2-column layout और serif fonts पर अड़े हुए हैं
समस्या यह सांस्कृतिक सोच है कि mobile accessibility या readability से ज़्यादा ज़रूरी है कि चीज़ ‘असली paper’ जैसी दिखे
पहले चरण में सवाल पूछा जाए, और दूसरे चरण में एक छोटे model से LaTeX notation को Unicode math में बदला जाए
HTML papers पहले से ही कुछ वर्षों से उपलब्ध हैं
वास्तव में, यह 2023 में शुरू हुआ था, जैसा कि official blog में पुष्टि की गई है
क्योंकि arXiv के 90% papers LaTeX-based हैं, इसलिए conversion बहुत कठिन है
speed और automation को बनाए रखते हुए accessibility बढ़ाना ही मुख्य चुनौती है
एक ऐसे लेखक के रूप में जो अक्सर complex TeX structures का उपयोग करता है, HTML conversion आने के बाद से काम का बोझ काफी बढ़ गया है
conversion भी धीमा है, और local में इसे simulate करने का कोई तरीका नहीं है
फिर भी accessibility सुधारने के लिए यह एक अच्छा प्रयास है
मुझे लगता है कि papers epub format में भी उपलब्ध होने चाहिए। मुझे नहीं पता कि इसमें कोई technical difficulty है या बस demand कम है
लेकिन मैंने ऐसा reader नहीं देखा जो PDF जितना पढ़ने में सुविधाजनक या उतना सुंदर दिखता हो। annotation features भी platforms के बीच अच्छी तरह compatible नहीं हैं
researchers के लिए उसकी quality assurance तक करना अक्षम होगा, इसलिए ज़रूरत हो तो HTML→epub converter का सीधे उपयोग किया जा सकता है
research accessibility की समस्या नई नहीं है, लेकिन अभी सबसे ज़्यादा तात्कालिक समय है
arXiv अगर PDF के साथ HTML papers भी दे, तो यह सबसे तेज़ और सबसे बड़ा बदलाव ला सकता है
papers में video embedding की सीमित सुविधा मेरी सबसे बड़ी शिकायत है
अभी उन्हें सिर्फ supplementary material के रूप में जोड़ा जा सकता है या external links के रूप में दिया जा सकता है
मैं चाहता हूँ कि paper के main text में GIF या videos सीधे embed किए जा सकें
“90% LaTeX-based हैं इसलिए conversion कठिन है” यह पढ़कर लगा कि यह सचमुच काफी चुनौतीपूर्ण काम है। अच्छा प्रयास है
लगभग 1998 में जब मैं स्कूल newspaper editing का जिम्मा संभाल रहा था, तब मैंने Corel Draw की जगह HTML पर जाने का सुझाव दिया था
लेकिन अंत में तब भी, आज की टिप्पणियों की तरह ही, उन्हीं कारणों से HTML अपनाना छोड़ दिया गया था