2 पॉइंट द्वारा GN⁺ 2025-12-08 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • arXiv ने शोध की पहुँच बेहतर करने के उद्देश्य से PDF के साथ HTML फ़ॉर्मैट में शोधपत्र उपलब्ध कराना शुरू किया है।
  • 200 लाख से अधिक शोधपत्रों में से कुछ में स्वचालित रूपांतरण की सीमाओं के कारण HTML संस्करण उपलब्ध नहीं है, और रूपांतरण की गुणवत्ता को लगातार बेहतर करने की योजना है।
  • HTML की स्क्रीन रीडर, वॉयस कन्वर्ज़न (टेक्स्ट-टू-स्पीच), मोबाइल डिवाइस आदि सहायक तकनीकों के साथ अच्छी संगतता है, इसलिए एक्सेसिबिलिटी के नज़रिये से यह लाभदायक है।
  • समुदाय त्रुटि रिपोर्ट करने और LaTeX रूपांतरण सुधार के माध्यम से सीधे परियोजना में भाग ले सकता है।
  • यह पहल arXiv की उस दीर्घकालिक दिशा को दिखाती है, जो वैज्ञानिक शोध की समावेशिता और पहुँच को बढ़ाने पर केंद्रित है।

HTML फ़ॉर्मैट वाले शोधपत्र उपलब्ध कराने का अवलोकन

  • arXiv ने पारंपरिक PDF के अतिरिक्त HTML शोधपत्र फ़ॉर्मैट पेश करना शुरू किया है ताकि शोध पहुंच में सुधार हो सके।
    • समुदाय की प्रतिक्रिया के अनुसार, HTML उपलब्ध कराना अल्पकाल में सबसे अधिक प्रभाव डालने वाला कदम माना गया।
  • HTML संस्करण शोधपत्र के abstract पेज पर PDF डाउनलोड लिंक के ठीक नीचे दिखाया जाता है।
    • लेखक सबमिशन प्रक्रिया के दौरान अपने शोधपत्र का HTML प्रीव्यू देख सकते हैं।
  • arXiv 200 लाख से अधिक शोधपत्रों में क्रमिक रूप से HTML जोड़ रहा है, लेकिन कुछ शोधपत्र रूपांतरण में विफल होने के कारण उपलब्ध नहीं हैं।
  • HTML का बीटा लॉन्च अभी शुरुआत के चरण में है; LaTeX रूपांतरण गुणवत्ता में सुधार और फीडबैक संग्रह जारी है।

“प्रयोगात्मक” HTML नाम दिए जाने का कारण

  • arXiv सबमिशन का 90% से अधिक हिस्सा TeX (मुख्यतः LaTeX) में होता है, इसलिए इसे HTML में सटीक रूप से बदलना तकनीकी रूप से चुनौतीपूर्ण है।
    • LaTeX की एक्सटेंसिबिलिटी बहुत अधिक है और लेखक-दर-लेखक उपयोग शैली अलग-अलग होती है।
    • HTML की स्क्रीन रीडर, वॉयस कन्वर्ज़न, स्क्रीन ज़ूमिंग टूल्स और मोबाइल डिवाइस के साथ उत्कृष्ट संगतता है।
  • रूपांतरण के दौरान ऑटोमेशन और स्पीड बनाए रखनी होती है, इसलिए पूर्ण रूप से त्रुटिरहित रेंडरिंग संभव नहीं हो पाती।
  • “प्रयोगात्मक” HTML के रूप में रिलीज़ करने के दो कारण हैं
    1. सुलभ शोधपत्र अभी तुरंत ज़रूरी था — एक्सेसिबिलिटी की आवश्यकता वाले शोधकर्ताओं ने इसे समय पर जारी करने की मांग की।
    2. समुदाय की मदद की ज़रूरत — रूपांतरण त्रुटियाँ रिपोर्ट करके विशिष्ट LaTeX पैकेज मुद्दों का ट्रैक रखने के लिए।

HTML शोधपत्रों में हो सकने वाली त्रुटियाँ

  • HTML शोधपत्र अभी भी इम्प्रूवमेंट में चल रहा वर्क-इन-प्रोग्रेस है, इसलिए रूपांतरण त्रुटियाँ या रेंडरिंग समस्या उत्पन्न हो सकती है।
  • arXiv त्रुटि के कारणों और उन्हें कम करने के उपाय लेखकों के साथ साझा कर रहा है।
  • संबंधित विवरण अलग पृष्ठ पर उपलब्ध है।

समुदाय की भागीदारी के तरीके

  • 1) HTML शोधपत्र पढ़ना और समस्या रिपोर्ट करना

    • किसी भी पसंदीदा शोधपत्र के abstract पेज पर HTML लिंक क्लिक करके देखिए।
    • समस्या रिपोर्ट करने के तरीके: Open Issue बटन, टेक्स्ट सेलेक्ट करके रिपोर्ट करना, या Ctrl+? शॉर्टकट
    • स्क्रीन रीडर उपयोगकर्ता Alt+y से para-by-para accessibility report बटन को टॉगल कर सकते हैं।
    • सिर्फ इसलिए रिपोर्ट न करें कि HTML PDF की तरह नहीं दिख रहा।
    • HTML में फ़ॉर्म से पहले फ़ंक्शन को प्राथमिकता दी गई है; लाइन-ब्रेक और स्पेसिंग का अंतर डिज़ाइन का इरादतन हिस्सा है।
    • HTML सहायक तकनीकों की संगतता और डिवाइस एडेप्टेबिलिटी के लिहाज़ से PDF से बेहतर प्रदर्शन करता है।
  • 2) LaTeX रूपांतरण सुधार में मदद

    • लेखक arXiv की LaTeX मार्कअप बेहतरीन प्रैक्टिस गाइड का पालन कर रूपांतरण गुणवत्ता बेहतर कर सकते हैं।
    • डेवलपर्स LaTeXML परियोजना के Issue सूची से रूपांतरण सुधार में योगदान दे सकते हैं।
    • अकादमिक सम्मेलन या प्रकाशक असमर्थित पैकेज का उपयोग करने वाली .cls फाइलों की समीक्षा करके एक्सेसिबिलिटी सुधार में सहयोग दे सकते हैं।

सहयोगियों के लिए धन्यवाद

  • पूरे प्रयास में विकलांग वैज्ञानिकों की सलाह और विशेषज्ञता ने महत्वपूर्ण भूमिका निभाई।
  • HTML शोधपत्र कार्यान्वयन LaTeX Project और NIST के LaTeXML टीम के सहयोग से संभव हो सका।
  • दोनों टीमों की ज्ञान, तकनीकी कौशल और एक्सेसिबिलिटी के प्रति प्रतिबद्धता के लिए हार्दिक धन्यवाद।

1 टिप्पणियां

 
GN⁺ 2025-12-08
Hacker News राय
  • arXiv HTML Papers के डेवलपर के रूप में एक छोटा अपडेट साझा कर रहा हूँ
    मुझे पता है कि अभी पेपर रेंडरिंग में quality और coverage की समस्याएँ काफी हैं। अगर ऐसी समस्याएँ दिखें, तो कृपया उन्हें GitHub issue page पर रिपोर्ट करें
    डेवलपमेंट समय की कमी सबसे बड़ा bottleneck है, और LaTeX पक्ष में सुधार की कुंजी अब भी LaTeXML ही है

  • मैं arXiv पेपरों को PDF की तुलना में HTML format में पढ़ना बहुत ज़्यादा पसंद करता हूँ
    browser extensions का वैसे ही उपयोग करके translation, notes लिखना, LLM को भेजना जैसे कई काम आसानी से किए जा सकते हैं
    अभी arXiv में एक default HTML service (https://arxiv.org/html/xxxx.xxxxx) और एक alternative service (https://ar5iv.labs.arxiv.org/html/xxxx.xxxxx) है
    लेकिन default service में coverage की समस्या गंभीर है; उदाहरण के लिए यह पेपर काम नहीं करता। alternative service पर स्विच करने से कभी-कभी समस्या हल हो जाती है, लेकिन कुछ मामलों में दोनों services विफल हो जाती हैं (उदाहरण)

  • अगर Unicode Consortium ने emoji की जगह math symbols के support पर ज़्यादा ध्यान दिया होता, तो शायद हम (LA)TeX/PDF-केंद्रित ढाँचे से बाहर निकल सकते थे
    OpenType और TrueType पहले से ही complex rendering को support करते हैं, और font fallback भी संभव है
    समस्या तकनीकी सीमा नहीं थी, बल्कि यह policy decision था कि उन्हें “symbol layer में शामिल नहीं किया जाएगा”
    दिलचस्प बात यह है कि Gemini 3 Pro किसी भी setting में LaTeX equations को ज़बरदस्ती output करता है। मैंने प्रयोग के नतीजे यहाँ साझा किए हैं

    • चाहे superscript और subscript को कितना भी अच्छी तरह संभाल लिया जाए, fractions या variable-size brackets जैसे बुनियादी mathematical expressions संभव नहीं हैं
      क्योंकि Unicode मूलतः एक character system है, layout system नहीं
    • mathematical expressions emoji की तुलना में कहीं अधिक जटिल हैं। मुझे लगता है कि सीधी तुलना करना कठिन है
    • यह हैरानी की बात है कि ऐसी समस्या सिर्फ Gemini 3 में है। ज़्यादातर LLMs तो LaTeX-केंद्रित ही होंगे, इसलिए यह परिणाम उल्टा standard के रूप में स्वाभाविक लगता है
    • सच कहें तो “math की वजह से LaTeX ज़रूरी है” अब सिर्फ एक पुराना बहाना है
      HTML-आधारित papers पूरी तरह संभव हैं, लेकिन researchers अब भी पारंपरिक 2-column layout और serif fonts पर अड़े हुए हैं
      समस्या यह सांस्कृतिक सोच है कि mobile accessibility या readability से ज़्यादा ज़रूरी है कि चीज़ ‘असली paper’ जैसी दिखे
    • मैं two-step approach का सुझाव देता हूँ
      पहले चरण में सवाल पूछा जाए, और दूसरे चरण में एक छोटे model से LaTeX notation को Unicode math में बदला जाए
  • HTML papers पहले से ही कुछ वर्षों से उपलब्ध हैं
    वास्तव में, यह 2023 में शुरू हुआ था, जैसा कि official blog में पुष्टि की गई है

    • “Experimental” HTML क्यों?
      क्योंकि arXiv के 90% papers LaTeX-based हैं, इसलिए conversion बहुत कठिन है
      speed और automation को बनाए रखते हुए accessibility बढ़ाना ही मुख्य चुनौती है
    • संबंधित जानकारी GitHub docs page में है। वहाँ कहा गया है कि 2023 tag की ज़रूरत है
  • एक ऐसे लेखक के रूप में जो अक्सर complex TeX structures का उपयोग करता है, HTML conversion आने के बाद से काम का बोझ काफी बढ़ गया है
    conversion भी धीमा है, और local में इसे simulate करने का कोई तरीका नहीं है
    फिर भी accessibility सुधारने के लिए यह एक अच्छा प्रयास है

    • dginev का Docker image arXiv environment के लगभग समान है, और इसे local में चलाया जा सकता है
  • मुझे लगता है कि papers epub format में भी उपलब्ध होने चाहिए। मुझे नहीं पता कि इसमें कोई technical difficulty है या बस demand कम है

    • epub वास्तव में HTML-based ही है
      लेकिन मैंने ऐसा reader नहीं देखा जो PDF जितना पढ़ने में सुविधाजनक या उतना सुंदर दिखता हो। annotation features भी platforms के बीच अच्छी तरह compatible नहीं हैं
    • epub आखिरकार अच्छी तरह सँवारा गया HTML/CSS ही है
      researchers के लिए उसकी quality assurance तक करना अक्षम होगा, इसलिए ज़रूरत हो तो HTML→epub converter का सीधे उपयोग किया जा सकता है
    • यह सवाल भी उठता है कि “epub की ज़रूरत ही क्यों है?” आखिरकार वह भी HTML ही है
  • research accessibility की समस्या नई नहीं है, लेकिन अभी सबसे ज़्यादा तात्कालिक समय है
    arXiv अगर PDF के साथ HTML papers भी दे, तो यह सबसे तेज़ और सबसे बड़ा बदलाव ला सकता है

    • अपना preprint HTML में देखकर मुझे आभार महसूस हुआ। मैं यह भी जानना चाहता हूँ कि community कैसे contribute कर सकती है
  • papers में video embedding की सीमित सुविधा मेरी सबसे बड़ी शिकायत है
    अभी उन्हें सिर्फ supplementary material के रूप में जोड़ा जा सकता है या external links के रूप में दिया जा सकता है
    मैं चाहता हूँ कि paper के main text में GIF या videos सीधे embed किए जा सकें

  • “90% LaTeX-based हैं इसलिए conversion कठिन है” यह पढ़कर लगा कि यह सचमुच काफी चुनौतीपूर्ण काम है। अच्छा प्रयास है

  • लगभग 1998 में जब मैं स्कूल newspaper editing का जिम्मा संभाल रहा था, तब मैंने Corel Draw की जगह HTML पर जाने का सुझाव दिया था
    लेकिन अंत में तब भी, आज की टिप्पणियों की तरह ही, उन्हीं कारणों से HTML अपनाना छोड़ दिया गया था