- arXiv की कंप्यूटर साइंस (CS) कैटेगरी ने review (survey) papers और position papers के लिए नई screening प्रैक्टिस लागू की है
- अब ऐसे papers को arXiv पर केवल तब ही submit किया जा सकता है जब वे journal या conference में peer review के बाद accept हो चुके हों
- submit करते समय successful peer review का प्रमाण देने वाले दस्तावेज़ (जैसे journal reference, DOI metadata) शामिल करना अनिवार्य है
- verification documents के बिना किए गए submissions के reject होने की संभावना बहुत अधिक है, और यह कदम हाल में generative AI की वजह से papers की अत्यधिक आमद के जवाब में उठाया गया है
- arXiv इस बदलाव के ज़रिए सिर्फ high-quality review papers को साझा करना और मुख्य research papers के प्रसार पर फोकस बनाए रखना चाहता है
बदली हुई submission requirements
- review papers और position papers को journal या conference में accept होने और peer review पूरा होने के बाद ही arXiv पर submit किया जा सकता है
- submit करते समय successful peer review का supporting document शामिल करना होगा
- प्रमाण न होने पर reject होने की संभावना अधिक है
- workshop-level review को पारंपरिक peer review नहीं माना जाएगा, इसलिए यह submission requirement को पूरा नहीं करता
नीतिगत पृष्ठभूमि
- arXiv की आधिकारिक policy के अनुसार review papers और position papers औपचारिक रूप से अनुमत content type नहीं हैं
- पहले कम संख्या में high-quality papers को moderator के discretion पर स्वीकार किया जाता था
- हाल में generative AI और large language models (LLM) के प्रसार के कारण low-quality review papers में तेज़ बढ़ोतरी हुई है
- इनमें से अधिकांश सिर्फ references की सूची जैसे हैं और उनमें नई research discussion की कमी है
- इस स्थिति में moderators पर review का बोझ अत्यधिक बढ़ गया है, और arXiv के मुख्य उद्देश्य (research papers साझा करना) में बाधा आ रही है
बदलाव का उद्देश्य
- experts द्वारा लिखे गए मूल्यवान review और position papers को ही arXiv पर आसानी से खोजा जा सके, इसके लिए समर्थन देना
- moderators के काम का बोझ कम करना और औपचारिक content types की समीक्षा पर फोकस करना
- arXiv के मूल लक्ष्य वैज्ञानिक खोजों को तेज़ और स्वतंत्र रूप से आगे बढ़ाने को बनाए रखना
पहले और अब में अंतर
- पहले review papers अक्सर कुछ प्रतिष्ठित शोधकर्ताओं या औपचारिक संस्थाओं (जैसे Annual Reviews, IEEE, Computing Surveys) के अनुरोध पर लिखे जाते थे, इसलिए उनकी quality ऊँची होती थी
- position papers भी ज़्यादातर academic societies या government research bodies (जैसे Computing Research Association, National Academies) द्वारा तैयार किए जाते थे
- अब हर महीने सैकड़ों review papers submit हो रहे हैं, और quality control मुश्किल होने की स्थिति तक बात पहुँच गई है
बाहरी review bodies का उपयोग
- arXiv के पास स्वयं quality verification करने के लिए पर्याप्त staff और resources नहीं हैं
- इसके बजाय वह विश्वसनीय external review bodies (societies·journals) के verification को मान्यता देता है
- ये संस्थाएँ privacy, ethics, safety, security जैसे AI-संबंधित विषयों पर गहन समीक्षा करती हैं
- इससे arXiv केवल quality-assured papers ही साझा कर सकेगा
resubmission और exceptions
- peer review पूरा न होने के कारण reject किए गए papers को, बाद में review पूरा हो जाने पर appeal प्रक्रिया के ज़रिए फिर submit किया जा सकता है
- लेकिन approved appeal के बिना दोबारा submit नहीं किया जा सकता
- विज्ञान और तकनीक के सामाजिक प्रभाव पर आधारित research papers (cs.CY, physics.soc-ph आदि) इस बदलाव के दायरे में नहीं आते
अन्य categories तक विस्तार की संभावना
- arXiv की हर category को expert moderators स्वतंत्र रूप से चलाते हैं
- सभी categories एक ही policy का पालन करती हैं, लेकिन review papers मूल रूप से अनौपचारिक content type हैं
- अगर अन्य क्षेत्रों में भी LLM-आधारित papers की तेज़ बढ़ोतरी होती है, तो ऐसे ही कड़े review उपाय लागू किए जा सकते हैं
- ऐसा कोई बदलाव होने पर औपचारिक घोषणा की जाएगी
1 टिप्पणियां
Hacker News राय
यह बात उठाई गई कि समस्या उस ढांचे में है जो लोगों को उनके बनाए गए मात्रा के आधार पर इनाम देता है
अगर शोधकर्ताओं को पेपरों की संख्या के आधार पर प्रोत्साहन दिया जाए, तो वे न्यूनतम गुणवत्ता के साथ जितने ज़्यादा हो सकें उतने पेपर निकालकर सिस्टम का दुरुपयोग करने लगते हैं
views-आधारित reward, ad impression-आधारित reward भी इसी तरह विकृत व्यवहार पैदा करते हैं
अंततः ऑनलाइन दुनिया इंसानों के लिए नहीं बल्कि algorithm optimization के लिए डिज़ाइन किए गए सिस्टम जैसी हो गई है
San Francisco में NGO को मिलने वाली सहायता राशि ‘मदद किए गए बेघर लोगों की संख्या’ के आधार पर तय होती है, जिससे नतीजतन बेघरपन कम करने के बजाय उसे बनाए रखने का incentive बनता है
समस्या लोगों और incentive system में है, टूल में नहीं
code line count या commit count जैसे बेमानी metrics से performance मापने की संस्कृति पहले से ही गलत है
ऐसा लगता है कि हम अभी ‘Goodhart का नर्क’ में जी रहे हैं — एक ऐसी दुनिया जहाँ metrics में हेरफेर ही लक्ष्य बन गया है
बात मज़ाक में कही जाती है, लेकिन यह metrics-केंद्रित management से बड़े पैमाने पर outage झेलने वाली कंपनियों की हक़ीक़त पर व्यंग्य है
इंसान-केंद्रित ऑनलाइन दुनिया कैसी हो सकती है, और content creators को कैसे reward मिलना चाहिए — यह सवाल उठाया गया
उनका ज़ोर है कि असली मुद्दा पेपरों की संख्या नहीं बल्कि research funding हासिल करना और proposal की गुणवत्ता है
यह गलतफ़हमी थी कि arXiv अब preprint (पूर्व-प्रकाशित शोधपत्र) स्वीकार नहीं कर रहा
असल में बदलाव सिर्फ इतना है कि ‘review paper’ और ‘position paper’ अब journal या conference में peer review पास होने के बाद ही जमा किए जा सकते हैं
arXiv में reputation system लाने का प्रस्ताव भी आया
विचार यह है कि लेखक अपना public PGP key साथ में अपलोड करें और एक trust network बनाया जाए
यह मौजूदा journals से कम बंद और पूरी तरह open मॉडल से अधिक व्यवस्थित हो सकता है
arXiv की quality control समस्या की ओर भी इशारा किया गया
सिर्फ October में 26,000 submissions हुई थीं (आँकड़ों का लिंक), और बिना सत्यापन वाले पेपरों की भरमार है
सुझाव दिया गया कि छोटी submission fee लेने से spam कम हो सकता है
यह भी कहा गया कि HN पोस्ट का शीर्षक गलत था
असल में सही अभिव्यक्ति यह है: “AI द्वारा लिखे गए review papers की तेज़ी से बढ़ती संख्या के कारण arXiv के CS क्षेत्र में review papers के लिए peer review अनिवार्य किया जा रहा है”
कुछ लोगों ने यह जानना चाहा कि पूरी तरह AI-generated papers को arXiv पर डालने वालों की प्रेरणा क्या होती है
submission process झंझटभरा होने के बावजूद लोग ऐसा क्यों करते हैं, यह सवाल उठा
यह भी इंगित किया गया कि अधिकतर low-quality papers AI-संबंधित विषयों पर हैं
बहुत से लोग जब पहली बार LLM देखते हैं, तो “LLM से LLM पर लिखवाते हैं” जैसी self-referential experiment करने लगते हैं
नतीजतन, मूल डेटा का खिचड़ी-जैसा सार तैयार होता है
arXiv के इस कदम को सकारात्मक रूप से आँका गया
तेज़ी से बदलते multi-agent systems और agentic LLMs जैसे क्षेत्रों में स्पष्ट मानदंडों की ज़रूरत है
अगर paper type, data·code links, benchmark scope जैसी machine-readable metadata माँगी जाए, तो विश्वसनीयता बढ़ सकती है
‘Survey’ या ‘Position’ tags और reproducibility checklist को standardize किया जाए, तो शुरुआती विचारों को रोके बिना भी गुणवत्ता बनाए रखी जा सकती है
arXiv पहले से ही self-promotion के लिए low-quality papers की समस्या झेलता रहा है
यह LLM से पहले का भी मामला है