11 पॉइंट द्वारा GN⁺ 2025-11-02 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • arXiv की कंप्यूटर साइंस (CS) कैटेगरी ने review (survey) papers और position papers के लिए नई screening प्रैक्टिस लागू की है
  • अब ऐसे papers को arXiv पर केवल तब ही submit किया जा सकता है जब वे journal या conference में peer review के बाद accept हो चुके हों
  • submit करते समय successful peer review का प्रमाण देने वाले दस्तावेज़ (जैसे journal reference, DOI metadata) शामिल करना अनिवार्य है
  • verification documents के बिना किए गए submissions के reject होने की संभावना बहुत अधिक है, और यह कदम हाल में generative AI की वजह से papers की अत्यधिक आमद के जवाब में उठाया गया है
  • arXiv इस बदलाव के ज़रिए सिर्फ high-quality review papers को साझा करना और मुख्य research papers के प्रसार पर फोकस बनाए रखना चाहता है

बदली हुई submission requirements

  • review papers और position papers को journal या conference में accept होने और peer review पूरा होने के बाद ही arXiv पर submit किया जा सकता है
    • submit करते समय successful peer review का supporting document शामिल करना होगा
    • प्रमाण न होने पर reject होने की संभावना अधिक है
  • workshop-level review को पारंपरिक peer review नहीं माना जाएगा, इसलिए यह submission requirement को पूरा नहीं करता

नीतिगत पृष्ठभूमि

  • arXiv की आधिकारिक policy के अनुसार review papers और position papers औपचारिक रूप से अनुमत content type नहीं हैं
    • पहले कम संख्या में high-quality papers को moderator के discretion पर स्वीकार किया जाता था
  • हाल में generative AI और large language models (LLM) के प्रसार के कारण low-quality review papers में तेज़ बढ़ोतरी हुई है
    • इनमें से अधिकांश सिर्फ references की सूची जैसे हैं और उनमें नई research discussion की कमी है
  • इस स्थिति में moderators पर review का बोझ अत्यधिक बढ़ गया है, और arXiv के मुख्य उद्देश्य (research papers साझा करना) में बाधा आ रही है

बदलाव का उद्देश्य

  • experts द्वारा लिखे गए मूल्यवान review और position papers को ही arXiv पर आसानी से खोजा जा सके, इसके लिए समर्थन देना
  • moderators के काम का बोझ कम करना और औपचारिक content types की समीक्षा पर फोकस करना
  • arXiv के मूल लक्ष्य वैज्ञानिक खोजों को तेज़ और स्वतंत्र रूप से आगे बढ़ाने को बनाए रखना

पहले और अब में अंतर

  • पहले review papers अक्सर कुछ प्रतिष्ठित शोधकर्ताओं या औपचारिक संस्थाओं (जैसे Annual Reviews, IEEE, Computing Surveys) के अनुरोध पर लिखे जाते थे, इसलिए उनकी quality ऊँची होती थी
  • position papers भी ज़्यादातर academic societies या government research bodies (जैसे Computing Research Association, National Academies) द्वारा तैयार किए जाते थे
  • अब हर महीने सैकड़ों review papers submit हो रहे हैं, और quality control मुश्किल होने की स्थिति तक बात पहुँच गई है

बाहरी review bodies का उपयोग

  • arXiv के पास स्वयं quality verification करने के लिए पर्याप्त staff और resources नहीं हैं
  • इसके बजाय वह विश्वसनीय external review bodies (societies·journals) के verification को मान्यता देता है
    • ये संस्थाएँ privacy, ethics, safety, security जैसे AI-संबंधित विषयों पर गहन समीक्षा करती हैं
  • इससे arXiv केवल quality-assured papers ही साझा कर सकेगा

resubmission और exceptions

  • peer review पूरा न होने के कारण reject किए गए papers को, बाद में review पूरा हो जाने पर appeal प्रक्रिया के ज़रिए फिर submit किया जा सकता है
    • लेकिन approved appeal के बिना दोबारा submit नहीं किया जा सकता
  • विज्ञान और तकनीक के सामाजिक प्रभाव पर आधारित research papers (cs.CY, physics.soc-ph आदि) इस बदलाव के दायरे में नहीं आते

अन्य categories तक विस्तार की संभावना

  • arXiv की हर category को expert moderators स्वतंत्र रूप से चलाते हैं
  • सभी categories एक ही policy का पालन करती हैं, लेकिन review papers मूल रूप से अनौपचारिक content type हैं
  • अगर अन्य क्षेत्रों में भी LLM-आधारित papers की तेज़ बढ़ोतरी होती है, तो ऐसे ही कड़े review उपाय लागू किए जा सकते हैं
  • ऐसा कोई बदलाव होने पर औपचारिक घोषणा की जाएगी

1 टिप्पणियां

 
GN⁺ 2025-11-02
Hacker News राय
  • यह बात उठाई गई कि समस्या उस ढांचे में है जो लोगों को उनके बनाए गए मात्रा के आधार पर इनाम देता है
    अगर शोधकर्ताओं को पेपरों की संख्या के आधार पर प्रोत्साहन दिया जाए, तो वे न्यूनतम गुणवत्ता के साथ जितने ज़्यादा हो सकें उतने पेपर निकालकर सिस्टम का दुरुपयोग करने लगते हैं
    views-आधारित reward, ad impression-आधारित reward भी इसी तरह विकृत व्यवहार पैदा करते हैं
    अंततः ऑनलाइन दुनिया इंसानों के लिए नहीं बल्कि algorithm optimization के लिए डिज़ाइन किए गए सिस्टम जैसी हो गई है

    • सुना है कि ऐसी ही संरचना बेघर लोगों की सहायता उद्योग में भी दिखाई देती है
      San Francisco में NGO को मिलने वाली सहायता राशि ‘मदद किए गए बेघर लोगों की संख्या’ के आधार पर तय होती है, जिससे नतीजतन बेघरपन कम करने के बजाय उसे बनाए रखने का incentive बनता है
    • कुछ लोगों का मत है कि LLM को दोष नहीं देना चाहिए
      समस्या लोगों और incentive system में है, टूल में नहीं
    • LLM की आकर्षण शक्ति ही ‘तेज़ output’ में है
      code line count या commit count जैसे बेमानी metrics से performance मापने की संस्कृति पहले से ही गलत है
      ऐसा लगता है कि हम अभी ‘Goodhart का नर्क’ में जी रहे हैं — एक ऐसी दुनिया जहाँ metrics में हेरफेर ही लक्ष्य बन गया है
      बात मज़ाक में कही जाती है, लेकिन यह metrics-केंद्रित management से बड़े पैमाने पर outage झेलने वाली कंपनियों की हक़ीक़त पर व्यंग्य है
    • तब गुणवत्ता-केंद्रित reward system कैसा होना चाहिए, इस पर जिज्ञासा जताई गई
      इंसान-केंद्रित ऑनलाइन दुनिया कैसी हो सकती है, और content creators को कैसे reward मिलना चाहिए — यह सवाल उठाया गया
    • कुछ लोगों का मानना है कि इस समस्या को गलत समझा जा रहा है
      उनका ज़ोर है कि असली मुद्दा पेपरों की संख्या नहीं बल्कि research funding हासिल करना और proposal की गुणवत्ता है
  • यह गलतफ़हमी थी कि arXiv अब preprint (पूर्व-प्रकाशित शोधपत्र) स्वीकार नहीं कर रहा
    असल में बदलाव सिर्फ इतना है कि ‘review paper’ और ‘position paper’ अब journal या conference में peer review पास होने के बाद ही जमा किए जा सकते हैं

    • समझाया गया कि LLM तकनीकी योगदान के बिना मत-आधारित पेपर आसानी से बना सकता है, इसलिए यह कदम ज़रूरी है
    • यह कोई नई policy change नहीं है; मूल रूप से भी इस तरह की सामग्री arXiv की अनुमत सीमा में नहीं थी
    • journal version अपलोड नहीं किया जा सकता, लेकिन format को छोड़कर वही सामग्री अपलोड की जा सकती है
    • कुछ लोगों के अनुसार arXiv CV के लिए ब्लॉग जैसा बनता जा रहा है, इसलिए यह बदलाव उल्टा सकारात्मक हो सकता है
    • research papers अब भी जमा किए जा सकते हैं
  • arXiv में reputation system लाने का प्रस्ताव भी आया
    विचार यह है कि लेखक अपना public PGP key साथ में अपलोड करें और एक trust network बनाया जाए

    • web-of-trust के आधार पर, कोई भी पेपर recommend कर सके और trust network की गणना से गुणवत्ता का आकलन किया जाए — ऐसा ढांचा सुझाया गया
      यह मौजूदा journals से कम बंद और पूरी तरह open मॉडल से अधिक व्यवस्थित हो सकता है
    • यह मॉडल भी सुझाया गया कि arXiv मुफ़्त preprint बनाए रखे, लेकिन expert review service को paid रूप में दे
    • बताया गया कि एक professor ने “Ivy League के बाहर के शोधकर्ताओं को बाहर कर देना चाहिए” जैसा अतिवादी सुझाव दिया — यह reputation की असमानता पर व्यंग्य था
  • arXiv की quality control समस्या की ओर भी इशारा किया गया
    सिर्फ October में 26,000 submissions हुई थीं (आँकड़ों का लिंक), और बिना सत्यापन वाले पेपरों की भरमार है
    सुझाव दिया गया कि छोटी submission fee लेने से spam कम हो सकता है

    • हालांकि, कुछ लोगों का मत है कि LLM उपयोगकर्ताओं को पूरे user base की जगह सीधे target करके दंडित किया जाना चाहिए
    • एक विश्लेषण यह भी है कि बात सिर्फ पैसों की नहीं, बल्कि पेपरों के ज़रिए नौकरी·admission·visa जैसे वास्तविक लाभ हासिल करने की है
    • अगर submission fee हो, तो कम से कम सरल review की लागत निकलनी चाहिए; और review स्तर के अनुसार ‘unreviewed·light review·full review·reproducibility verification’ जैसी श्रेणियाँ बनाने का सुझाव भी दिया गया
    • Metafilter की तरह सिर्फ 1 dollar signup fee लेने से भी spam पर रोक लग सकती है — ऐसी राय भी आई
  • यह भी कहा गया कि HN पोस्ट का शीर्षक गलत था
    असल में सही अभिव्यक्ति यह है: “AI द्वारा लिखे गए review papers की तेज़ी से बढ़ती संख्या के कारण arXiv के CS क्षेत्र में review papers के लिए peer review अनिवार्य किया जा रहा है”

    • मूल शीर्षक का “Due to LLMs” ऐसा भ्रम दे सकता था कि मतलब ‘LLM द्वारा लिखे गए papers’ है
    • arXiv का मूल उद्देश्य peer review से पहले सार्वजनिक करना है, इसलिए यह कदम उस मूल्य को नुकसान नहीं पहुँचाता
    • कुछ लोगों ने अफ़सोस जताया कि अब LLM papers से पैदा होने वाला अजीब हास्य शायद कम देखने को मिलेगा
  • कुछ लोगों ने यह जानना चाहा कि पूरी तरह AI-generated papers को arXiv पर डालने वालों की प्रेरणा क्या होती है
    submission process झंझटभरा होने के बावजूद लोग ऐसा क्यों करते हैं, यह सवाल उठा

    • समझाया गया कि h-index में हेरफेर के लिए पेपरों की संख्या बढ़ाने की अकादमिक दुनिया की पुरानी प्रवृत्ति LLM से और तेज़ हो रही है
    • EB-1 visa जैसी प्रक्रियाओं में ‘academic paper author’ होना मूल्यांकन का एक बिंदु है, इसलिए औपचारिक रूप से भी पेपर चढ़ाना बहुत मूल्यवान हो सकता है
    • यह भी अनुमान लगाया गया कि कुछ लोग सिर्फ उपलब्धि दिखाने के लिए परिवार या employer को दिखाना चाहते होंगे
  • यह भी इंगित किया गया कि अधिकतर low-quality papers AI-संबंधित विषयों पर हैं
    बहुत से लोग जब पहली बार LLM देखते हैं, तो “LLM से LLM पर लिखवाते हैं” जैसी self-referential experiment करने लगते हैं
    नतीजतन, मूल डेटा का खिचड़ी-जैसा सार तैयार होता है

    • AI-generated papers CS के बाहर दूसरे क्षेत्रों में भी मिल रहे हैं, और कुछ तो मौजूद ही न होने वाले papers को cite करते हैं
    • यह आशा जताई गई कि arXiv को ‘सिर्फ नए research’ तक सीमित न किया जाए। AI-generated research papers भी पहले से मौजूद हैं, और उन्हें पकड़ना और कठिन है
    • arXiv की अहमियत शुरुआती feedback और openness में है, इसलिए ‘सिर्फ peer-reviewed papers की अनुमति’ का मतलब व्यवहार में ‘अंदर मत आओ’ जैसा होगा
  • arXiv के इस कदम को सकारात्मक रूप से आँका गया
    तेज़ी से बदलते multi-agent systems और agentic LLMs जैसे क्षेत्रों में स्पष्ट मानदंडों की ज़रूरत है
    अगर paper type, data·code links, benchmark scope जैसी machine-readable metadata माँगी जाए, तो विश्वसनीयता बढ़ सकती है
    ‘Survey’ या ‘Position’ tags और reproducibility checklist को standardize किया जाए, तो शुरुआती विचारों को रोके बिना भी गुणवत्ता बनाए रखी जा सकती है

  • arXiv पहले से ही self-promotion के लिए low-quality papers की समस्या झेलता रहा है
    यह LLM से पहले का भी मामला है

    • लेकिन arXiv मूल रूप से नतीजों को तेज़ी से साझा करने का platform है, इसलिए कुछ लोगों के अनुसार गुणवत्ता में गिरावट कोई ‘पीड़ा’ कम और ऐसा ढांचा ज़्यादा है जहाँ users को खुद छाँटकर पढ़ना पड़ता है