- arXiv Code of Conduct यह निर्धारित करता है कि लेखक के रूप में नाम दर्ज कराने वाला व्यक्ति, सामग्री किस तरह बनाई गई है इससे अलग, पूरे पेपर के लिए जिम्मेदार होता है
- जनरेटिव AI द्वारा बनाई गई अनुचित भाषा, साहित्यिक चोरी, पक्षपात, त्रुटियां, गलत संदर्भ यदि पेपर में शामिल हों, तब भी जिम्मेदारी लेखक की होती है
- यदि arXiv को ऐसा स्पष्ट प्रमाण मिलता है कि लेखक ने LLM-जनित परिणामों का सत्यापन नहीं किया, तो वह पूरे पेपर को अविश्वसनीय मानता है
- दंड है arXiv का 1 साल उपयोग प्रतिबंध, और उसके बाद की सबमिशन पहले किसी प्रतिष्ठित peer-reviewed अकादमिक venue में स्वीकार होनी चाहिए
- hallucinated references या “प्रयोग के वास्तविक अंकों से भरें” जैसे LLM meta comments को स्पष्ट प्रमाण माना जाता है
arXiv लेखकों की जिम्मेदारी और दंड
- arXiv Code of Conduct यह निर्धारित करता है कि किसी पेपर के लेखक के रूप में नाम दर्ज कराना, सामग्री किस तरीके से बनाई गई है इससे अलग, पूरे पेपर की जिम्मेदारी लेना है
- यदि जनरेटिव AI tools द्वारा बनाई गई अनुचित भाषा, साहित्यिक चोरी की गई सामग्री, पक्षपाती सामग्री, त्रुटियां, गलतियां, गलत संदर्भ, या भ्रम पैदा करने वाली सामग्री वैज्ञानिक लेखन में शामिल हो, तो उसकी जिम्मेदारी लेखक की होती है
- यदि सबमिशन में ऐसा स्पष्ट प्रमाण हो कि लेखक ने LLM-जनित परिणामों की जांच नहीं की, तो arXiv उस पेपर की किसी भी सामग्री को विश्वसनीय नहीं मानता
- दंड है arXiv का 1 साल उपयोग प्रतिबंध, और उसके बाद arXiv पर सबमिट करने के लिए पहले किसी प्रतिष्ठित peer-reviewed अकादमिक venue में स्वीकार होना जरूरी है
- स्पष्ट प्रमाण में hallucinated references और LLM के meta comments शामिल हैं
- उदाहरण: “here is a 200 word summary; would you like me to make any changes?”
- उदाहरण: “the data in this table is illustrative, fill it in with the real numbers from your experiments”
1 टिप्पणियां
Hacker News की राय
अगर सज़ा सिर्फ arXiv पर 1 साल का प्रतिबंध न होकर उसके बाद यह शर्त भी हो कि आगे के submission पहले किसी प्रतिष्ठित peer-reviewed publication venue में स्वीकार किए जाएँ, तो यह विज्ञान के लिए सचमुच बहुत अच्छा होगा
arXiv मुफ़्त है, लेकिन यह अधिकार से ज़्यादा एक विशेषाधिकार के करीब है
हालाँकि https://info.arxiv.org/help/policies/index.html में यह साफ़ नहीं दिखता, इसलिए हो सकता है यह अभी योजना के चरण में हो, या फिर मैंने ठीक से न ढूँढा हो
जैसा किसी PhD ने कहा था, doomsday device की असली बात यह है कि अगर उसे छिपा दिया जाए तो उसका कोई मतलब नहीं रहता
reference जाँचने के लिए यह अच्छा है, लेकिन hallucinated references के साथ आने वाले घटिया science को शायद इससे बहुत कम ही रोका जा सकेगा
arXiv submissions को इतनी बारीकी से जाँचता भी नहीं, तो यह पता कैसे चलेगा?
वे “errors, mistakes” की बात करते हैं, लेकिन बुनियादी requirements पूरी हुई हैं या नहीं, यह automated system से जाँचा जाता है और कभी-कभी सतही human review हो जाता है; बड़े पैमाने पर हर reference को verify करना संभव नहीं है
यह कुछ वैसा होगा जैसे किसी preprint repository में, जहाँ journals से 100 गुना ज़्यादा submissions आते हैं, peer review जैसा कुछ करने की कोशिश करना
और arXiv पर डालने तथा peer review पास करने के बीच बहुत बड़ा अंतर है
निजी तौर पर भी मुझे math में शायद दस से ज़्यादा बार peer review rejection मिला है, लेकिन arXiv math पर डालने में कभी दिक्कत नहीं हुई
peer review सिर्फ यह नहीं देखता कि चीज़ नई और सही है या नहीं, बल्कि यह भी देखता है कि “क्या यह math community के लिए रोचक है”, और यह मूलतः subjective है तथा arXiv posting से कहीं ज़्यादा कठिन
number theory के एक प्रसिद्ध professor ने endorsement के समय paper की प्रशंसा की थी, और एक दूसरे professor ने email में publication की सिफ़ारिश भी की थी, फिर भी 3 बार reject हुआ और अब भी इंतज़ार में है
अगर peer-reviewed journal publication को अनिवार्य किया गया, तो बहुत से researchers के लिए arXiv हमेशा के लिए बंद हो सकता है, और यह preprint की भावना के भी ख़िलाफ़ होगा
यह बस एक hallucinated citation है, कोई धोखाधड़ी जैसी चीज़ नहीं
इससे उस व्यक्ति के research content या quality का ज़रा भी पता नहीं चलता
ऐसी छोटी पहली गलती के लिए 1 साल का प्रतिबंध ही काफ़ी लगता है
लोग गलतियाँ करते हैं, और काफ़ी लोग उनसे सीख भी सकते हैं
सिर्फ इसलिए कि किसी AI ने जीवन में एक बार reference hallucinate कर दिया, किसी की जीवन-प्रगति या मानवता के लिए योगदान देने की क्षमता को स्थायी रूप से बर्बाद करने की ज़रूरत नहीं है
यह सुधारात्मक से ज़्यादा दंडात्मक है
यह स्वागतयोग्य कदम है, लेकिन मूल रूप से मैं चाहता हूँ कि cited papers के लिए सही BibTeX entries आसानी से बनाने की समस्या ज़्यादा अच्छी तरह हल हो
किसी खास paper की citation जानकारी कई तरह के स्रोतों से आ सकती है, जैसे अलग-अलग publishers के journals, conferences, preprints आदि
वही paper arXiv और conference website जैसी कई जगहों पर भी हो सकता है, और details थोड़ी-थोड़ी अलग हो सकती हैं
Zotero जैसे tools की वजह से publication webpages से citations निकालना काफ़ी आसान हुआ है, लेकिन निकाली गई BibTeX details में अब भी समस्याएँ रहती हैं
author names और title आम तौर पर ठीक निकल आते हैं, लेकिन publisher, year, volume/issue, pages, URL आदि सही निकले हैं या नहीं, और LaTeX formatting में सही दिखते हैं या नहीं, यह अब भी manually जाँचना पड़ता है
अलग-अलग publications की citation styles भी अलग हो सकती हैं
consistent citation data को आसानी से निकालने का कोई unified तरीका न होने के कारण, दुर्भाग्य से लोग AI-generated citation data वाला shortcut अपना सकते हैं
मुझे यह पक्का नहीं कि hallucinated citations main text में बनते हैं या अलग BibTeX file में, इसलिए हो सकता है मेरी समझ थोड़ी चूक रही हो
https://zbib.org/
https://xcancel.com/tdietterich/status/2055000956144935055
सवाल यह है कि hallucinated references को बड़े पैमाने पर कैसे detect किया जाएगा
यह manual sampling होगी या automated DOI validation, समझ नहीं आता
policy की दिशा सही लगती है, लेकिन enforcement कठिन है
अच्छा है
अगर आपके पास LLM output को ध्यान से verify करने का समय नहीं है, तो मेरे पास भी उसे पढ़ने का समय नहीं है
क्या आपने कभी कोई एक random paper चुनकर उसे सचमुच गहराई से पढ़ा है?
अभी यहाँ “प्रतिष्ठित” वाली शर्त पर कुछ नहीं दिख रहा
प्रतिष्ठित review किस मानक से तय होगा?
ऐसी सज़ा देने से पहले सावधानीपूर्वक verification ज़रूरी है
अगर किसी ने बिना स्पष्ट अनुमति के किसी और का नाम जोड़कर submission कर दिया, तो क्या सब पर प्रतिबंध लगेगा?
अगर इसे ठीक से लागू किया जाए, तो यह अच्छी दिशा है — इस बात से मैं सहमत हूँ
फिर तो एक एक-वाक्य वाले paper से arXiv पर सभी को प्रतिबंधित भी किया जा सकता है
Twitter पर हमेशा दिखने वाले LLM के अतिउत्साही समर्थक इस कदम पर गुस्से में replies करते दिखें, यह काफ़ी बताने वाला संकेत है
जैसे LLM contamination पर लिखी पोस्टों के comments में होता है, कुछ लोग यह स्वीकार ही नहीं कर पाते कि कुछ लोग LLM को नापसंद करते हैं, और तेज़ी से अपनाने में ज़रा-सी भी रुकावट आए तो भड़क जाते हैं
लगता है मानो HN की सहमति यही हो कि हर जगह LLM adoption को अतिशय रूप से तेज़ करना चाहिए
यह बेतुका है, लेकिन साथ ही बहुत HN-जैसा भी
अच्छा है। academic literature हर तरह के low-quality कचरे की वजह से संकट में है
आसानी से पकड़े जा सकने वाले hallucinations के लिए जवाबदेही तय करना अच्छी बात ही हो सकती है
करीब 40 साल पहले मैंने physics में PhD की थी, और तब भी गलत references एक समस्या थे
एक सहकर्मी ने main text में सचमुच का AI कचरा वाक्य छोड़े हुए paper submit कर दिया था और उसे बहुत कड़ी revision request मिली
submit करने से पहले draft ज़रूर जाँचना चाहिए
reviewers इन्हें पकड़ लेते हैं
मैं screen reader user हूँ, इसलिए अक्सर papers को raw TeX में पढ़ता हूँ, और मैंने हर तरह की चीज़ें देखी हैं
अपमानजनक शब्द, reviewers और professors के लिए गालियाँ, fraud की स्वीकारोक्ति, यहाँ तक कि पिछली धोखाधड़ी छिपाने के लिए submission से पहले coauthor को और fraud करने के निर्देश तक
यह जितना आप सोचें उससे बहुत कम है, papers के 1% से भी कम, लेकिन सचमुच मौजूद है
नए arXiv papers के TeX source पर एक बार LLM-based fraud detection चलाना उपयोगी हो सकता है
यह सब कुछ नहीं पकड़ेगा, लेकिन सबसे मूर्ख ठगों में से कुछ को ज़रूर पकड़ सकता है
इसका एक सकारात्मक पक्ष भी है: कभी-कभी ऐसे मज़बूत दावे मिल जाते हैं जो review पार नहीं कर पाए, conference page limits की वजह से छूटी अतिरिक्त व्याख्याएँ मिल जाती हैं, या ऐसे experimental results दिख जाते हैं जिन्हें authors ने शामिल करने लायक पर्याप्त महत्वपूर्ण नहीं समझा
इन्हें बहुत सावधानी से देखना चाहिए, लेकिन कभी-कभी ये सच में उपयोगी होते हैं