नई arXiv नीति: hallucinated references पर 1 साल का प्रतिबंध

(twitter.com/tdietterich)

1 पॉइंट द्वारा GN⁺ 5 시간 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें

arXiv Code of Conduct यह निर्धारित करता है कि लेखक के रूप में नाम दर्ज कराने वाला व्यक्ति, सामग्री किस तरह बनाई गई है इससे अलग, पूरे पेपर के लिए जिम्मेदार होता है
जनरेटिव AI द्वारा बनाई गई अनुचित भाषा, साहित्यिक चोरी, पक्षपात, त्रुटियां, गलत संदर्भ यदि पेपर में शामिल हों, तब भी जिम्मेदारी लेखक की होती है
यदि arXiv को ऐसा स्पष्ट प्रमाण मिलता है कि लेखक ने LLM-जनित परिणामों का सत्यापन नहीं किया, तो वह पूरे पेपर को अविश्वसनीय मानता है
दंड है arXiv का 1 साल उपयोग प्रतिबंध, और उसके बाद की सबमिशन पहले किसी प्रतिष्ठित peer-reviewed अकादमिक venue में स्वीकार होनी चाहिए
hallucinated references या “प्रयोग के वास्तविक अंकों से भरें” जैसे LLM meta comments को स्पष्ट प्रमाण माना जाता है

arXiv लेखकों की जिम्मेदारी और दंड

arXiv Code of Conduct यह निर्धारित करता है कि किसी पेपर के लेखक के रूप में नाम दर्ज कराना, सामग्री किस तरीके से बनाई गई है इससे अलग, पूरे पेपर की जिम्मेदारी लेना है
यदि जनरेटिव AI tools द्वारा बनाई गई अनुचित भाषा, साहित्यिक चोरी की गई सामग्री, पक्षपाती सामग्री, त्रुटियां, गलतियां, गलत संदर्भ, या भ्रम पैदा करने वाली सामग्री वैज्ञानिक लेखन में शामिल हो, तो उसकी जिम्मेदारी लेखक की होती है
यदि सबमिशन में ऐसा स्पष्ट प्रमाण हो कि लेखक ने LLM-जनित परिणामों की जांच नहीं की, तो arXiv उस पेपर की किसी भी सामग्री को विश्वसनीय नहीं मानता
दंड है arXiv का 1 साल उपयोग प्रतिबंध, और उसके बाद arXiv पर सबमिट करने के लिए पहले किसी प्रतिष्ठित peer-reviewed अकादमिक venue में स्वीकार होना जरूरी है
स्पष्ट प्रमाण में hallucinated references और LLM के meta comments शामिल हैं
- उदाहरण: “here is a 200 word summary; would you like me to make any changes?”
- उदाहरण: “the data in this table is illustrative, fill it in with the real numbers from your experiments”

1 टिप्पणियां

GN⁺ 5 시간 전

Hacker News की राय

अगर सज़ा सिर्फ arXiv पर 1 साल का प्रतिबंध न होकर उसके बाद यह शर्त भी हो कि आगे के submission पहले किसी प्रतिष्ठित peer-reviewed publication venue में स्वीकार किए जाएँ, तो यह विज्ञान के लिए सचमुच बहुत अच्छा होगा
arXiv मुफ़्त है, लेकिन यह अधिकार से ज़्यादा एक विशेषाधिकार के करीब है
हालाँकि https://info.arxiv.org/help/policies/index.html में यह साफ़ नहीं दिखता, इसलिए हो सकता है यह अभी योजना के चरण में हो, या फिर मैंने ठीक से न ढूँढा हो
जैसा किसी PhD ने कहा था, doomsday device की असली बात यह है कि अगर उसे छिपा दिया जाए तो उसका कोई मतलब नहीं रहता
- मुझे लगता है कि यह पोस्ट आते ही किसी ने पहले से ही एक reference checker का जल्दी-जल्दी बना हुआ वर्ज़न तैयार कर लिया होगा और उसे subscription के रूप में बेचने की सोच रहा होगा
  reference जाँचने के लिए यह अच्छा है, लेकिन hallucinated references के साथ आने वाले घटिया science को शायद इससे बहुत कम ही रोका जा सकेगा
- मेरे हिसाब से यह कुछ ज़्यादा ही कठोर लगता है
  arXiv submissions को इतनी बारीकी से जाँचता भी नहीं, तो यह पता कैसे चलेगा?
  वे “errors, mistakes” की बात करते हैं, लेकिन बुनियादी requirements पूरी हुई हैं या नहीं, यह automated system से जाँचा जाता है और कभी-कभी सतही human review हो जाता है; बड़े पैमाने पर हर reference को verify करना संभव नहीं है
  यह कुछ वैसा होगा जैसे किसी preprint repository में, जहाँ journals से 100 गुना ज़्यादा submissions आते हैं, peer review जैसा कुछ करने की कोशिश करना
  और arXiv पर डालने तथा peer review पास करने के बीच बहुत बड़ा अंतर है
  निजी तौर पर भी मुझे math में शायद दस से ज़्यादा बार peer review rejection मिला है, लेकिन arXiv math पर डालने में कभी दिक्कत नहीं हुई
  peer review सिर्फ यह नहीं देखता कि चीज़ नई और सही है या नहीं, बल्कि यह भी देखता है कि “क्या यह math community के लिए रोचक है”, और यह मूलतः subjective है तथा arXiv posting से कहीं ज़्यादा कठिन
  number theory के एक प्रसिद्ध professor ने endorsement के समय paper की प्रशंसा की थी, और एक दूसरे professor ने email में publication की सिफ़ारिश भी की थी, फिर भी 3 बार reject हुआ और अब भी इंतज़ार में है
  अगर peer-reviewed journal publication को अनिवार्य किया गया, तो बहुत से researchers के लिए arXiv हमेशा के लिए बंद हो सकता है, और यह preprint की भावना के भी ख़िलाफ़ होगा
- मैं इस बात से सहमत नहीं हूँ कि यह “विज्ञान के लिए सचमुच बहुत अच्छा” है
  यह बस एक hallucinated citation है, कोई धोखाधड़ी जैसी चीज़ नहीं
  इससे उस व्यक्ति के research content या quality का ज़रा भी पता नहीं चलता
  ऐसी छोटी पहली गलती के लिए 1 साल का प्रतिबंध ही काफ़ी लगता है
  लोग गलतियाँ करते हैं, और काफ़ी लोग उनसे सीख भी सकते हैं
  सिर्फ इसलिए कि किसी AI ने जीवन में एक बार reference hallucinate कर दिया, किसी की जीवन-प्रगति या मानवता के लिए योगदान देने की क्षमता को स्थायी रूप से बर्बाद करने की ज़रूरत नहीं है
  यह सुधारात्मक से ज़्यादा दंडात्मक है
यह स्वागतयोग्य कदम है, लेकिन मूल रूप से मैं चाहता हूँ कि cited papers के लिए सही BibTeX entries आसानी से बनाने की समस्या ज़्यादा अच्छी तरह हल हो
किसी खास paper की citation जानकारी कई तरह के स्रोतों से आ सकती है, जैसे अलग-अलग publishers के journals, conferences, preprints आदि
वही paper arXiv और conference website जैसी कई जगहों पर भी हो सकता है, और details थोड़ी-थोड़ी अलग हो सकती हैं
Zotero जैसे tools की वजह से publication webpages से citations निकालना काफ़ी आसान हुआ है, लेकिन निकाली गई BibTeX details में अब भी समस्याएँ रहती हैं
author names और title आम तौर पर ठीक निकल आते हैं, लेकिन publisher, year, volume/issue, pages, URL आदि सही निकले हैं या नहीं, और LaTeX formatting में सही दिखते हैं या नहीं, यह अब भी manually जाँचना पड़ता है
अलग-अलग publications की citation styles भी अलग हो सकती हैं
consistent citation data को आसानी से निकालने का कोई unified तरीका न होने के कारण, दुर्भाग्य से लोग AI-generated citation data वाला shortcut अपना सकते हैं
मुझे यह पक्का नहीं कि hallucinated citations main text में बनते हैं या अलग BibTeX file में, इसलिए हो सकता है मेरी समझ थोड़ी चूक रही हो
- Zotero में URL/DOI/ISBN आदि से मनचाहे format में citation या BibTeX file बनाने का एक मुफ़्त online tool भी है
  https://zbib.org/
https://xcancel.com/tdietterich/status/2055000956144935055
- code of conduct के अनुसार, paper author के रूप में नाम होने का मतलब है कि सामग्री कैसे भी बनाई गई हो, हर author उसकी पूरी सामग्री के लिए पूर्ण रूप से ज़िम्मेदार है
सवाल यह है कि hallucinated references को बड़े पैमाने पर कैसे detect किया जाएगा
यह manual sampling होगी या automated DOI validation, समझ नहीं आता
policy की दिशा सही लगती है, लेकिन enforcement कठिन है
अच्छा है
अगर आपके पास LLM output को ध्यान से verify करने का समय नहीं है, तो मेरे पास भी उसे पढ़ने का समय नहीं है
- दुख की बात है, लेकिन LLM-generated होने या न होने से अलग, arXiv papers में से 99% शायद पढ़ने लायक नहीं होते
  क्या आपने कभी कोई एक random paper चुनकर उसे सचमुच गहराई से पढ़ा है?
अभी यहाँ “प्रतिष्ठित” वाली शर्त पर कुछ नहीं दिख रहा
प्रतिष्ठित review किस मानक से तय होगा?
ऐसी सज़ा देने से पहले सावधानीपूर्वक verification ज़रूरी है
अगर किसी ने बिना स्पष्ट अनुमति के किसी और का नाम जोड़कर submission कर दिया, तो क्या सब पर प्रतिबंध लगेगा?
अगर इसे ठीक से लागू किया जाए, तो यह अच्छी दिशा है — इस बात से मैं सहमत हूँ
- और जहाँ तक मुझे पता है, verification के बिना मनचाहे coauthors जोड़े जा सकते हैं
  फिर तो एक एक-वाक्य वाले paper से arXiv पर सभी को प्रतिबंधित भी किया जा सकता है
Twitter पर हमेशा दिखने वाले LLM के अतिउत्साही समर्थक इस कदम पर गुस्से में replies करते दिखें, यह काफ़ी बताने वाला संकेत है
जैसे LLM contamination पर लिखी पोस्टों के comments में होता है, कुछ लोग यह स्वीकार ही नहीं कर पाते कि कुछ लोग LLM को नापसंद करते हैं, और तेज़ी से अपनाने में ज़रा-सी भी रुकावट आए तो भड़क जाते हैं
- यह greyed out हुआ है, यह अजीब है
  लगता है मानो HN की सहमति यही हो कि हर जगह LLM adoption को अतिशय रूप से तेज़ करना चाहिए
  यह बेतुका है, लेकिन साथ ही बहुत HN-जैसा भी
अच्छा है। academic literature हर तरह के low-quality कचरे की वजह से संकट में है
आसानी से पकड़े जा सकने वाले hallucinations के लिए जवाबदेही तय करना अच्छी बात ही हो सकती है
- यह सिर्फ AI की समस्या नहीं है
  करीब 40 साल पहले मैंने physics में PhD की थी, और तब भी गलत references एक समस्या थे
एक सहकर्मी ने main text में सचमुच का AI कचरा वाक्य छोड़े हुए paper submit कर दिया था और उसे बहुत कड़ी revision request मिली
submit करने से पहले draft ज़रूर जाँचना चाहिए
reviewers इन्हें पकड़ लेते हैं
- LaTeX comments भी देखनी चाहिए। arXiv उन्हें publicly visible बना देता है
  मैं screen reader user हूँ, इसलिए अक्सर papers को raw TeX में पढ़ता हूँ, और मैंने हर तरह की चीज़ें देखी हैं
  अपमानजनक शब्द, reviewers और professors के लिए गालियाँ, fraud की स्वीकारोक्ति, यहाँ तक कि पिछली धोखाधड़ी छिपाने के लिए submission से पहले coauthor को और fraud करने के निर्देश तक
  यह जितना आप सोचें उससे बहुत कम है, papers के 1% से भी कम, लेकिन सचमुच मौजूद है
  नए arXiv papers के TeX source पर एक बार LLM-based fraud detection चलाना उपयोगी हो सकता है
  यह सब कुछ नहीं पकड़ेगा, लेकिन सबसे मूर्ख ठगों में से कुछ को ज़रूर पकड़ सकता है
  इसका एक सकारात्मक पक्ष भी है: कभी-कभी ऐसे मज़बूत दावे मिल जाते हैं जो review पार नहीं कर पाए, conference page limits की वजह से छूटी अतिरिक्त व्याख्याएँ मिल जाती हैं, या ऐसे experimental results दिख जाते हैं जिन्हें authors ने शामिल करने लायक पर्याप्त महत्वपूर्ण नहीं समझा
  इन्हें बहुत सावधानी से देखना चाहिए, लेकिन कभी-कभी ये सच में उपयोगी होते हैं
- यहाँ की सलाह मुझे शुरू से कचरा submit न करने की नहीं, बल्कि कचरे को ऐसा छिपाने की लग रही है कि reviewer उसे पकड़ न पाए — और यह दुखद है

नई arXiv नीति: hallucinated references पर 1 साल का प्रतिबंध

arXiv लेखकों की जिम्मेदारी और दंड

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय