3 पॉइंट द्वारा GN⁺ 2025-12-01 | 2 टिप्पणियां | WhatsApp पर शेयर करें
  • अंतरराष्ट्रीय मशीन लर्निंग कॉन्फ़्रेंस ICLR 2026 के पेपर समीक्षा टिप्पणियों में लगभग 21% पूरी तरह कृत्रिम बुद्धिमत्ता द्वारा लिखे गए होने की पुष्टि हुई
  • Pangram Labs के AI डिटेक्शन टूल ने 75,800 समीक्षा टिप्पणियों का विश्लेषण कर आधे से अधिक में AI उपयोग के संकेत पाए
  • कुछ शोधकर्ताओं ने असामान्य रूप से लंबी या गलत फीडबैक मिलने पर AI निर्माण की संभावना उठाई
  • सम्मेलन ने बताया कि वे AI उपयोग नीति उल्लंघन की जाँच ऑटोमेटेड टूल से करेंगे, और भरोसा बहाल करने की प्रक्रिया शुरू कर दी है
  • यह घटना दिखाती है कि शैक्षणिक समीक्षा प्रक्रिया में पारदर्शिता और विश्वसनीयता सुनिश्चित करना तुरंत जरूरी है

ICLR 2026 के पेपर समीक्षा में उजागर AI उपयोग की स्थिति

  • अंतरराष्ट्रीय मशीन लर्निंग कॉन्फ़्रेंस ICLR 2026 की पेपर समीक्षाओं में लगभग 21% पूरी तरह AI द्वारा लिखित, तथा आधे से अधिक पर AI का प्रभाव होने का संकेत मिला
    • इस विश्लेषण को Pangram Labs ने किया, और इसमें कुल 19,490 पेपर तथा 75,800 समीक्षाएँ शामिल थीं
    • Pangram ने AI-जनित टेक्स्ट डिटेक्शन टूल का उपयोग करके परिणाम सार्वजनिक किए
  • सम्मेलन ने बताया कि वे जाँच करेंगे कि AI का उपयोग समीक्षा नीति का उल्लंघन था या नहीं, और इसके लिए ऑटोमेटेड टूल लागू करेंगे
    • ICLR 2026 के program chair ने इसे बड़े पैमाने पर सामने आया AI समीक्षा मुद्दा का पहला उदाहरण कहा

शोधकर्ताओं की चिंता और जांच प्रक्रिया

  • कई शोधकर्ताओं ने सोशल मीडिया पर उन समीक्षा टिप्पणियों को साझा किया जिन्हें AI द्वारा लिखी जाने की आशंका थी
    • कुछ टिप्पणियों में ‘hallucinated citations’ (काल्पनिक संदर्भ) या अस्पष्ट और अत्यधिक लंबी फीडबैक देखी गई
  • Carnegie Mellon University के Graham Neubig ने असामान्य समीक्षा टिप्पणियों के कारण AI निर्माण सत्यापन की माँग की
    • उन्होंने X (पूर्व ट्विटर) पर एक इनाम नोटिस पोस्ट किया, और इसके जवाब में Pangram Labs के Max Spero ने पूर्ण जांच शुरू की
    • Pangram के अनुसार, उन्होंने सभी सबमिशनों के टेक्स्ट का विश्लेषण करने वाला कोड केवल 12 घंटे में लिख दिया

Pangram Labs की विश्लेषण रिपोर्ट

  • Pangram का टूल LLM (Large Language Model) द्वारा उत्पन्न या संपादित टेक्स्ट की भविष्यवाणी के तरीके से काम करता है
    • परिणामों में 15,899 समीक्षा टिप्पणियाँ पूर्णतः AI-जनित पाईं गईं, जबकि 199 पेपर (1%) भी पूरी तरह AI-लिखित**
    • 61% पेपर मानव-लिखित हैं, जबकि 9% में आधे से अधिक AI-जनित टेक्स्ट मौजूद
  • Pangram ने अपना मॉडल ICLR 2026 में प्रीप्रिंट के रूप में सबमिट किया था, और उसी पेपर की कुछ समीक्षाएँ भी AI-जनित के रूप में चिह्नित की गईं

शोधकर्ताओं की प्रतिक्रिया

  • कोपेनहेगन यूनिवर्सिटी के Desmond Elliott ने कहा कि उनके सबमिट किए गए एक पेपर की समीक्षा ने पेपर का सार ठीक से नहीं समझा और गलत आँकड़े दर्ज किए
    • उनके PhD छात्र ने अनुमान लगाया कि वह समीक्षा शायद LLM से लिखी गई हो
    • Pangram के विश्लेषण में वही समीक्षा सच में पूरी तरह AI-जनित पाई गई
    • उसी समीक्षा ने पेपर को सबसे कम स्कोर दिया, जिससे वह acceptance threshold के सीमा क्षेत्र में आ गया

सम्मेलन की प्रतिक्रिया और आगे की चुनौती

  • सम्मेलन ने AI उपयोग की स्वचालित पहचान हेतु टूल तैनात करने की घोषणा की, जिसका लक्ष्य समीक्षा की विश्वसनीयता बहाल करना है
  • कार्यक्रम प्रमुख ने कहा कि यह प्रक्रिया यह दिखाती है कि ‘trust’ की अवधारणा को फिर से परिभाषित करने की जरूरत है
  • यह घटना एक उदाहरण है कि AI शैक्षणिक समीक्षा प्रक्रिया में गहराई तक पहुँच चुका है और शोध मूल्यांकन की पारदर्शिता सुनिश्चित करना मुख्य प्राथमिकता बनकर सामने आया है

2 टिप्पणियां

 
yuntae 2025-12-01

ऐसे कई दिलचस्प review case दिख रहे हैं
https://reddit.com/r/MachineLearning/…

 
GN⁺ 2025-12-01
Hacker News राय
  • मुझे लगता है कि लेखन में AI पर निर्भरता बढ़ रही है, लेकिन इस लेख में इस्तेमाल की गई methodology Pangram के प्रचार जैसी लगती है
    ज़्यादातर AI detectors भरोसेमंद नहीं हैं, और जिन लोगों ने कभी LLM का इस्तेमाल नहीं किया है, उनके लिए तो यह उल्टा नुकसानदेह भी हो सकते हैं
    इस पर संबंधित चर्चा इस लिंक में देखी जा सकती है

    • मैं Pangram का co-founder हूँ। हमने इस problem space में वास्तविक प्रगति की है
      अगर आप GPTZero जैसे पुराने detectors के बारे में सोच रहे हैं, तो आपने हालिया performance improvements नहीं देखे हैं
      University of Chicago के economists के paper के अनुसार, 1,992 मानव-लिखित documents में 0 false positives थे, और AI documents की detection rate 99% से अधिक थी
    • AI detectors तब ही नुकसानदेह होते हैं जब उनका इस्तेमाल लोगों को सज़ा देने के लिए किया जाता है
      इस study की तरह statistical analysis के लिए उनका इस्तेमाल करना समस्या नहीं है
      वास्तव में AI से लिखे गए papers बहुत कम हैं, और reviews में इसका ज़्यादा इस्तेमाल हुआ है — यह स्वाभाविक नतीजा है
    • कुछ लोग LLM पर अविश्वास जताते हैं, लेकिन अगर कोई study उनकी पुष्टि-पूर्वाग्रह को सही ठहराती हो, तो वे LLM का इस्तेमाल खुशी-खुशी कर लेते हैं
      यह दोहरे मानदंड दिलचस्प हैं
  • 20% का आँकड़ा सही हो या न हो, शीर्ष conferences में review quality की गिरावट हर कोई महसूस कर रहा है
    कुछ क्षेत्रों में reviewer collusion वास्तव में मौजूद है, और कुछ मामलों में AC भी उसमें शामिल रहे हैं
    अब कोई भी सिर्फ़ ‘सिद्धांततः सही काम’ समझकर papers को मन लगाकर review नहीं करता

    • पहले भले ही कोई स्पष्ट incentive न हो, लोग ईमानदारी से review करते थे, लेकिन वह संस्कृति अब लगभग पूरी तरह गायब हो चुकी है
    • जब AI researchers को बहुत ऊँचे वेतन पर hire किया जा रहा है, तो system का विकृत होना स्वाभाविक है
    • इस तरह की स्थिति को एक तरह का market correction भी माना जा सकता है
      जब सिर्फ़ career के लिए papers बहुत ज़्यादा हो जाते हैं, तो reviewers स्वाभाविक रूप से कम ध्यान देने लगते हैं
  • Pangram के analysis के अनुसार ICLR reviews में 21% पूरी तरह AI-generated थे, और आधे से अधिक में AI के निशान थे
    लेकिन सवाल यह है कि “evidence” क्या है, और AI-generated होने को साबित कैसे किया जा सकता है

    • “evidence” शब्द शायद उपयुक्त नहीं था। लेकिन statistical analysis वस्तुनिष्ठ हो सकता है
      इस उद्देश्य के लिए ऐसे tools उपयुक्त हैं
    • उन्होंने अपनी methodology समझाने वाला paper वास्तव में लिखा है
    • शायद AI detector खुद भी AI हो सकता है
    • मैं भी छात्रों के assignments जाँचते समय ऐसी ही समस्या झेलता हूँ
      अक्सर महसूस होता है कि ज़्यादातर चीज़ें AI से लिखी गई हैं, लेकिन साबित नहीं कर सकता, इसलिए कोई कार्रवाई नहीं कर पाता
    • सच तो यह है कि सिर्फ़ text देखकर फ़र्क बताना असंभव है
      metadata जैसी अतिरिक्त जानकारी के बिना, यह तय करना ही अर्थहीन है कि इसे LLM ने लिखा है या नहीं
  • headline सच भी हो सकती है, लेकिन AI detectors की विश्वसनीयता अभी भी कम है
    इस बात का कोई सबूत नहीं है कि Pangram का tool उस बदनामी से ऊपर उठ चुका है

    • Pangram के co-founder के तौर पर कहूँ तो, हमारी false positive rate 10,000 में 1 के स्तर पर है
      इसे हमने blog post में विस्तार से समझाया है
      ICLR 2022 reviews के 10,202 मामलों में 10,190 मानव-लिखित थे, और सिर्फ़ 12 में AI editing के निशान थे
    • conference papers आमतौर पर बहुत standardized writing style का पालन करते हैं, इसलिए AI का इस्तेमाल हुआ या नहीं, इसे अलग करना मुश्किल है
    • अगर papers में 1% और reviews में 20% AI है, तो शायद इसका सीधा मतलब यही है कि reviewers AI पर ज़्यादा निर्भर हो गए हैं
      किसी एक व्यक्ति को दोषी ठहराना मुश्किल है, लेकिन यह लगभग तय है कि बड़ी संख्या में reviews AI को सौंपे गए
  • “21% of reviews are AI-generated” जैसी headline देखकर मुझे उल्टा लगा कि यह उम्मीद से कम है

    • अगर 21% reviews पूरी तरह AI-generated हैं, तो यह सीधे-सीधे स्पष्ट कदाचार है
      accident investigation में जिस ‘Swiss cheese holes aligned’ स्थिति की बात की जाती है, उसी तरह यह कर्तव्य की लगातार उपेक्षा का नतीजा है
  • शुरुआत में मैं चौंका था, लेकिन 21% तो उल्टा हैरान कर देने वाला कम आँकड़ा है
    और ऊपर से यह संख्या AI detector बेचने वाली कंपनी की ओर से आई है, इसलिए false positives की संभावना भी है

  • असली मुद्दा यह नहीं है कि review AI ने लिखा या नहीं, बल्कि review की सटीकता है

    • नहीं, असली मुद्दा वह नहीं है
      conferences खुद को ‘peer review’ पर आधारित बताते हैं, और चाहे AI कितना भी बेहतरीन हो, वह peer नहीं है
    • अगर research सचमुच उपयोगी और सटीक है, तो वही ज़्यादा महत्वपूर्ण है
      Pangram का यह सब AI detection के ज़रिए ग़ुस्सा भड़काकर clickbait पाने की कोशिश जैसा लगता है
    • हक़ीक़त कुछ ऐसी है
      1. एक scientist पूर्वाग्रह से भरी study करता है
      2. reviewer AI से ऊपर-ऊपर विश्वसनीय लगने वाला review तैयार करता है
      3. अंत में researcher को खुद ही उस review की दोबारा समीक्षा करनी पड़ती है — एक अजीब चक्र बन जाता है
  • आख़िरकार AI द्वारा बनाए गए राक्षस के पहले शिकार वही knowledge workers हैं जिन्होंने उसे बनाया — जैसे programmers, researchers, और universities

  • यह वही conference है जहाँ पहले OpenReview bug की वजह से कुछ समय के लिए सभी reviewers की पहचान उजागर हो गई थी
    संबंधित लेख के अनुसार, बाद में scores reset किए गए और नए ACs ने फिर से फ़ैसले लिए

  • आगे चलकर शायद हर paper के साथ AI review को default रूप से देना बेहतर हो, और human reviewers उसका पूरक काम करें
    इससे reviewers AI के output की समीक्षा करेंगे, और authors को भी ज़्यादा अनुमानित feedback मिलेगा
    बेशक human reviewers फिर भी AI का इस्तेमाल कर सकते हैं, लेकिन वही बात authors पर भी लागू होगी