1 पॉइंट द्वारा GN⁺ 2 시간 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • LLM लिखने में सहायता देकर दक्षता बढ़ाते हैं, लेकिन जब वे इंसानी लेखन को संपादित करते हैं तो निष्कर्ष, रुख और तर्क के प्रकार बदल देते हैं, और मानव संपादन से अलग दिशा में अर्थ परिवर्तन पैदा करते हैं
  • उपयोगकर्ता अध्ययन में जिन लोगों ने LLM का अधिक इस्तेमाल किया, उन्होंने परिणाम से संतुष्ट होने के बावजूद कहा कि उनकी अपनी आवाज़ और रचनात्मकता सांख्यिकीय रूप से महत्वपूर्ण स्तर पर घट गई; यह पसंद का एक विरोधाभास दिखाता है
  • ArgRewrite-v2 के इंसानों द्वारा लिखे गए 86 निबंधों को तीन LLMs (gpt-5-mini, gemini-2.5-flash, claude-haiku) से संपादित कराया गया; केवल न्यूनतम संशोधन या व्याकरण सुधार के निर्देश पर भी शब्दावली और अर्थ में बड़ा बदलाव आया
  • LLM द्वारा लिखे या संपादित पाठ अधिक औपचारिक और निर्वैयक्तिक शैली की ओर बढ़ते हैं; संज्ञा, विशेषण और भावनात्मक, तार्किक, सांख्यिकीय भाषा बढ़ती है, जबकि सर्वनाम और व्यक्तिगत अनुभव-आधारित तर्क घटते हैं
  • ICLR 2026 के 18,000 peer review के विश्लेषण में AI-generated माने गए review कुल का 21% थे, और उन्होंने मानव review की तुलना में स्कोर 10% अधिक दिए तथा reproducibility और scalability पर अधिक ध्यान केंद्रित किया

शोध का अवलोकन

  • LLM का उपयोग दुनिया भर में 1 अरब से अधिक लोग करते हैं, और उनका सबसे आम उपयोग लेखन सहायता है
  • LLM दक्षता में बड़ा सुधार दे सकते हैं, लेकिन यह सवाल उठता है कि क्या वे वास्तव में वही लिखते हैं जो उपयोगकर्ता चाहते हैं
  • कई उपयोगकर्ता LLM शैली का “अहसास” पहचान लेते हैं, लेकिन LLM पाठ के अर्थ को कितना विकृत करते हैं, इसे वे अक्सर ठीक से नहीं समझते
  • विश्लेषण के लिए तीन प्रकार की सामग्री ली गई
    • मानव उपयोगकर्ता अध्ययन
    • इंसानों द्वारा लिखे गए तर्कपूर्ण निबंधों का डेटासेट
    • शीर्ष machine learning सम्मेलन के review
  • शोध सामग्री Paper और Code के रूप में उपलब्ध है

मुख्य निष्कर्ष

  • LLM लेख के निष्कर्ष बदल देते हैं, और साथ ही रुख तथा तर्क के प्रकार भी बदलते हैं
  • उपयोगकर्ताओं ने परिणाम से संतुष्ट होने की बात कही, लेकिन साथ ही यह भी कहा कि उनकी आवाज़ और रचनात्मकता सांख्यिकीय रूप से महत्वपूर्ण स्तर पर कम हो गई; यह पसंद का एक विरोधाभास दिखाता है
  • LLM केवल व्याकरण सुधार का निर्देश मिलने पर भी मानव संपादन की तुलना में अधिक बड़ा अर्थ परिवर्तन पैदा करते हैं
  • 2026 International Conference of Learning Representations(ICLR) review में भी इसका असर दिखाई दिया
    • AI-generated माने गए peer review कुल का 21% थे
    • इन review ने पेपर स्वीकार या अस्वीकार करने के कारणों में मानव review से सांख्यिकीय रूप से अलग वैज्ञानिक मानदंडों पर ध्यान दिया
  • जैसे-जैसे LLM समाज में और अधिक एकीकृत होंगे, ऐसे सूक्ष्म अर्थ परिवर्तन राजनीति, संस्कृति, विज्ञान, और दोस्तों व परिवार के बीच संचार तक को बदल सकते हैं
  • शोध का केंद्र तर्कपूर्ण लेखन था, लेकिन परिणाम लेखन और संचार के अन्य रूपों पर भी सामान्यीकृत किए जा सकते हैं

LLM संपादन पाठ को मानव संपादन से अलग दिशा में ले जाता है

  • जब LLM इंसानों के लिखे पाठ को संपादित करते हैं, तो उसी निबंध को मनुष्यों द्वारा संपादित किए जाने की तुलना में बहुत अलग तरह के एकरूप बदलाव पैदा होते हैं
  • counterfactual विश्लेषण यह तुलना करता है कि किसी एक पाठ को LLM संपादित करते तो कैसा होता और इंसान संपादित करते तो कैसा होता
  • मानव संपादन के मामले में
    • पहला ड्राफ्ट हल्के धूसर बिंदु के रूप में दिखाया गया
    • विशेषज्ञ feedback के बाद दूसरा ड्राफ्ट गहरे धूसर बिंदु के रूप में दिखाया गया
    • MiniLM-L6 semantic embedding space को PCA में project करके बदलाव को visualise किया गया
  • LLM संपादन के मामले में
    • मूल इंसानी निबंधों को expert feedback और कई prompt के साथ दिया गया
    • केवल न्यूनतम संशोधन का निर्देश देने पर भी सभी निबंधों में बड़ा बदलाव आया
    • बदलाव की दिशा मानव लेखन शैली से हटकर एक सुसंगत दिशा में गई
  • ArgRewrite-v2 डेटासेट के उदाहरण दिखाते हैं कि LLM-सहायता लेखन कैसे निबंध के निष्कर्ष बदल देता है और इंसानी आवाज़ को हटा देता है

कार्यप्रणाली और डेटासेट

  • मानव उपयोगकर्ता अध्ययन

    • लेखन प्रक्रिया पर LLM उपयोग के प्रभाव को समझने के लिए उपयोगकर्ता अध्ययन किया गया
    • 55 लोगों को LLM उपयोग की अनुमति थी, और 45 लोगों के पास LLM access नहीं था
    • सत्र के दौरान कई उपयोगकर्ताओं ने स्वेच्छा से LLM उपयोग से परहेज़ किया, इसलिए परिणामों को वास्तविक उपयोग विकल्प के आधार पर condition किया गया
    • प्रतिभागियों को दो समूहों में बाँटा गया
      • LLM-Influenced: वे लोग जिन्होंने LLM का उपयोग नहीं किया, या केवल जानकारी खोजने के लिए किया
      • LLM: वे लोग जिन्होंने LLM का व्यापक उपयोग किया
    • समूहों का विभाजन मूल्यांकन और विश्लेषण से पहले ही पूर्वनिर्धारित रूप से किया गया
    • इस वर्गीकरण में chat log, अंतिम निबंध, और self-report उपयोग स्कोर का उपयोग किया गया
  • ArgRewrite-v2

    • 2021 में एकत्र किए गए इंसानों द्वारा लिखे गए 86 निबंधों का उपयोग किया गया
    • यह डेटा उस समय का है जब LLM व्यापक रूप से सार्वजनिक नहीं हुए थे
    • तीन production LLMs से निबंध संपादित कराने के लिए prompt दिया गया
      • gpt-5-mini
      • gemini-2.5-flash
      • claude-haiku
    • पाँच प्रकार के संशोधन लागू किए गए
      • सामान्य संशोधन
      • न्यूनतम संशोधन
      • व्याकरण संशोधन
      • completion
      • expansion
    • LLM-generated ड्राफ्ट और मानव-लिखित संशोधित संस्करणों की कई आयामों पर तुलना की गई
      • अर्थ
      • शब्दावली उपयोग
      • पद-प्रकार वितरण
      • भावनात्मक स्वर
      • शैलीगत विशेषताएँ
  • ICLR 2026 review विश्लेषण

    • ICLR 2026 के 18,000 peer review का विश्लेषण किया गया
    • ऐसे पेपर चुने गए जिनमें एक review पूरी तरह मानव-लिखित और एक पूरी तरह LLM-generated था
    • LLM-as-a-Judge classifier का उपयोग करके पहचाना गया कि प्रत्येक review ने कौन-सी strengths और weaknesses का उल्लेख किया
    • मनुष्यों और LLM द्वारा दिए गए स्कोर की तुलना की गई

उपयोगकर्ता संतुष्टि और आवाज़ खोने का विरोधाभास

  • जिन उपयोगकर्ताओं ने LLM का अधिक उपयोग किया, उन्होंने कहा कि उनका निबंध उनकी अपनी आवाज़ को प्रतिबिंबित नहीं करता
  • साथ ही उन्होंने परिणाम से संतुष्टि भी जताई, जिससे पसंद का विरोधाभास सामने आया
  • उपयोगकर्ताओं ने संतुष्टि व्यक्त की, लेकिन रचनात्मकता और आवाज़ में महत्वपूर्ण कमी की रिपोर्ट भी की
  • RLHF पसंद को optimise करता है, लेकिन रचनात्मकता और अर्थ को सुरक्षित रखने के लिए यह पर्याप्त नहीं है

अर्थ-स्थान में एक साझा दिशा की ओर बदलाव

  • control group के इंसानी निबंध embedding space में व्यापक रूप से फैले हुए थे
  • यह वितरण व्यक्ति-विशेष के दृष्टिकोण, लेखन शैली और तर्क पद्धति की विविधता को दर्शाता है
  • LLM-लिखित निबंध उन क्षेत्रों में सघन रूप से इकट्ठा हुए जहाँ मानव-लिखित निबंध मौजूद नहीं थे
  • LLM संशोधन बड़े अर्थ परिवर्तन पैदा करते हैं, और इन परिवर्तनों की दिशा भी काफी हद तक साझा होती है
  • LLM-संपादित पाठ space के उस क्षेत्र में चले गए जिसे पहले किसी भी मानव-लिखित निबंध ने नहीं घेरा था
  • यह इस बात का प्रमाण है कि LLM अर्थ को मानव संपादकों से अलग तरीके से स्थानांतरित करते हैं

निष्कर्ष और रुख में बदलाव

  • LLM उपयोगकर्ताओं ने “क्या पैसा खुशी तक ले जाता है?” इस प्रश्न पर अधिक तटस्थ निबंध लिखे
  • इन निबंधों में स्पष्ट रुख से बचने की प्रवृत्ति दिखी
  • यह तर्क के रुख में ही बदलाव का एक मूलभूत रूप था

शब्दावली और व्याकरण में बदलाव

  • LLM संपादन मानव संपादन की तुलना में प्रयुक्त शब्दों को कहीं अधिक बदल देता है
  • प्रत्येक लेखक की विशिष्ट lexical fingerprint को LLM-प्राथमिक शब्दावली ढक देती है
  • LLM अधिक औपचारिक शैली अपनाते हैं
  • पद-प्रकार वितरण में भी बदलाव देखा गया
    • संज्ञा और विशेषण का उपयोग बढ़ता है
    • सर्वनाम का उपयोग घटता है
  • सर्वनामों में कमी को इस संकेत के रूप में देखा गया कि प्रथम-पुरुष और अनुभव-आधारित तर्क घटते हैं, और भाषा अधिक निर्वैयक्तिक होती जाती है

भावनात्मक, विश्लेषणात्मक, तार्किक और सांख्यिकीय भाषा में वृद्धि

  • LLM-सहायता लेखन भावनात्मक भाषा को बढ़ाता है
  • मानव संपादन और LLM संपादन की तुलना में सकारात्मक और नकारात्मक दोनों तरह की भावनात्मक अभिव्यक्ति में उल्लेखनीय वृद्धि दिखी
  • यह वृद्धि तब भी हुई जब निर्देश केवल न्यूनतम संशोधन और expert feedback तक सीमित थे
  • LIWC विश्लेषण में ArgRewrite-v2 के LLM-संपादित पाठों में अधिक औपचारिक, तार्किक और hierarchical thinking pattern दर्शाने वाली भाषा बढ़ी
  • उपयोगकर्ता अध्ययन में मनुष्यों ने व्यक्तिगत अनुभव से जुड़े तर्क अधिक उपयोग किए
  • LLM-लिखित निबंधों में सांख्यिकीय और तार्किक तर्क अधिक थे
  • LLM-प्रभावित निबंध expert opinion का भी हवाला देते थे, जो मानव-लिखित निबंधों में अपेक्षाकृत दुर्लभ था

वैज्ञानिक संस्थानों में मूल्यांकन मानदंडों का विकृतिकरण

  • जब वैज्ञानिक review प्रक्रिया में LLM का उपयोग हुआ, तो LLM ने मनुष्यों की तुलना में 10% अधिक स्कोर दिए
  • मनुष्यों और LLM review में strengths और weaknesses के मानदंड अलग थे
  • मानव review में निम्न बिंदु अधिक बार आए
    • clarity को strength मानने की संभावना 32% अधिक थी
    • clarity को weakness मानने की संभावना 58% अधिक थी
    • शोध की relevance को उठाने की संभावना 32% अधिक थी
  • LLM review में निम्न बिंदु अधिक बार आए
    • reproducibility का उल्लेख करने की संभावना 136% अधिक थी
    • scalability का उल्लेख करने की संभावना 84% अधिक थी
  • मानव और LLM review के मूल्यांकन मानदंडों का यह अंतर इस बात को प्रभावित कर सकता है कि किस प्रकार का वैज्ञानिक कार्य वैध माना जाए और प्रोत्साहित किया जाए

निष्कर्ष

  • परिणाम दिखाते हैं कि AI भाषा और सांस्कृतिक संस्थानों को सूक्ष्म रूप से विकृत करने वाला एक चिंताजनक पैटर्न पैदा कर रहा है
  • AI-generated content पहले ही कई क्षेत्रों में प्रवेश कर चुका है
    • संसदीय भाषण
    • गीत के बोल
    • फिल्म की पटकथा
    • बोलीचाल
    • सहकर्मियों और प्रियजनों को भेजे गए संदेश
  • जो लोग AI पर बहुत अधिक निर्भर हैं, वे यह पहचानते हुए भी कि AI उनकी आवाज़ और रचनात्मकता को कम करता है, परिणाम से उतने ही संतुष्ट रहते हैं
  • उपयोग में आसानी और व्यक्तिगत करियर को तेज़ करने की संभावना लोगों को AI-generated text बनाते रहने के लिए प्रेरित कर सकती है
  • जैसा कि ICLR डेटा दिखाता है, पेशेवर संदर्भों में AI-generated text को अपने लेखन के रूप में जमा करने की प्रेरणा भी बनी रह सकती है

1 टिप्पणियां

 
GN⁺ 2 시간 전
Lobste.rs की राय
  • यह सच में असहज कर देने वाली हद तक disturbing है। खासकर वह उदाहरण, जहाँ LLM ने autonomous vehicles से जुड़ी दलील को बदल दिया, काफ़ी चौंकाने वाला है
    LLM का तटस्थ रुख अपनाना बिल्कुल भी हैरान करने वाला नहीं है। मेरी समझ में mainstream LLM products का मूल लक्ष्य यही है कि वे मूलतः “ज्ञात” सत्य बोलें, उपयोगकर्ता की मदद करें, और बाकी मामलों में धुंधला-सा बीच का रुख लें
    लोग मूल्यवान लेखन करने या उसे संपादित करने के लिए LLM का सहारा लेते हैं, यह बात मेरी समझ से बाहर है

    • भले ही हम इसे सद्भावनापूर्ण नज़रिए से देखें कि इंसान ने पूरी तरह खुद draft लिखा और LLM से सिर्फ “कोई समस्या है क्या, यह जाँचने” को कहा, तब भी बाद के बदलावों की समीक्षा करते समय यह कैसे न दिखे कि नतीजा जमा किए गए लेख से अलग मतलब वाला हो गया है, यह मैं नहीं समझ पाता
      “असहज” शब्द बिल्कुल सही बैठता है
    • मेरी समझ के मुताबिक Musk का Grok जानबूझकर पक्षपाती बनाया गया है, या कम से कम कभी ऐसा था
    • किसी assistant या copy editor के लिए यह अच्छी professional practice है
      मुझे समझ नहीं आता कि LLM को उस दिशा में train करना बुरा क्यों माना जाए
  • मेरे environment में यह पेज लगातार ठीक से load नहीं हो रहा। a preprint है

  • frequency graph हैरान कर देने वाला है, और ईमानदारी से कहूँ तो यह लगभग वैसा ही दिखता है जैसा मैंने सोचा था
    इसे एक gift की तरह लेना चाहिए। बाईं तरफ़ वाली चीज़ें अब strong words बन चुकी हैं, और दाईं तरफ़ वाली चीज़ें अब धीरे-धीरे meaningless words बनती जा रही हैं

    • समझ नहीं आया आप किस graph की बात कर रहे हैं। मुझे पेज पर ऐसा कुछ नहीं दिखा
  • जब मैंने Claude को copy editor की तरह इस्तेमाल करने की कोशिश की, तब मैंने यह बहुत देखा। मुझे prompt कई बार बदलना पड़ा ताकि वह सिर्फ spelling, grammar और punctuation पर ध्यान दे
    अर्थ बदलने की प्रवृत्ति शायद embeddings के काम करने के तरीके से जुड़ी है

  • AI/LLM को लेकर बहुत-सी चर्चाओं में उपयोगकर्ता की agency और responsibility अजीब तरह से गायब रहती है
    अगर हम मान लें कि उपयोगकर्ता वयस्क हैं, तो LLM का इस्तेमाल एक सक्रिय चुनाव है। वे तय कर सकते हैं कि output का उपयोग करना है या नहीं, और किस तरह करना है
    अगर AI राजनीति, संस्कृति, विज्ञान, यहाँ तक कि दोस्तों और परिवार से संवाद करने के तरीके तक को “मूल रूप से बदल” रहा है, तो ऐसा इसलिए है क्योंकि लोगों ने ऐसा करने का चुनाव किया, और AI ने उस चुनाव को आसान बना दिया
    सिर्फ इसलिए कि उपयोगकर्ताओं के पास कोई राय या पसंद नहीं थी, यह तथ्य नहीं बदलता कि चुनाव किया गया था