40 पॉइंट द्वारा GN⁺ 2026-03-09 | 7 टिप्पणियां | WhatsApp पर शेयर करें
  • AI द्वारा जनरेट किए गए टेक्स्ट में बार-बार दिखने वाले writing patterns (tropes) को श्रेणीवार वर्गीकृत करने वाली एकल Markdown फ़ाइल
  • इस फ़ाइल को AI system prompt में जोड़ने पर आम AI-शैली की भाषा से बचने के लिए मॉडल को प्रेरित किया जा सकता है
  • शब्द चयन, वाक्य संरचना, पैराग्राफ संरचना, tone, formatting, composition जैसी 6 बड़ी श्रेणियों के तहत 30 से अधिक ठोस पैटर्न उदाहरणों सहित व्यवस्थित किए गए हैं
  • "delve", "tapestry", "landscape" जैसे AI-विशिष्ट अतिशयोक्तिपूर्ण शब्दों से लेकर "It's not X -- it's Y" जैसी झूठी गहराई बनाने वाली वाक्य संरचनाओं तक सब शामिल है
  • हर पैटर्न एक-दो बार इस्तेमाल हो तो ठीक हो सकता है, लेकिन जब कई पैटर्न एक साथ या बार-बार दिखते हैं तब वे AI-जनित टेक्स्ट का मजबूत संकेत बन जाते हैं
  • यह फ़ाइल खुद भी AI की मदद से लिखी गई है, और इसमें "AI के लिए AI, इंसानों के लिए इंसान" जैसा एक डिस्क्लेमर भी शामिल है

शब्द चयन (Word Choice)

  • "Quietly" और जादुई adverbs: "quietly", "deeply", "fundamentally", "remarkably", "arguably" जैसे adverbs का ज़्यादा इस्तेमाल कर साधारण वर्णन को हल्की-सी अतिरिक्त अहमियत देने वाला पैटर्न
    • उदाहरण: "quietly orchestrating workflows", "a quiet intelligence behind it"
  • "Delve" और इसके समान शब्द: यह कभी AI की पहचान का सबसे मशहूर संकेत था, और AI-जनित टेक्स्ट में असामान्य रूप से अधिक बार दिखाई देता है
    • "certainly", "utilize", "leverage" (verb), "robust", "streamline", "harness" भी इसी समूह के शब्द हैं
  • "Tapestry" और "Landscape": जहाँ साधारण शब्द काफ़ी हों, वहाँ अनावश्यक रूप से भव्य संज्ञाओं का इस्तेमाल करने वाला पैटर्न
    • "tapestry" को हर परस्पर जुड़े मामले में, और "landscape" को हर क्षेत्र या domain में बेवजह ठूँसा जाता है
    • "paradigm", "synergy", "ecosystem", "framework" भी इसी तरह के उदाहरण हैं
  • "Serves As" से बचने की प्रवृत्ति: साधारण "is/are" की जगह "serves as", "stands as", "marks", "represents" जैसे बढ़ा-चढ़ाकर जोड़ने वाले शब्दों का उपयोग
    • ऐसा इसलिए होता है क्योंकि AI की repetition penalty उसे सामान्य copula की जगह अधिक चमकदार वाक्यांशों की ओर धकेलती है

वाक्य संरचना (Sentence Structure)

  • Negative Parallelism: "It's not X -- it's Y" पैटर्न, जो AI लेखन में सबसे आम पहचाने जाने वाले संकेतों में से एक है
    • यह हर बात को चौंकाने वाले reframe की तरह पेश कर झूठी गहराई पैदा करता है
    • LLM से पहले इस तरह की बड़े पैमाने की लेखन शैली मौजूद नहीं थी
    • इसका कारणात्मक रूप "not because X, but because Y" भी इसमें शामिल है
  • "Not X. Not Y. Just Z.": दो या अधिक चीज़ों को नकारने के बाद असली बात सामने लाने वाला dramatic countdown पैटर्न
    • इससे ऐसा झूठा अहसास बनता है मानो सच को धीरे-धीरे संकुचित कर खोजा जा रहा हो
    विज्ञापन
  • "The X? A Y.": खुद ही एक ऐसा सवाल उठाना जो किसी ने पूछा ही नहीं, और तुरंत उसका जवाब दे देना — एक rhetorical question-then-answer पैटर्न
    • इसे नाटकीय प्रभाव के लिए इस्तेमाल किया जाता है, और AI इसे बेहतरीन लेखन का सार समझता है
  • दोहराए गए वाक्यांश (Anaphora) का अति-उपयोग: एक ही तरह की sentence opening को तेज़ी से कई बार दोहराना
    • उदाहरण: "They assume that... They assume that... They assume that..."
  • Tricolon का अति-उपयोग: तीन-भाग वाले निर्माण का ज़रूरत से ज़्यादा इस्तेमाल, और कभी-कभी उसे चार या पाँच तक खींच देना
    • एक tricolon सुंदर लग सकता है, लेकिन लगातार तीन tricolon पैटर्न पहचान में असफलता जैसा लगता है
  • "It's Worth Noting": ऐसा भराव transition phrase जो वास्तव में कोई संकेत नहीं देता
    • "It bears mentioning", "Importantly", "Interestingly", "Notably" भी इसी तरह के उदाहरण हैं
    • यह बिना किसी वास्तविक तारतम्य के नया बिंदु शुरू कर देता है
  • सतही विश्लेषण (Superficial Analyses): वाक्य के अंत में present participle ("-ing") जोड़कर ऊपरी स्तर का विश्लेषण ठूँसना
    • जैसे "highlighting its importance", "reflecting broader trends", "contributing to the development of..."
    • इससे साधारण तथ्यों को महत्व, विरासत या व्यापक अर्थ दे दिया जाता है
  • झूठे दायरे (False Ranges): "from X to Y" जैसी रचना, जहाँ X और Y वास्तव में किसी एक scale पर नहीं होते
    • सही उपयोग में यह अर्थपूर्ण मध्य बिंदुओं वाले spectrum का संकेत देता है, लेकिन AI इसे ढीले-ढाले जुड़े दो बिंदु गिनाने के लिए इस्तेमाल करता है
  • Gerund Fragment Litany: किसी दावे के बाद बिना subject वाले gerund fragments की लगातार सूची
    • "Fixing small bugs. Writing straightforward features. Implementing well-defined tickets."
    • पहली पंक्ति ही सब कह चुकी होती है; बाद के fragments बस शब्द संख्या और AI-विशिष्ट rhythm बढ़ाते हैं
    • इंसान आमतौर पर पहला ड्राफ़्ट इस तरह नहीं लिखते; यह शुद्ध संरचनात्मक tic है
विज्ञापन

पैराग्राफ संरचना (Paragraph Structure)

  • छोटे punchy fragments: बहुत छोटे वाक्य या वाक्य-खंडों को अलग पैराग्राफ बनाकर कृत्रिम ज़ोर पैदा करना
    • RLHF training ने मॉडल को सबसे कम स्तर के पाठक के लिए लिखी जाने वाली "readability writing" की दिशा में धकेला है
    • एक वाक्य में एक विचार, मानसिक स्थिति बनाए रखने की ज़रूरत नहीं — यह गैर-मानवीय शैली है
  • भेष बदला हुआ listicle (Listicle in a Trench Coat): क्रमांकित या लेबल लगे बिंदुओं को लगातार गद्य के रूप में छिपाना
    • "The first... The second... The third..." से शुरू होने वाले पैराग्राफ, जो सूची को छिपाते हैं
    • अक्सर तब अपनाया जाता है जब मॉडल को सूची बनाना बंद करने के लिए कहा गया हो

टोन (Tone)

  • "Here's the Kicker": ऐसा झूठा suspense transition जो किसी खुलासे का वादा करता है, जबकि सामने आने वाली बात को उस buildup की ज़रूरत ही नहीं होती
    • "Here's the thing", "Here's where it gets interesting", "Here's what most people miss" भी इसी प्रकार के हैं
  • "Think of It As...": यह मान लेना कि पाठक को कुछ भी समझने के लिए उपमा चाहिए — एक teacher mode default
    • AI अक्सर ऐसी उपमाएँ बनाता है जो मूल अवधारणा से भी कम स्पष्ट होती हैं
  • "Imagine a World Where...": AI की एक विशिष्ट futuristic invitation, जहाँ "Imagine" के बाद इस premise से सहमत होने पर होने वाली शानदार चीज़ों की सूची आती है
  • झूठी vulnerability (False Vulnerability): चौथी दीवार तोड़ने या अपने bias को स्वीकार करने का दिखावा करने वाली performative self-awareness
    • असली vulnerability ठोस और असहज होती है, जबकि AI की vulnerability तराशी हुई और जोखिम-रहित होती है
  • "The Truth Is Simple": वास्तव में साबित करने के बजाय किसी चीज़ को स्पष्ट या सरल घोषित कर देना
  • Grandiose Stakes Inflation: हर तर्क की stakes को विश्व-ऐतिहासिक महत्व तक फुला देना
    • जैसे API pricing पर ब्लॉग पोस्ट का सभ्यता की नियति पर चिंतन बन जाना
  • "Let's Break This Down": विशेषज्ञ पाठकों के लिए भी teacher-student संबंध को default मान लेने वाली शिक्षाप्रद आवाज़
    • "Let's unpack this", "Let's explore", "Let's dive in" भी इसी तरह के हैं
    विज्ञापन
  • अस्पष्ट attribution (Vague Attributions): बिना ठोस स्रोत के दावों को "experts", "observers", "industry reports" जैसी अनाम authority से जोड़ देना
    • इसमें एक व्यक्ति की राय को व्यापक सहमति की तरह, या दो स्रोतों को "several publications" की तरह बढ़ा-चढ़ाकर पेश करना भी शामिल है
  • गढ़े गए conceptual labels (Invented Concept Labels): abstract problem nouns (paradox, trap, creep, divide, vacuum, inversion) को किसी domain word के साथ जोड़कर विश्लेषणात्मक दिखने वाले लेकिन आधारहीन संयुक्त लेबल बनाना
    • जैसे "supervision paradox", "acceleration trap", "workload creep"
    • यह नाम देकर तर्क छोड़ देने वाला rhetorical shorthand बन जाता है, और एक ही लेख में ऐसे कई लेबल दिखें तो यह AI slop का मजबूत संकेत है

फ़ॉर्मैटिंग (Formatting)

  • Em-Dash Addiction: dramatic pause, parenthetical insertion और turning point के लिए em dash का जुनूनी अति-उपयोग
    • इंसानी लेखक एक लेख में 2-3 का स्वाभाविक उपयोग करते हैं, जबकि AI 20 से अधिक कर सकता है
  • Bold-First Bullets: हर bullet point का bold phrase से शुरू होना
    • Claude और ChatGPT के Markdown output में यह बहुत आम है, लेकिन हाथ से लिखते समय शायद ही कोई इस तरह फ़ॉर्मैट करता है
    • AI-जनित दस्तावेज़, ब्लॉग पोस्ट और README फ़ाइलों (ख़ासकर emoji के साथ) का पक्का संकेत
  • Unicode Decoration: Unicode arrows (→), smart/curly quotes जैसी विशेष characters का उपयोग, जिन्हें सामान्य keyboard से आसानी से टाइप नहीं किया जाता
    • असली लेखक text editor में सीधे quotes और ->, => का इस्तेमाल करते हैं
    • Claude को विशेष रूप से → arrow पसंद है

संरचना (Composition)

  • Fractal Summaries: "आगे क्या कहेंगे, अभी क्या कह रहे हैं, और अभी क्या कह चुके" — इसे दस्तावेज़ के हर स्तर पर लागू करना
    • हर subsection, section और पूरे document के साथ अलग summary जुड़ जाती है
    विज्ञापन
  • Dead Metaphor: एक ही metaphor पर अटक जाना और उसे पूरे लेख में बार-बार दोहराना
    • इंसानी लेखक उपमा लाते हैं, इस्तेमाल करते हैं, फिर आगे बढ़ जाते हैं; AI उसे 5-10 बार दोहराता है
  • Historical Analogy Stacking: ख़ासकर टेक लेखन में आम, जहाँ ऐतिहासिक कंपनियों या तकनीकी क्रांतियों को तेज़ी से गिनाकर झूठी authority बनाई जाती है
    • जैसे "Apple didn't build Uber. Facebook didn't build Spotify..." वाला पैटर्न
  • One-Point Dilution: एक ही बिंदु को हज़ारों शब्दों में 10 अलग-अलग तरीकों से दोहराना
    • अलग उपमाओं, उदाहरणों और framing के ज़रिए उसी विचार को दोहराकर उसे "comprehensive" दिखाने की padding
  • Content Duplication: एक ही लेख के भीतर पूरे sections या paragraphs को ज्यों का त्यों दोहरा देना
    • यह तब होता है जब मॉडल पहले से लिखी सामग्री को ट्रैक नहीं कर पाता, ख़ासकर लंबे लेखों में
    • यह unedited AI output का पक्का संकेत है, हालांकि अब पहले से कम आम है
  • Signposted Conclusion: "In conclusion", "To sum up", "In summary" कहकर निष्कर्ष को स्पष्ट रूप से घोषित करना
    • अच्छी लेखन शैली में निष्कर्ष पाठक महसूस करता है; उसे बताया नहीं जाता
    • AI template का पालन करता है, इसलिए वह संरचनात्मक चालों को संकेत के रूप में दिखाता है
  • "Despite Its Challenges...": AI का समस्याओं को मान लेना लेकिन तुरंत खारिज कर देना — एक कठोर formula
    • "Despite its [सकारात्मक शब्द], [subject] faces challenges..." के बाद हमेशा "Despite these challenges, [आशावादी निष्कर्ष]" जैसी वही beat आती है

मुख्य सिद्धांत

  • ऊपर के पैटर्न एक बार इस्तेमाल हों तो ठीक हो सकते हैं, लेकिन जब कई पैटर्न साथ दिखते हैं या कोई एक पैटर्न बार-बार आता है, तब समस्या बनती है
  • इंसानों की तरह लिखें: विविध, अपूर्ण और ठोस

7 टिप्पणियां

 
geekygeek 2026-03-09

"इस लेख में लेखक AI द्वारा जनरेट किए गए टेक्स्ट का विश्लेषण करने के बाद 'AI slop' के 6 प्रमुख संकेतों और उसके भीतर छिपी संरचना को उजागर करता है। यह सिर्फ शब्दों की साधारण सूची नहीं है। "delve" या "tapestry" जैसी अतिशयोक्तिपूर्ण शब्दावली से लेकर नकली गहराई पैदा करने वाले वाक्य पैटर्न तक, यह बताता है कि यह लेखन इंसानों जैसा क्यों नहीं लगता। मुख्य बात विविध और अपूर्ण लेखन को फिर से हासिल करना है।"

 
dofuuz 2026-03-17

NamuWiki पर भी इससे संबंधित एक दस्तावेज़ है हाहा
https://namu.wiki/w/…

 
y15un 2026-03-10

जब मैं LaTeX में अपना मास्टर्स thesis लिख रहा था, तब पहली बार em dash(---) और en dash(--) का फर्क सीखा था, और तब से लेकर अब तक मैं लगभग हर English writing में इन्हें अक्सर इस्तेमाल करता आया हूँ। (Espanso में shortcut सेट करके इस्तेमाल करता हूँ)
मुझे अभी तक कभी किसी ने "क्या तुमने AI से लिखवाया?" जैसी टिप्पणी नहीं की है, लेकिन फिर भी यह जानकर थोड़ा अजीब लगता है कि मेरा पसंदीदा punctuation mark अब AI indicator की तरह इस्तेमाल किया जा रहा है.

इससे जुड़ा पढ़ने लायक लेख: https://marcusolang.substack.com/p/im-kenyan-i-dont-write-like-chatgpt

 
y15un 2026-03-10

ढूंढने पर पता चला, यह वही लेख है जो मैंने GeekNews पर देखा था: https://hi.news.hada.io/topic?id=25104

 
savvykang 2026-03-09

वाह... तुमने सच में, **सीधे मुद्दे पर चोट की।**

 
hmmhmmhm 2026-03-09

ओह, अगर इसका कोरियाई वर्ज़न भी आए तो अच्छा रहेगा

 
GN⁺ 2026-03-09
Hacker News की राय
  • अगर आप कोई लेख गंभीरता से साझा करना चाहते हैं, तो ऐसे prompts का इस्तेमाल नहीं करना चाहिए
    मैंने LLM से ब्लॉग पोस्ट लिखवाकर देखी हैं; शुरुआत में वे ठीक लगती हैं, लेकिन कुछ बार दोहराने पर हर लेख एक ही आवाज़ में सुनाई देता है
    दूसरे ब्लॉग, समाचार और whitepaper में भी बिल्कुल वही लहजा बार-बार दिखता है
    पाठक सिर्फ टेक्स्ट की सामग्री नहीं, बल्कि लेखक की अपनी अलग आवाज़ भी सुनना चाहते हैं
    संबंधित लेख: Why We Hate LLM Articles

  • AI writing के कमजोर होने की वजह यह है कि उसमें ‘voice’ नहीं होती
    इंसानी लेखक अपने अनुभव से निकला दृष्टिकोण देता है, लेकिन AI के पास सचमुच कुछ ‘कहने’ का इरादा नहीं होता
    साथ ही यह गहरी स्थिरता भी बनाए नहीं रख पाता। शायद इसलिए कि उसके पास मानवीय लक्ष्य, स्मृति या आत्म-बोध नहीं है

  • ऐसे प्रयास असहज लगते हैं
    AI से लिखी गई पंक्तियों को चालाकी से छिपाने की कोशिश करने के बजाय, बस लोगों का समय बर्बाद नहीं करना चाहिए
    अगर AI से लिखना शर्म की बात नहीं है, तो उसे छिपाने की ज़रूरत नहीं; और अगर शर्म आती है, तो रुक जाना चाहिए
    ज़हरीले कुएँ पर आपत्ति होने के बाद और चतुर ज़हर इस्तेमाल करना सही नहीं है

  • मैं LLM की writing style का अध्ययन कर रहा हूँ, और इस thread में “tapestry” वाला प्रयोग दिलचस्प लगा
    GPT-4o में यह “camaraderie” के बाद सबसे ज़्यादा इस्तेमाल होने वाले शब्दों में था
    base model में ऐसी अजीब शैली कम दिखती है, लेकिन instruction tuning के बाद यह उभरती है
    जानना चाहता हूँ कि क्या इंसानी evaluators से style का मूल्यांकन कराया जाता है, या कोई rubric होता है
    संबंधित पेपर: PNAS पेपर, arXiv प्रीप्रिंट

    • ऐसी अजीब शैली RLHF से आती है
      केन्या और नाइजीरिया के शोध को देखें तो perplexity optimization target होने के कारण pretraining model सबसे ‘predictable’ output को दर्शाता है
    • AI writing style से जुड़े links मैंने यहाँ इकट्ठा किए हैं: AI Writing Style
      इसमें “Hydrogen Jukeboxes” नाम का लेख भी शामिल है
      style changes पर Gwern Branwen की mode collapse analysis में भी चर्चा है
    • मेरे intuition के हिसाब से RLHF से ज़्यादा mode collapse बड़ा कारण है
      DeepSeek R1 Zero जैसे मॉडल, जिनमें human preference बहुत कम है, वे भी अंततः स्थिर patterns पर converge कर जाते हैं
      यह घटना पीढ़ी-दर-पीढ़ी दोहराई जाती है, और web पहले की पीढ़ी के models के output से प्रदूषित होकर एक दुष्चक्र बना देता है
    • इसका संबंध इस बात से भी हो सकता है कि अर्थ token से कैसे जुड़ता है
      उदाहरण के लिए “camaraderie” की tokenization, या यह तथ्य कि अंग्रेज़ी में emoji ही एकमात्र चित्रलिपि जैसे चिन्ह हैं, इसलिए उनका वजन बढ़ जाता है—यह दिलचस्प है
    • मुझे लगता है कि यह style change chat fine-tuning की वजह से भी हो सकता है
  • ऐसी lists के समय के साथ और लंबी होने का खतरा है
    क्योंकि AI लगातार नए clichés बनाता रहेगा

  • यह file LLM से ज़्यादा मेरे जैसे user के लिए दस्तावेज़ लगती है
    “इस file को AI के system prompt में जोड़ो” कहना आखिरकार AI की AI को निर्देश देने जैसा हो जाता है
    इसमें व्याख्या और निर्देश मिले हुए हैं, इसलिए भ्रम होता है। “यह मत करो” जैसी भाषा उल्टा उन शब्दों को और ज़्यादा इस्तेमाल करवाने का दुष्प्रभाव पैदा करती है
    user-facing explanation और AI-facing instruction को अलग होना चाहिए
    मैंने Claude से इसे दोबारा लिखवाया और इस gist में व्यवस्थित किया

    • मूल पाठ और gist में “Negative Parallelism”, “Gerund Fragment Litany” जैसे pattern names बार-बार आते हैं
      LLM के लिए इन नामों से बचना, और अच्छे वाक्यों के सकारात्मक रूप को समझाना ज़्यादा प्रभावी है
      Claude द्वारा दोबारा लिखा गया version यहाँ है
    • मैं भी सहमत हूँ। यह अच्छी list है, लेकिन prompt के रूप में उपयुक्त नहीं
      “यह मत करो” कहने से उल्टा वही चीज़ और बढ़ती है—यानी Streisand effect
      अगर आप किसी खास लेखक की शैली में लिखने को कहें, तो परिणाम ज़्यादा स्वाभाविक और कम generic होता है
      उसके बाद ‘editing agent’ रखकर clichés हटवाएँ, तो नतीजा कहीं बेहतर होता है
  • मैंने Gemini से इतिहास पर research करने की कोशिश की, लेकिन वह तकनीकी रूपकों को रोक ही नहीं पाया
    वह सामंत को CEO, पोप को influencer, और सामंती विद्रोह को job interview की तरह समझा रहा था, और यह लगभग हास्यास्पद था

    • शायद Gemini मुझे ध्यान में रखकर personalized responses देने की कोशिश कर रहा है
      settings में अतिरिक्त निर्देश डाले जा सकते हैं, लेकिन जब मैंने अपना tech stack डाला तो हर जवाब के अंत में “JVM और v8 इसे संभाल लेंगे” जैसा वाक्य जुड़ने लगा
      फिर मैंने उसे इसे नज़रअंदाज़ करने को कहा, तो इस बार उसने व्यंग्यात्मक लहजे में “आपके master's-level दिमाग के हिसाब से…” से शुरू होने वाला पैराग्राफ जोड़ दिया
  • Claude और ChatGPT आजकल “genuine”, “real”, “honest” जैसे शब्द बहुत इस्तेमाल करते हैं
    “no <thing you told me not to do>” जैसे expressions भी बहुत दिखते हैं। लगता है prompt compliance की पुष्टि के लिए होते हैं

    • Reddit, खासकर NBA subreddit में “honestly” का बहुत अधिक उपयोग देखा है
    • “genuinely” जैसे क्रिया-विशेषण भी असली इंसानी लेखन में बढ़े हुए लगते हैं। शायद यह pandemic के बाद का language trend change हो
    • Claude में मैंने नया phrase “Fair enough, …” देखा
    • “X that actually works” भी बहुत आता है
    • “no react hooks” की तरह निर्देश को ज्यों-का-त्यों वाक्य में डाल देने वाले मामले भी आम हैं। इसमें थोड़ा passive-aggressive एहसास आता है
  • Wikipedia में भी संबंधित सामग्री है: Signs of AI Writing
    लेकिन पढ़ते-पढ़ते अपनी ही writing habits भी दिखने लगती हैं, तो थोड़ी शर्मिंदगी होती है
    खासकर “from X to Y” जैसे नकली range expressions मैं खुद भी अक्सर इस्तेमाल करता हूँ
    और LLM शीर्षक और उपशीर्षक को colon से अलग करने की आदत छोड़ ही नहीं पाते

    • इंसान भी ऐसे clichés इस्तेमाल करते हैं, लेकिन AI उन्हें हर पैराग्राफ में दोहराता है
    • संबंधित prompt document: LLM_PROSE_TELLS.md
  • इंसानों द्वारा सीधे लिखे गए उपयोगी स्रोत के रूप में Wikipedia: Signs of AI Writing की सिफारिश करता हूँ