AI लेखन में बचने लायक घिसे-पिटे पैटर्नों का संग्रह
(tropes.fyi)- AI द्वारा जनरेट किए गए टेक्स्ट में बार-बार दिखने वाले writing patterns (tropes) को श्रेणीवार वर्गीकृत करने वाली एकल Markdown फ़ाइल
- इस फ़ाइल को AI system prompt में जोड़ने पर आम AI-शैली की भाषा से बचने के लिए मॉडल को प्रेरित किया जा सकता है
- शब्द चयन, वाक्य संरचना, पैराग्राफ संरचना, tone, formatting, composition जैसी 6 बड़ी श्रेणियों के तहत 30 से अधिक ठोस पैटर्न उदाहरणों सहित व्यवस्थित किए गए हैं
- "delve", "tapestry", "landscape" जैसे AI-विशिष्ट अतिशयोक्तिपूर्ण शब्दों से लेकर "It's not X -- it's Y" जैसी झूठी गहराई बनाने वाली वाक्य संरचनाओं तक सब शामिल है
- हर पैटर्न एक-दो बार इस्तेमाल हो तो ठीक हो सकता है, लेकिन जब कई पैटर्न एक साथ या बार-बार दिखते हैं तब वे AI-जनित टेक्स्ट का मजबूत संकेत बन जाते हैं
- यह फ़ाइल खुद भी AI की मदद से लिखी गई है, और इसमें "AI के लिए AI, इंसानों के लिए इंसान" जैसा एक डिस्क्लेमर भी शामिल है
शब्द चयन (Word Choice)
- "Quietly" और जादुई adverbs: "quietly", "deeply", "fundamentally", "remarkably", "arguably" जैसे adverbs का ज़्यादा इस्तेमाल कर साधारण वर्णन को हल्की-सी अतिरिक्त अहमियत देने वाला पैटर्न
- उदाहरण: "quietly orchestrating workflows", "a quiet intelligence behind it"
- "Delve" और इसके समान शब्द: यह कभी AI की पहचान का सबसे मशहूर संकेत था, और AI-जनित टेक्स्ट में असामान्य रूप से अधिक बार दिखाई देता है
- "certainly", "utilize", "leverage" (verb), "robust", "streamline", "harness" भी इसी समूह के शब्द हैं
- "Tapestry" और "Landscape": जहाँ साधारण शब्द काफ़ी हों, वहाँ अनावश्यक रूप से भव्य संज्ञाओं का इस्तेमाल करने वाला पैटर्न
- "tapestry" को हर परस्पर जुड़े मामले में, और "landscape" को हर क्षेत्र या domain में बेवजह ठूँसा जाता है
- "paradigm", "synergy", "ecosystem", "framework" भी इसी तरह के उदाहरण हैं
- "Serves As" से बचने की प्रवृत्ति: साधारण "is/are" की जगह "serves as", "stands as", "marks", "represents" जैसे बढ़ा-चढ़ाकर जोड़ने वाले शब्दों का उपयोग
- ऐसा इसलिए होता है क्योंकि AI की repetition penalty उसे सामान्य copula की जगह अधिक चमकदार वाक्यांशों की ओर धकेलती है
वाक्य संरचना (Sentence Structure)
- Negative Parallelism: "It's not X -- it's Y" पैटर्न, जो AI लेखन में सबसे आम पहचाने जाने वाले संकेतों में से एक है
- यह हर बात को चौंकाने वाले reframe की तरह पेश कर झूठी गहराई पैदा करता है
- LLM से पहले इस तरह की बड़े पैमाने की लेखन शैली मौजूद नहीं थी
- इसका कारणात्मक रूप "not because X, but because Y" भी इसमें शामिल है
- "Not X. Not Y. Just Z.": दो या अधिक चीज़ों को नकारने के बाद असली बात सामने लाने वाला dramatic countdown पैटर्न
- इससे ऐसा झूठा अहसास बनता है मानो सच को धीरे-धीरे संकुचित कर खोजा जा रहा हो
- "The X? A Y.": खुद ही एक ऐसा सवाल उठाना जो किसी ने पूछा ही नहीं, और तुरंत उसका जवाब दे देना — एक rhetorical question-then-answer पैटर्न
- इसे नाटकीय प्रभाव के लिए इस्तेमाल किया जाता है, और AI इसे बेहतरीन लेखन का सार समझता है
- दोहराए गए वाक्यांश (Anaphora) का अति-उपयोग: एक ही तरह की sentence opening को तेज़ी से कई बार दोहराना
- उदाहरण: "They assume that... They assume that... They assume that..."
- Tricolon का अति-उपयोग: तीन-भाग वाले निर्माण का ज़रूरत से ज़्यादा इस्तेमाल, और कभी-कभी उसे चार या पाँच तक खींच देना
- एक tricolon सुंदर लग सकता है, लेकिन लगातार तीन tricolon पैटर्न पहचान में असफलता जैसा लगता है
- "It's Worth Noting": ऐसा भराव transition phrase जो वास्तव में कोई संकेत नहीं देता
- "It bears mentioning", "Importantly", "Interestingly", "Notably" भी इसी तरह के उदाहरण हैं
- यह बिना किसी वास्तविक तारतम्य के नया बिंदु शुरू कर देता है
- सतही विश्लेषण (Superficial Analyses): वाक्य के अंत में present participle ("-ing") जोड़कर ऊपरी स्तर का विश्लेषण ठूँसना
- जैसे "highlighting its importance", "reflecting broader trends", "contributing to the development of..."
- इससे साधारण तथ्यों को महत्व, विरासत या व्यापक अर्थ दे दिया जाता है
- झूठे दायरे (False Ranges): "from X to Y" जैसी रचना, जहाँ X और Y वास्तव में किसी एक scale पर नहीं होते
- सही उपयोग में यह अर्थपूर्ण मध्य बिंदुओं वाले spectrum का संकेत देता है, लेकिन AI इसे ढीले-ढाले जुड़े दो बिंदु गिनाने के लिए इस्तेमाल करता है
- Gerund Fragment Litany: किसी दावे के बाद बिना subject वाले gerund fragments की लगातार सूची
- "Fixing small bugs. Writing straightforward features. Implementing well-defined tickets."
- पहली पंक्ति ही सब कह चुकी होती है; बाद के fragments बस शब्द संख्या और AI-विशिष्ट rhythm बढ़ाते हैं
- इंसान आमतौर पर पहला ड्राफ़्ट इस तरह नहीं लिखते; यह शुद्ध संरचनात्मक tic है
पैराग्राफ संरचना (Paragraph Structure)
- छोटे punchy fragments: बहुत छोटे वाक्य या वाक्य-खंडों को अलग पैराग्राफ बनाकर कृत्रिम ज़ोर पैदा करना
- RLHF training ने मॉडल को सबसे कम स्तर के पाठक के लिए लिखी जाने वाली "readability writing" की दिशा में धकेला है
- एक वाक्य में एक विचार, मानसिक स्थिति बनाए रखने की ज़रूरत नहीं — यह गैर-मानवीय शैली है
- भेष बदला हुआ listicle (Listicle in a Trench Coat): क्रमांकित या लेबल लगे बिंदुओं को लगातार गद्य के रूप में छिपाना
- "The first... The second... The third..." से शुरू होने वाले पैराग्राफ, जो सूची को छिपाते हैं
- अक्सर तब अपनाया जाता है जब मॉडल को सूची बनाना बंद करने के लिए कहा गया हो
टोन (Tone)
- "Here's the Kicker": ऐसा झूठा suspense transition जो किसी खुलासे का वादा करता है, जबकि सामने आने वाली बात को उस buildup की ज़रूरत ही नहीं होती
- "Here's the thing", "Here's where it gets interesting", "Here's what most people miss" भी इसी प्रकार के हैं
- "Think of It As...": यह मान लेना कि पाठक को कुछ भी समझने के लिए उपमा चाहिए — एक teacher mode default
- AI अक्सर ऐसी उपमाएँ बनाता है जो मूल अवधारणा से भी कम स्पष्ट होती हैं
- "Imagine a World Where...": AI की एक विशिष्ट futuristic invitation, जहाँ "Imagine" के बाद इस premise से सहमत होने पर होने वाली शानदार चीज़ों की सूची आती है
- झूठी vulnerability (False Vulnerability): चौथी दीवार तोड़ने या अपने bias को स्वीकार करने का दिखावा करने वाली performative self-awareness
- असली vulnerability ठोस और असहज होती है, जबकि AI की vulnerability तराशी हुई और जोखिम-रहित होती है
- "The Truth Is Simple": वास्तव में साबित करने के बजाय किसी चीज़ को स्पष्ट या सरल घोषित कर देना
- Grandiose Stakes Inflation: हर तर्क की stakes को विश्व-ऐतिहासिक महत्व तक फुला देना
- जैसे API pricing पर ब्लॉग पोस्ट का सभ्यता की नियति पर चिंतन बन जाना
- "Let's Break This Down": विशेषज्ञ पाठकों के लिए भी teacher-student संबंध को default मान लेने वाली शिक्षाप्रद आवाज़
- "Let's unpack this", "Let's explore", "Let's dive in" भी इसी तरह के हैं
- अस्पष्ट attribution (Vague Attributions): बिना ठोस स्रोत के दावों को "experts", "observers", "industry reports" जैसी अनाम authority से जोड़ देना
- इसमें एक व्यक्ति की राय को व्यापक सहमति की तरह, या दो स्रोतों को "several publications" की तरह बढ़ा-चढ़ाकर पेश करना भी शामिल है
- गढ़े गए conceptual labels (Invented Concept Labels): abstract problem nouns (paradox, trap, creep, divide, vacuum, inversion) को किसी domain word के साथ जोड़कर विश्लेषणात्मक दिखने वाले लेकिन आधारहीन संयुक्त लेबल बनाना
- जैसे "supervision paradox", "acceleration trap", "workload creep"
- यह नाम देकर तर्क छोड़ देने वाला rhetorical shorthand बन जाता है, और एक ही लेख में ऐसे कई लेबल दिखें तो यह AI slop का मजबूत संकेत है
फ़ॉर्मैटिंग (Formatting)
- Em-Dash Addiction: dramatic pause, parenthetical insertion और turning point के लिए em dash का जुनूनी अति-उपयोग
- इंसानी लेखक एक लेख में 2-3 का स्वाभाविक उपयोग करते हैं, जबकि AI 20 से अधिक कर सकता है
- Bold-First Bullets: हर bullet point का bold phrase से शुरू होना
- Claude और ChatGPT के Markdown output में यह बहुत आम है, लेकिन हाथ से लिखते समय शायद ही कोई इस तरह फ़ॉर्मैट करता है
- AI-जनित दस्तावेज़, ब्लॉग पोस्ट और README फ़ाइलों (ख़ासकर emoji के साथ) का पक्का संकेत
- Unicode Decoration: Unicode arrows (→), smart/curly quotes जैसी विशेष characters का उपयोग, जिन्हें सामान्य keyboard से आसानी से टाइप नहीं किया जाता
- असली लेखक text editor में सीधे quotes और ->, => का इस्तेमाल करते हैं
- Claude को विशेष रूप से → arrow पसंद है
संरचना (Composition)
- Fractal Summaries: "आगे क्या कहेंगे, अभी क्या कह रहे हैं, और अभी क्या कह चुके" — इसे दस्तावेज़ के हर स्तर पर लागू करना
- हर subsection, section और पूरे document के साथ अलग summary जुड़ जाती है
- Dead Metaphor: एक ही metaphor पर अटक जाना और उसे पूरे लेख में बार-बार दोहराना
- इंसानी लेखक उपमा लाते हैं, इस्तेमाल करते हैं, फिर आगे बढ़ जाते हैं; AI उसे 5-10 बार दोहराता है
- Historical Analogy Stacking: ख़ासकर टेक लेखन में आम, जहाँ ऐतिहासिक कंपनियों या तकनीकी क्रांतियों को तेज़ी से गिनाकर झूठी authority बनाई जाती है
- जैसे "Apple didn't build Uber. Facebook didn't build Spotify..." वाला पैटर्न
- One-Point Dilution: एक ही बिंदु को हज़ारों शब्दों में 10 अलग-अलग तरीकों से दोहराना
- अलग उपमाओं, उदाहरणों और framing के ज़रिए उसी विचार को दोहराकर उसे "comprehensive" दिखाने की padding
- Content Duplication: एक ही लेख के भीतर पूरे sections या paragraphs को ज्यों का त्यों दोहरा देना
- यह तब होता है जब मॉडल पहले से लिखी सामग्री को ट्रैक नहीं कर पाता, ख़ासकर लंबे लेखों में
- यह unedited AI output का पक्का संकेत है, हालांकि अब पहले से कम आम है
- Signposted Conclusion: "In conclusion", "To sum up", "In summary" कहकर निष्कर्ष को स्पष्ट रूप से घोषित करना
- अच्छी लेखन शैली में निष्कर्ष पाठक महसूस करता है; उसे बताया नहीं जाता
- AI template का पालन करता है, इसलिए वह संरचनात्मक चालों को संकेत के रूप में दिखाता है
- "Despite Its Challenges...": AI का समस्याओं को मान लेना लेकिन तुरंत खारिज कर देना — एक कठोर formula
- "Despite its [सकारात्मक शब्द], [subject] faces challenges..." के बाद हमेशा "Despite these challenges, [आशावादी निष्कर्ष]" जैसी वही beat आती है
मुख्य सिद्धांत
- ऊपर के पैटर्न एक बार इस्तेमाल हों तो ठीक हो सकते हैं, लेकिन जब कई पैटर्न साथ दिखते हैं या कोई एक पैटर्न बार-बार आता है, तब समस्या बनती है
- इंसानों की तरह लिखें: विविध, अपूर्ण और ठोस
7 टिप्पणियां
"इस लेख में लेखक AI द्वारा जनरेट किए गए टेक्स्ट का विश्लेषण करने के बाद 'AI slop' के 6 प्रमुख संकेतों और उसके भीतर छिपी संरचना को उजागर करता है। यह सिर्फ शब्दों की साधारण सूची नहीं है। "delve" या "tapestry" जैसी अतिशयोक्तिपूर्ण शब्दावली से लेकर नकली गहराई पैदा करने वाले वाक्य पैटर्न तक, यह बताता है कि यह लेखन इंसानों जैसा क्यों नहीं लगता। मुख्य बात विविध और अपूर्ण लेखन को फिर से हासिल करना है।"
NamuWiki पर भी इससे संबंधित एक दस्तावेज़ है हाहा
https://namu.wiki/w/…
जब मैं LaTeX में अपना मास्टर्स thesis लिख रहा था, तब पहली बार em dash(---) और en dash(--) का फर्क सीखा था, और तब से लेकर अब तक मैं लगभग हर English writing में इन्हें अक्सर इस्तेमाल करता आया हूँ। (Espanso में shortcut सेट करके इस्तेमाल करता हूँ)
मुझे अभी तक कभी किसी ने "क्या तुमने AI से लिखवाया?" जैसी टिप्पणी नहीं की है, लेकिन फिर भी यह जानकर थोड़ा अजीब लगता है कि मेरा पसंदीदा punctuation mark अब AI indicator की तरह इस्तेमाल किया जा रहा है.
इससे जुड़ा पढ़ने लायक लेख: https://marcusolang.substack.com/p/im-kenyan-i-dont-write-like-chatgpt
ढूंढने पर पता चला, यह वही लेख है जो मैंने GeekNews पर देखा था: https://hi.news.hada.io/topic?id=25104
वाह... तुमने सच में, **सीधे मुद्दे पर चोट की।**ओह, अगर इसका कोरियाई वर्ज़न भी आए तो अच्छा रहेगा
Hacker News की राय
अगर आप कोई लेख गंभीरता से साझा करना चाहते हैं, तो ऐसे prompts का इस्तेमाल नहीं करना चाहिए
मैंने LLM से ब्लॉग पोस्ट लिखवाकर देखी हैं; शुरुआत में वे ठीक लगती हैं, लेकिन कुछ बार दोहराने पर हर लेख एक ही आवाज़ में सुनाई देता है
दूसरे ब्लॉग, समाचार और whitepaper में भी बिल्कुल वही लहजा बार-बार दिखता है
पाठक सिर्फ टेक्स्ट की सामग्री नहीं, बल्कि लेखक की अपनी अलग आवाज़ भी सुनना चाहते हैं
संबंधित लेख: Why We Hate LLM Articles
AI writing के कमजोर होने की वजह यह है कि उसमें ‘voice’ नहीं होती
इंसानी लेखक अपने अनुभव से निकला दृष्टिकोण देता है, लेकिन AI के पास सचमुच कुछ ‘कहने’ का इरादा नहीं होता
साथ ही यह गहरी स्थिरता भी बनाए नहीं रख पाता। शायद इसलिए कि उसके पास मानवीय लक्ष्य, स्मृति या आत्म-बोध नहीं है
ऐसे प्रयास असहज लगते हैं
AI से लिखी गई पंक्तियों को चालाकी से छिपाने की कोशिश करने के बजाय, बस लोगों का समय बर्बाद नहीं करना चाहिए
अगर AI से लिखना शर्म की बात नहीं है, तो उसे छिपाने की ज़रूरत नहीं; और अगर शर्म आती है, तो रुक जाना चाहिए
ज़हरीले कुएँ पर आपत्ति होने के बाद और चतुर ज़हर इस्तेमाल करना सही नहीं है
मैं LLM की writing style का अध्ययन कर रहा हूँ, और इस thread में “tapestry” वाला प्रयोग दिलचस्प लगा
GPT-4o में यह “camaraderie” के बाद सबसे ज़्यादा इस्तेमाल होने वाले शब्दों में था
base model में ऐसी अजीब शैली कम दिखती है, लेकिन instruction tuning के बाद यह उभरती है
जानना चाहता हूँ कि क्या इंसानी evaluators से style का मूल्यांकन कराया जाता है, या कोई rubric होता है
संबंधित पेपर: PNAS पेपर, arXiv प्रीप्रिंट
केन्या और नाइजीरिया के शोध को देखें तो perplexity optimization target होने के कारण pretraining model सबसे ‘predictable’ output को दर्शाता है
इसमें “Hydrogen Jukeboxes” नाम का लेख भी शामिल है
style changes पर Gwern Branwen की mode collapse analysis में भी चर्चा है
DeepSeek R1 Zero जैसे मॉडल, जिनमें human preference बहुत कम है, वे भी अंततः स्थिर patterns पर converge कर जाते हैं
यह घटना पीढ़ी-दर-पीढ़ी दोहराई जाती है, और web पहले की पीढ़ी के models के output से प्रदूषित होकर एक दुष्चक्र बना देता है
उदाहरण के लिए “camaraderie” की tokenization, या यह तथ्य कि अंग्रेज़ी में emoji ही एकमात्र चित्रलिपि जैसे चिन्ह हैं, इसलिए उनका वजन बढ़ जाता है—यह दिलचस्प है
ऐसी lists के समय के साथ और लंबी होने का खतरा है
क्योंकि AI लगातार नए clichés बनाता रहेगा
यह file LLM से ज़्यादा मेरे जैसे user के लिए दस्तावेज़ लगती है
“इस file को AI के system prompt में जोड़ो” कहना आखिरकार AI की AI को निर्देश देने जैसा हो जाता है
इसमें व्याख्या और निर्देश मिले हुए हैं, इसलिए भ्रम होता है। “यह मत करो” जैसी भाषा उल्टा उन शब्दों को और ज़्यादा इस्तेमाल करवाने का दुष्प्रभाव पैदा करती है
user-facing explanation और AI-facing instruction को अलग होना चाहिए
मैंने Claude से इसे दोबारा लिखवाया और इस gist में व्यवस्थित किया
LLM के लिए इन नामों से बचना, और अच्छे वाक्यों के सकारात्मक रूप को समझाना ज़्यादा प्रभावी है
Claude द्वारा दोबारा लिखा गया version यहाँ है
“यह मत करो” कहने से उल्टा वही चीज़ और बढ़ती है—यानी Streisand effect
अगर आप किसी खास लेखक की शैली में लिखने को कहें, तो परिणाम ज़्यादा स्वाभाविक और कम generic होता है
उसके बाद ‘editing agent’ रखकर clichés हटवाएँ, तो नतीजा कहीं बेहतर होता है
मैंने Gemini से इतिहास पर research करने की कोशिश की, लेकिन वह तकनीकी रूपकों को रोक ही नहीं पाया
वह सामंत को CEO, पोप को influencer, और सामंती विद्रोह को job interview की तरह समझा रहा था, और यह लगभग हास्यास्पद था
settings में अतिरिक्त निर्देश डाले जा सकते हैं, लेकिन जब मैंने अपना tech stack डाला तो हर जवाब के अंत में “JVM और v8 इसे संभाल लेंगे” जैसा वाक्य जुड़ने लगा
फिर मैंने उसे इसे नज़रअंदाज़ करने को कहा, तो इस बार उसने व्यंग्यात्मक लहजे में “आपके master's-level दिमाग के हिसाब से…” से शुरू होने वाला पैराग्राफ जोड़ दिया
Claude और ChatGPT आजकल “genuine”, “real”, “honest” जैसे शब्द बहुत इस्तेमाल करते हैं
“no <thing you told me not to do>” जैसे expressions भी बहुत दिखते हैं। लगता है prompt compliance की पुष्टि के लिए होते हैं
Wikipedia में भी संबंधित सामग्री है: Signs of AI Writing
लेकिन पढ़ते-पढ़ते अपनी ही writing habits भी दिखने लगती हैं, तो थोड़ी शर्मिंदगी होती है
खासकर “from X to Y” जैसे नकली range expressions मैं खुद भी अक्सर इस्तेमाल करता हूँ
और LLM शीर्षक और उपशीर्षक को colon से अलग करने की आदत छोड़ ही नहीं पाते
इंसानों द्वारा सीधे लिखे गए उपयोगी स्रोत के रूप में Wikipedia: Signs of AI Writing की सिफारिश करता हूँ