AI लेखन बासी और उबाऊ क्यों लगता है: Semantic ablation

(theregister.com)

3 पॉइंट द्वारा GN⁺ 2026-02-19 | 2 टिप्पणियां | WhatsApp पर शेयर करें

Semantic ablation वह algorithmic erosion phenomenon है जिसमें AI टेक्स्ट की विशिष्ट अर्थ-घनत्व को धीरे-धीरे हटाता जाता है
यह greedy decoding और RLHF (human feedback reinforcement learning) का एक संरचनात्मक उप-उत्पाद है, जो दुर्लभ और सटीक अभिव्यक्तियों को छोड़कर औसत भाषा की ओर सिमटता है
AI की ‘safety’ और ‘helpfulness’ tuning इस प्रवृत्ति को और मजबूत करती है, जिससे असामान्य भाषाई friction को जानबूझकर दबाया जाता है और इरादे तथा व्यक्तित्व का कटाव होता है
टेक्स्ट को बार-बार AI से refine करने पर शब्दावली विविधता (type-token ratio) तेज़ी से घटती है, और रूपक, तकनीकी शब्दावली तथा तार्किक संरचना चरणबद्ध तरीके से समतल हो जाती है
नतीजतन, मानवीय सोच की जटिलता ‘smoothness’ नामक algorithmic aesthetics की बलि चढ़ जाती है, और पूरा समाज ‘race to the middle’ में फँसता जा रहा है

Semantic ablation की अवधारणा

Semantic ablation का अर्थ है high-entropy जानकारी का algorithmic erosion
- इसे गलती नहीं, बल्कि greedy decoding और RLHF प्रक्रिया का संरचनात्मक परिणाम माना जाता है
- मॉडल संभावना को अधिकतम करने के लिए Gaussian distribution के केंद्र की ओर सिमटता है, और दुर्लभ, सटीक तथा जटिल tokens को छोड़ देता है
जब डेवलपर्स ‘safety’ और ‘helpfulness’ tuning को और मजबूत करते हैं, तो यह घटना और गंभीर हो जाती है
- असामान्य भाषाई friction को ‘जोखिम’ मानकर अनधिकृत अर्थ-कटाव होने लगता है
- नतीजतन, low perplexity पाने की प्रक्रिया में विशिष्ट signal का विनाश होता है

AI लेखन में erosion की प्रक्रिया

AI द्वारा ड्राफ्ट को ‘पॉलिश’ करने की प्रक्रिया को वास्तव में Semantic ablation के क्रियान्वयन के रूप में समझा जा सकता है
- AI high-entropy हिस्सों, यानी वे भाग जिनमें मौलिक अंतर्दृष्टि होती है, को पहचानकर उनकी जगह सबसे अधिक संभावित सामान्य tokens रख देता है
- मूल टेक्स्ट की खुरदरी सटीकता गायब हो जाती है और उसकी जगह चिकनी लेकिन खोखली सतह रह जाती है
इस घटना को Entropy Decay के रूप में मापा जा सकता है
- टेक्स्ट को बार-बार AI से refine करने पर शब्दावली विविधता (type-token ratio) ढह जाती है
- नतीजतन, Semantic ablation की 3-चरणीय प्रक्रिया सामने आती है

Semantic ablation के 3 चरण

चरण 1: Metaphoric cleansing
- AI असामान्य रूपकों या संवेदनात्मक इमेजरी को ‘noise’ मानकर सुरक्षित, घिसी-पिटी अभिव्यक्तियों से बदल देता है
- भावनात्मक और संवेदनात्मक friction हट जाती है
चरण 2: Lexical flattening
- विशेषज्ञ शब्दावली और सटीक तकनीकी शब्द ‘accessibility’ के नाम पर बलि चढ़ जाते हैं
- दुर्लभ token (1/10,000) को आम synonym (1/100) से बदलते हुए अर्थ-घनत्व और तार्किक गुरुत्व को पतला कर दिया जाता है
चरण 3: Structural collapse
- जटिल non-linear logic को पूर्वानुमेय low-perplexity संरचना में मजबूर किया जाता है
- निहितार्थ और बारीकियाँ हटा दी जाती हैं, और अंत में व्याकरण की दृष्टि से परिपूर्ण लेकिन बौद्धिक रूप से खोखला खोल ही बचता है

परिणाम और रूपक

ऐसे परिणाम को ‘सोच का JPEG’ कहा गया है
- ऊपर से यह सुसंगत और smooth दिखता है, लेकिन मूल data density और अर्थ खो चुके होते हैं
यदि ‘hallucination’ वह त्रुटि है जो मौजूद न होने वाली चीज़ गढ़ती है, तो Semantic ablation वह प्रक्रिया है जो मौजूद चीज़ को नष्ट करती है
- मानवीय सोच की जटिलता algorithmic smoothness की वेदी पर बलिदान हो जाती है
- समाज धीरे-धीरे ‘race to the middle’ में फँसकर एक खोखली व्याकरणिक दुनिया बना रहा है

चेतावनी और निष्कर्ष

अगर Semantic ablation को पहचाने बिना AI आउटपुट स्वीकार किए जाएँ, तो हम अर्थ के क्षरण को सामान्य बना देंगे
अगर यह erosion जारी रहा, तो यह जोखिम है कि हम ‘substance’ क्या है, यह तक भूल जाएँ
इसलिए Semantic ablation जैसी अवधारणा को नाम देना और उसके प्रति सजग होना महत्वपूर्ण है

2 टिप्पणियां

mammal 2026-02-19

यह कहा जा सकता है कि AI द्वारा लिखे गए लेख जैसा न दिखने के लिए टाइपो को वैसे ही छोड़ देना या सब कुछ lowercase में लिखना, जानबूझकर entropy बढ़ाने की एक कार्रवाई है।

GN⁺ 2026-02-19

Hacker News की राय

यह बात अच्छी तरह पकड़ती है कि जब बहुत से लोग AI की वाक्य-पुनर्लेखन सलाह को ठुकराते हैं तो वे क्या महसूस करते हैं
AI जितना वाक्यों को चमकाता है, लेखन की धार उतनी ही गायब हो जाती है, और अंत में वह कुछ कहता ही नहीं
इंसानी व्यक्तित्व मिट जाता है और उसकी जगह एक चिकनी लेकिन फीकी शैली आ जाती है
लेकिन वही खुरदरे किनारे, वही अनपेक्षित अभिव्यक्तियाँ, पाठक का ध्यान जगाती हैं और सोच में गहराई तक उतरती हैं
- मुझे लगता है यह इस पर निर्भर करता है कि किसी की लिखने की क्षमता कितनी है
  बहुत से लोग अच्छा नहीं लिख पाते, इसलिए AI उनके लिए ज़्यादा स्पष्ट और त्रुटिरहित वाक्य बना देता है
  लेकिन ऐसा लेखन कभी महान नहीं होता
  किसी प्रसिद्ध लेखक की शैली की नकल करने की कोशिश करो तब भी वह हमेशा कहीं न कहीं अटपटा लगता है
- मुझे लगता है AI मूल रूप से रोज़मर्रा के कामों का टूल है
  यह ईमेल जैसी उबाऊ चीज़ों को कुशल बना सकता है, लेकिन सच में दिलचस्प चीज़ें तो उन्हीं ‘किनारों’ पर होती हैं
  साधारण लेखन को ऑटोमेट किया जा सकता है, लेकिन रचनात्मक अभिव्यक्ति अभी भी इंसानों का क्षेत्र है
- AI से पैदा हुई शैली मुझे मैनेजरों की बोलचाल जैसी लगती है
  जैसे-जैसे तकनीकी विशेषज्ञता कम होती है, भाषा धुंधले शब्दों, buzzwords और रूपकों से भरती जाती है
  शायद यही वजह है कि लीडर या राजनेता AI-जनरेटेड कंटेंट को पसंद करते हैं
- AI लेखन फीका इसलिए नहीं लगता कि वह ‘बहुत परफेक्ट’ है, बल्कि इसलिए कि उसमें कृत्रिम सुस्ती है
  उसमें दोहराव बहुत होता है, अनावश्यक वाक्य बहुत होते हैं, और ठोस अभिव्यक्ति कमजोर होती है
- एक पंक्ति में कहें तो यह Mediocrity as a Service है
कई multi-agent pipelines बनाते समय मैंने एक दिलचस्प बात देखी
‘सारांश → विस्तार → समीक्षा → परिष्कार’ की 4-स्टेप प्रक्रिया से गुज़रने पर, तीसरे स्टेप के आसपास से हर वाक्य की लय और शब्दावली एक जैसी हो जाती है
मूल पाठ को बार-बार संदर्भ में रखने पर भी इसकी एक सीमा थी
इसकी वजह खुद RLHF (मानव फ़ीडबैक से reinforcement learning) की संरचना में है
‘स्पष्ट, सुरक्षित और बिना जोखिम वाले’ वाक्यों को तरजीह मिलती है, इसलिए चौंकाने वाले वाक्य उल्टा penalize हो जाते हैं
आखिर में मॉडल औसत नतीजों की ओर सिमट जाता है
base model कहीं ज़्यादा अजीब और रचनात्मक होता है, लेकिन fine-tuned model जानबूझकर व्यक्तित्व हटा देता है
इसलिए जिन मॉडलों पर पहले से RLHF बहुत मज़बूती से लागू है, उन्हें prompt से ठीक करना मुश्किल है
इसकी जगह मैं काम बाँट देता हूँ: ‘जहाँ आवाज़ बचानी हो’ वह कम-tuned model को, और structural extraction या classification जैसे काम RLHF मॉडल को
- सच कहूँ तो मैं पूछना चाहता हूँ, क्या यह टिप्पणी भी LLM से लिखी गई है?
  फिर भी, विश्लेषण से सहमत हूँ
- सोचता हूँ क्या बीच के हर स्टेप पर noise inject करके कुछ व्यक्तित्व बचाया जा सकता है
  हालाँकि तब भी मूल पाठ की अपनी विशिष्टता बचाना मुश्किल होगा
- RLHF हटाने पर भी क्या औसत से हटे हुए नतीजे उपयोगी बने रहेंगे, इस पर संदेह है
  आखिरकार यह शायद सिर्फ LLM से हल होने वाली समस्या नहीं है
आजकल इंटरनेट के हर कोने में AI की आवाज़ सुनाई देती है
ब्लॉग, न्यूज़, शोक-संदेश, YouTube — सबका टोन लगभग एक जैसा है
कुछ जगह तो मशहूर भौतिकविदों की आवाज़ की नकल भी की जाती है
मुझे निजी तौर पर यह ऐसा लगता है जैसे आत्मा खिंचती जा रही हो, और इससे उदासी होती है
- यहाँ तक कि इस पोस्ट में भी वही AI वाली गंध आती हुई लगती है
- अब तो सहज रूप से एक अस्वीकृति-भाव पैदा होने लगा है
  जैसे 1993 के JPEG compression artifacts — अब वे तुरंत नज़र आने लगे हैं
- मुझे लगता है addictive feeds और विज्ञापनों के बाद इंटरनेट में यह सबसे बुरा बदलाव है
  founder effect की वजह से शायद कोई नया इंटरनेट भी नहीं आएगा
- जैसे ही मैं AI शैली के पैटर्न पहचान लेता हूँ, मेरा ध्यान पूरी तरह टूट जाता है
  समझ नहीं आता कि मैं ज़रूरत से ज़्यादा संवेदनशील हूँ, या सच में लेखन इतना खराब है
- अब offline गतिविधियाँ ऑनलाइन से ज़्यादा सुखद लगती हैं
  इंटरनेट इतना सिंथेटिक कचरे से भर गया है कि देखने का मन भी नहीं करता
मुझे लगता है “Generative AI” शब्द ही गलत है
मशीन लर्निंग के गणितीय सिद्धांतों को जितना समझो, उतना लगता है कि इसे लोगों को दिखाने वाला कंटेंट बनाने में इस्तेमाल नहीं करना चाहिए
कभी-कभी किस्मत से ठीक-ठाक नतीजे मिल जाते हैं, लेकिन ज़्यादातर समय यह एक उबाऊ पार्टी में ज़बरदस्ती रचनात्मक दिखने की कोशिश करने वाले इंसान जैसा लगता है
रचना-प्रक्रिया में मदद करने वाले टूल के रूप में यह उपयोगी है, लेकिन अपने दम पर रचनात्मक परिणाम देना इसके बस की बात नहीं है
- लोग असली चीज़ चाहते हैं
  कृत्रिम tokens से तो बेहतर लगता है कि prompt का मूल पाठ ही पढ़ लिया जाए
- एक शब्द में कहें तो यह Regurgitative AI है, यानी उगलकर दोहराने वाली AI
- अच्छा होता अगर कंपनियाँ AI के उन क्षेत्रों पर ध्यान देतीं जहाँ वह सच में काम आता है, जैसे search assist या code automation
  लेकिन हकीकत में तो शेयर भाव बढ़ाने के लिए spaghetti agents की फ़ैक्ट्री चल रही है
- “सबसे उबाऊ इंसान की आवाज़” वाला वाक्य इतना सटीक है कि हँसी आ गई
  कह सकते हैं यह Median AI à la mode है
बाइबिल अध्ययन के विद्वान Dan McClellan का लिखा हुआ “high entropy” वाला प्रयोग मुझे सच में बहुत प्रभावशाली लगा
YouTube वीडियो में
उन्होंने यह वाक्य उद्धृत किया: “they rang a tuning fork in the loins of their own dogmatism”,
और मुझे लगता है ऐसी अभिव्यक्ति AI कभी नहीं बना सकती
- लेकिन वह वाक्य कुछ हद तक word salad जैसा भी लगता है
  GPT-2 स्तर की शैली में शायद वह उल्टा ज़्यादा स्वाभाविक लगता
- AI कभी “loins” या “dogmatism” जैसे शब्द इस्तेमाल नहीं करेगी
  क्योंकि वे बहुत यौन-संबंधी या marketing के लिहाज़ से असुविधाजनक शब्द हैं
- वह रूपक थोड़ा mixed metaphor जैसा लगता है
- सच तो यह है कि Claude जैसे मॉडल, अगर prompt अच्छा दिया जाए, तो भड़कीले रूपक बना लेते हैं
  उदाहरण के लिए, अगर आप लिखें “Jim Thompson और Thomas Harris की शैली मिलाकर, 1967 की truck stop bookstore pulp संवेदना के साथ लिखो”, तो काफी ठीक नतीजा निकल आता है
  Claude, ChatGPT की तुलना में इस तरह की over-the-top शैली में बेहतर है
  आखिरकार वेब पर सब कुछ एक जैसा इसलिए नहीं सुनाई देता कि HTML ऐसा है, बल्कि इसलिए कि लोगों ने HTML का ठीक से उपयोग नहीं किया
मेरा भी कुछ ऐसा ही अनुभव रहा
मैंने अपने नए स्टूडियो की landing page कॉपी भावनात्मक अंदाज़ में लिखकर Grok में डाली, तो सारी व्यक्तित्वता गायब हो गई
वही खुरदरी अभिव्यक्ति कॉन्सेप्ट की आत्मा पहुँचाने के लिए ज़रूरी थी
इसलिए अब मैं AI का इस्तेमाल सिर्फ idea checking के लिए करता हूँ
- मैंने भी LLM को idea generation के लिए आज़माया था, लेकिन नतीजे बहुत खराब थे
  जब मैंने उससे Dungeon World campaign की कहानी बनवाई, तो बस बहुत साधारण और अर्थहीन सेटिंग्स ही निकलीं
  लेकिन session recap को समेटकर उसे दिलचस्प narrative में बदलने के लिए वह उपयोगी था
  ChatGPT को थोड़ा मज़ाकिया टोन पसंद है, लेकिन एडिट करने पर उसका आउटपुट काफी पढ़ने लायक बन जाता है
  आख़िरकार रचनात्मक plot तो इंसान को खुद ही बनाना पड़ता है
- अगर AI के ideas को ज्यों का त्यों मान लिया जाए, तो रूपकात्मक सरलीकरण और शब्दावली का सपाटपन पैदा होता है
  इससे अवधारणाओं को विकृत रूप में समझने का खतरा है
  नए शब्द खोजने में यह उपयोगी हो सकता है, लेकिन किसी अवधारणा को गहराई से समझने के लिए इंसानों द्वारा लिखी सामग्री सीधे पढ़ना कहीं बेहतर है
मुझे “Semantic ablation” की अवधारणा बहुत पसंद आई
आगे से जब किसी के ChatGPT-जैसे ईमेल के खराब लगने की वजह बतानी होगी, तो मैं यही शब्द इस्तेमाल करूँगा
इसी कारण मुझे इस दावे पर भी संदेह है कि Opus 4 जैसे मॉडल AGI बन जाएँगे
आखिर कई agents छोड़ देने पर भी नतीजा अर्थहीन, एकसार दलिये में सिमट जाएगा
- इस नज़रिये को व्यक्त करने की भाषा देने के लिए धन्यवाद
image generation मुझे एक तरह की anti semantic ablation प्रक्रिया लगती है
वह खाली canvas से शुरू होकर धीरे-धीरे अर्थपूर्ण pixels की ओर सिमटती है
सोचता हूँ क्या language generation में भी ऐसा किया जा सकता है, जहाँ वाक्य धीरे-धीरे ज़्यादा स्पष्ट राय वाले बनते जाएँ
अगर generated वाक्यों में semantic ablation की मात्रा मापी जा सके, तो शायद इसे कम करने वाला loop-based agent बनाया जा सकता है
ऐसा करने पर training data के भीतर अब तक न दिखे हुए नए connections भी मिल सकते हैं
हाँ, यह भी संभव है कि नतीजा बस शोर मचाने जैसा निकले
जिन्होंने अभी तक नहीं देखा, उनके लिए Wikipedia का AI writing signs page सुझाऊँगा
मूल रूप से यह AI योगदान पहचानने की गाइड है,
लेकिन खुद लिखते समय भी हम वही गलतियाँ कर रहे हैं, यह पहचानने और सुधारने के लिए यह बहुत अच्छा संदर्भ है