- LLM लेखन ब्लॉग, सोशल मीडिया, अख़बार, किताबों, स्पेल-चेक और ड्राफ्ट लिखने तक फैल चुका है, और इसकी दोहरावदार शैली लेखन को एक जैसे स्लोप की तरह दिखाने लगती है
- पाठक उम्मीद करता है कि वह जितना समय किसी लेख को पढ़ने में लगाता है, लेखक ने भी उतना ही बौद्धिक श्रम उसमें लगाया होगा; LLM का उपयोग, नतीजे की गुणवत्ता से अलग, इस उम्मीद को हिला देता है
- Oxide RFD 576 का तर्क है कि यह विश्वास कि लेखक ने खुद समझकर लिखा है, पाठक के समझने के प्रयास को सही ठहराता है, और LLM गद्य इस सामाजिक अनुबंध को नुकसान पहुँचाता है
- ChatGPT के बाद, जनरेटेड टेक्स्ट ने बिना सीधे लिखे भी इंसानी भाषा और शैली को प्रभावित किया है, जो “delve”, “realm”, “meticulous” जैसे शब्दों के बढ़ते उपयोग में दिखता है
- अच्छे लेखन का मानदंड व्याकरण और शब्दावली की पूर्णता से हटकर मौलिक अभिव्यक्ति और मानवीय निशानों की ओर जा रहा है, और टाइपो भी AI टेक्स्ट से अलग पहचान का संकेत बन सकते हैं
LLM लेखन और सामाजिक अनुबंध
- LLM कई उद्योगों में फैल चुके हैं, लेकिन खासकर लेखन में इनका उपयोग ब्लॉग, सोशल मीडिया, अख़बार, किताबें, स्पेल-चेक, व्याकरण, fact-checking और पूरा ड्राफ्ट लिखने तक व्यापक हो गया है
- ये बड़ी मात्रा में कंटेंट बनाने में मजबूत हैं, लेकिन जैसे ही LLM के खास मुहावरे और शैलीगत पैटर्न पहचान में आने लगते हैं, हर जगह वही एहसास दोहरता दिखता है
- “it’s not x, it’s why”, em-dash, “you’re not imagining it, the problem is real” जैसी अभिव्यक्तियाँ बार-बार लौटती हैं और लेखन धीरे-धीरे एक जैसे slop में एकरूप होता जाता है
- पाठक जब यह महसूस करता है कि उसने पढ़ने में समय लगाया, लेकिन लेखक ने उसके अनुरूप समय नहीं लगाया, तो उसमें तीखी असहजता या नाराज़गी पैदा होती है
- यह असहजता तब भी खत्म नहीं होती जब सामग्री सही हो, पर्याप्त शोध की गई हो, और लेख खुद भी ठीक-ठाक हो
Oxide RFD 576 की आपत्ति
- Oxide RFD 576 की धारा 2.4 “LLMs as writers” का मानना है कि LLM-जनित गद्य लेखन के सामाजिक अनुबंध को तोड़ता है
- LLM के बिना, यह मान लिया जाता है कि पाठक और लेखक में ज़्यादा बौद्धिक श्रम लेखक ने किया है
- जब पाठक भरोसा कर सकता है कि लेखक ने किसी विचार को खुद समझकर लिखा है, तभी उसे कठिन वाक्यों और विचारों को समझने की कोशिश करने का कारण मिलता है
- LLM से लेखन करने पर, लेख की गुणवत्ता या सामग्री की सटीकता से अलग, कंटेंट बनाने में लेखक का वास्तविक प्रयास कम हो जाता है
- मुख्य समस्या सिर्फ नतीजे की गुणवत्ता नहीं, बल्कि यह है कि खुद लिखे बिना LLM का उपयोग करना ही सामाजिक अनुबंध का उल्लंघन है
जनरेटेड टेक्स्ट के प्रभाव से बचना मुश्किल
- भले ही कोई सीधे LLM का उपयोग न करे, जनरेटेड टेक्स्ट की बाढ़ इंसानी बोलचाल और लेखन को प्रभावित करती है
- “you’re absolutely right” जैसी अभिव्यक्तियाँ LLM का मज़ाक उड़ाने में इस्तेमाल होती हैं, लेकिन यह टूल खुद इंसानी भाषाई आदतों को भी सूक्ष्म रूप से बदल रहा है
- Max-Planck Institute for Human Development के एक अध्ययन के अनुसार, ChatGPT द्वारा पसंद किए गए शब्द इंसानी बोलचाल में भी अधिक बार इस्तेमाल होने लगे हैं
- बढ़े हुए शब्दों में delve, realm, meticulous, adept, boast, swift, comprehend शामिल हैं
- जनरेटिव AI के आउटपुट, सीधे इस्तेमाल से अलग, पहले ही भाषा के माहौल में हर जगह फैल चुके हैं
low-background steel का रूपक
- Low-background steel उस स्टील को कहा जाता है जो पहले परमाणु बम विस्फोट से पहले बनाया गया था, और एक समय कुछ विशेष उपयोगों के लिए अधिक खोजा जाता था
- 1940–1950 के दशक के कई परमाणु परीक्षणों ने वातावरण में रेडियोधर्मी पदार्थ बढ़ा दिए, और उसके बाद बना स्टील particle detector जैसी कुछ applications के लिए पर्याप्त “साफ़” नहीं माना गया
- हालांकि अब वैश्विक मानव-निर्मित पृष्ठभूमि विकिरण घट चुका है, इसलिए हाल में बना स्टील भी ज़्यादातर उपयोगों के लिए उपयुक्त माना जाता है
- इस रूपक में 30 नवंबर 2022 के बाद का लेखन, ChatGPT के प्रसार के बाद लिखा गया होने के कारण, कुछ न कुछ LLM प्रभाव लिए हुए माना जाता है
- पुराने कंटेंट तक सीमित न रहें तो, LLM के बाद के भाषाई माहौल से पूरी तरह बच पाना कठिन है
LLM के बाद लेखन के मानदंड
- जितना अधिक जनरेटेड कंटेंट इंटरनेट पर छाएगा, उतनी ही मौलिक सोच और अभिव्यक्ति की मांग व्यक्तिगत इंसानों और मॉडल कंपनियों दोनों के लिए बढ़ेगी
- LLM के बिना मौलिक कंटेंट लिख पाने की क्षमता अधिक मूल्यवान हो सकती है
- लेकिन LinkedIn-शैली के thought leadership लेखों और AI-जनित बिल्ली की तस्वीरों से भरे माहौल में, ऐसे लेखन को खोज निकालना और मुश्किल हो जाता है
- इंसानों ने लंबे समय तक अच्छे व्याकरण, व्यापक शब्दावली, उचित अभिव्यक्ति और रूपक, और मजबूत संरचना को अच्छे लेखन का मानदंड माना है
- LLM आम तौर पर इन पारंपरिक मानकों को पूरा कर लेते हैं, लेकिन वही पैटर्न दोहराते हैं, अभिव्यक्ति घिसी-पिटी लगती है, रूपक कुछ अटपटे होते हैं, और em-dash बुरा प्रभाव छोड़ता है
अच्छे लेखन के मानदंडों में बदलाव
- आज का छात्र मेहनत से लिखकर औसत अंक पा सकता है, या बिना कुछ किए ChatGPT से लिखे असाइनमेंट के ज़रिए ऊँचे अंक ले सकता है
- यह आकलन संभव है कि अगर आज Claude द्वारा लिखा पाठ 10 साल पहले के किसी व्यक्ति को दिखाया जाए, तो उसे शिकायत के बहुत कम कारण मिलें
- LLM लेखन को लंबे समय तक पढ़ने पर उसकी दोहरावधर्मिता दिखने लगती है, लेकिन पारंपरिक “ठीक-ठाक” लेखन के मानकों पर यह काफी हद तक खरा उतरता है
- अब अधिक महत्वपूर्ण मूल्य मौलिक अभिव्यक्ति की ओर खिसक रहा है
- व्याकरण गलत हो, फिर भी अगर उसमें भिन्नता है तो उसका मूल्य है; शब्दावली सीमित हो, फिर भी अगर वह दोहराए जाने वाले LLM शब्दों से बचती है तो वह ज़्यादा मानवीय लगती है
- टाइपो अब सिर्फ दोष नहीं रह गए; उन्हें फीके और सामान्यीकृत AI-जनित टेक्स्ट से अलग पहचान देने वाले मानवीय निशान के रूप में भी देखा जा सकता है
LLM के बिना लिखने का वादा
- पाठक जितना समय लेख पढ़ने में लगाता है, उतना ही समय लेखक को लिखने में लगाना चाहिए; तभी सामाजिक अनुबंध बनता है
- पुराने फिल्में चलती रहने के बीच दिन का बड़ा हिस्सा लगाकर लिखे गए लेख में, पाठक के समय के अनुरूप लेखक का प्रयास शामिल होता है
- लेखन एक आनंददायक काम है, और निरंतरता का स्तर भले अलग रहा हो, यह जीवन भर किया गया काम है
- आगे लेखन को और अधिक रोज़मर्रा की दिनचर्या बनाने का इरादा है, और ऐसा करना अर्थपूर्ण और करने योग्य काम माना जाता है
1 टिप्पणियां
Lobste.rs की राय
Oxide RFD का यह वाक्य आम ai;dr meme का कम तीखा और कम quote करने लायक, लेकिन कहीं ज़्यादा स्पष्ट रूप लगता है
“जब LLM नहीं होते, तो यह मान लिया जाता है कि पाठक और लेखक में लेखक ने ज़्यादा बौद्धिक मेहनत की है” आख़िरकार इसका मतलब यही है: “अगर तुमने लिखने की मेहनत नहीं की, तो मैं भी पढ़ने की मेहनत नहीं करूँगा”
जो लेखक अपने काम में LLM को बीच में घुसेड़ते हैं, उनमें विशेषज्ञता महसूस नहीं होती
यह पूरा LLM वाला एहसास ऐसे लगता है जैसे कोई ज़ोर से चिल्ला रहा हो, “मैं अपना काम ठीक से करने का इरादा नहीं रखने वाला घटिया इंसान हूँ।” software में आप यह तर्क दे सकते हैं कि consistent, predictable और boring low-variance output अच्छी चीज़ है, लेकिन writing में आम तौर पर इसका उलटा सही है
मेरे हिसाब से हमें और ज़्यादा consistent, predictable और boring writing की ज़रूरत है। ज़्यादातर writing advice clarity और truth से ऊपर style को रखती है। मैं AI writing का बचाव नहीं कर रहा, न ही खुद writing में AI का इस्तेमाल करता हूँ, और उसकी गंध भी पसंद नहीं, लेकिन काश ज़्यादा human writers boring होने की हिम्मत रखते
Pull request के साथ भी यही बात है। पहले ज़्यादातर मेहनत समस्या को गहराई से समझने और code लिखने में लगती थी
review भी मेहनत का काम हो सकता है, लेकिन कम से कम एक संतुलन था, और अगर असंतुलन होता भी था तो review साथ में onboarding या training की भूमिका भी निभाता था। अगर आप project quality की परवाह करते हैं, तो अब पूरा समीकरण बदल गया है। project के भीतर कोई असली दिलचस्पी न रखने वाले लोग review की क्षमता से कई orders of magnitude तेज़ी से PR उगल सकते हैं
यह सचमुच डरावना है। code review में कम से कम
vouchजैसे systems का फ़ायदा है, जिनसे नए contributor के PR को रोका जा सकता है। लेकिन blog posts जैसी चीज़ों में बार-बार शक होता रहता है कि क्या लेखक सच में समझने और परवाह करने वाला इंसान है, या फिर मैं किसी और slop की दीवार से टकरा गया हूँ। अभी के लिए slop को पहचानना आसान है, लेकिन अगर producers models को कहने लगें कि typical patterns से बचो, तो यह भी बदल सकता है। जिस एकमात्र slop का मैं स्वागत करता हूँ, वह LinkedIn का slop comments से भर जाना हैपहले भी वह आत्म-प्रदर्शन वाला कचरा था, अब भी वही है। बस अब उसमें cartoon-style AI images भी जुड़ गई हैं
मूल रूप से, 2022 से पहले बनी चीज़ें मुझे कहीं कम संदिग्ध लगती हैं। जानकार लोग image search में
before:2022भी डाल रहे हैंblog post पढ़ते समय सबसे अहम सामाजिक अनुबंध यह होता है कि लेखक उस अनुभव के ज़रिए आगे चलकर अपनी writing को बेहतर करेगा
LLM का इस्तेमाल इस चीज़ को भी तोड़ देता है। code writing में LLM के इस्तेमाल पर बहस की जा सकती है, लेकिन ख़ासकर blog writing में LLM का इस्तेमाल बस घिनौना लगता है
इसने उन विचारों और भावनाओं को बहुत अच्छे से शब्द दिए जिन्हें मैं काफ़ी समय से अपने भीतर लिए घूम रहा था। ख़ास तौर पर मानवीय स्पर्श की अपूर्णता की चाह
मैं दूसरों में भी वही चाहता हूँ, और अपने काम में भी चाहता हूँ कि मेरी इंसानियत झलके। मेरी spelling बहुत ख़राब है, इसलिए दोस्त और सहकर्मी मुझे अक्सर चिढ़ाते हैं, और blog post लिखते समय मैंने गंभीरता से यह भी सोचा है कि क्या कुछ ग़लतियाँ जानबूझकर छोड़ दूँ ताकि दिखे कि मैं अभी भी इंसान हूँ। हालाँकि, शायद यह थोड़ा ज़्यादा हो जाएगा
“मुझे writing पसंद है और मैं इसे ज़िंदगी भर करता आया हूँ, और अब इसे ज़्यादा routine तरीके से करने की कोशिश कर रहा हूँ। यह meaningful और करने लायक काम लगता है” — इस बात से मैं पूरी तरह सहमत हूँ, लेकिन दो डर हैं
पहला, अगर मैं किसी को 2024/2025 के आसपास यूँ ही blog शुरू करते या ज़्यादा publish करते देखता हूँ, तो मैं default रूप से उसे AI मानकर archive कर देता हूँ। बाहर से मेरा blog भी ऐसा ही लगेगा। दूसरा, मुझे यह बात पसंद नहीं कि बेहतर models बनाने में मेरी writing AI companies की मदद करे। हालाँकि विडंबना यह है कि मैं खुद भी AI रोज़ इस्तेमाल करता हूँ
दूसरे मसले में इतने सारे गोलियथों को मारने का कोई साफ़ तरीका नज़र नहीं आता। पहले मसले के लिए मैं चाहता हूँ कि content के पीछे पर्याप्त मानवीय ध्यान लगा है, इसका कोई मानवीय कार्य-प्रमाण जैसा तरीका हो। लिखते समय Twitch पर stream करने का भी सोचा, लेकिन वह बहुत अव्यावहारिक है, और writing process को—जिसमें बेवकूफ़ी भरे ideas, “जो अभी लिख रहा हूँ वह पूरी तरह ग़लत है” जैसी समझ, और मनचाहे स्वाद तक पहुँचने के लिए अंतहीन rephrasing शामिल है—खुला दिखाना सच कहूँ तो शर्मनाक लगेगा। कोई और proof सूझता नहीं
मैं इस समय काफ़ी जटिल technical blog post लिख रहा हूँ, और मुख्य पाठ के सारे वाक्य हाथ से खुद लिख रहा हूँ
मैं जो कहना चाहता था उसे पकड़ने में कुछ कोशिशें लगीं, लेकिन अब structure काफ़ी अच्छा लग रहा है। Claude को मैंने tool की तरह जिस हिस्से में इस्तेमाल किया, वह text explanation को Mermaid diagram में बदलना था। Mermaid में की गई मेहनत के लिए आभारी हूँ, लेकिन ख़ासकर flowchart या sequence diagram जैसी standard संरचनाओं से बाहर जाते ही उसकी कुछ syntax बहुत ही पेचीदा लगती है। मैं Oxide में काम करता हूँ और RFD 576 पर भी कुछ हद तक अपनी राय दी थी