मैं केन्याई हूं। मैं ChatGPT की तरह नहीं लिखता। ChatGPT मेरी तरह लिखता है
(marcusolang.substack.com)- केन्या की शिक्षा प्रणाली में विकसित हुई औपचारिक English writing style को बार-बार AI द्वारा लिखे गए लेखन जैसा बताया जाता है
- English writing education की संरचनात्मक ट्रेनिंग sentence balance, logical flow, और connectors के उपयोग पर ज़ोर देती है, जिससे AI writing जैसा परिणाम निकलता है
- यह शैली औपनिवेशिक दौर की British English शिक्षा की विरासत है, और सामाजिक प्रतिष्ठा व शिष्टता के प्रतीक के रूप में बनी रही है
- AI detectors और language models के bias के कारण non-native लेखन को ‘गैर-मानवीय’ मान लेने की समस्या की ओर इशारा किया गया है
- यह ज़ोर दिया गया है कि लेखन में जो दिखाई देता है, वह मशीन नहीं बल्कि इतिहास, शिक्षा और भाषाई पहचान का परिणाम है
AI और मानवीय लेखन को लेकर गलतफ़हमी
- शुरुआत उस अनुभव से होती है जब लेखक को अपने proposal पर यह feedback मिला कि “यह तो ChatGPT ने लिखा लगता है”
- शैली बहुत structured और logical होने के कारण इसे ‘मानवीय स्पर्श की कमी’ के रूप में आंका गया
- कई लेखक इसी तरह की प्रतिक्रिया झेलते हैं, और यह non-native लेखकों के प्रति पूर्वाग्रह से जुड़ा हुआ है
- लेखक का कहना है कि उसकी शैली AI से मिलती-जुलती इसलिए लगती है क्योंकि AI ने उन्हीं की शिक्षा पद्धति से सीखा है
केन्याई English शिक्षा का निर्माण
- KCPE(केन्या प्राथमिक शिक्षा योग्यता परीक्षा) का English composition test लेखन प्रशिक्षण का मुख्य केंद्र है
- 40 अंकों की परीक्षा में ऊँचे अंक पाने के लिए समृद्ध vocabulary और complex sentence structure सीखना पड़ता है
- लेखन के नियम तीन बातों में समेटे जा सकते हैं
- किसी कहावत या प्रभावशाली वाक्य से शुरुआत, विविध vocabulary का उपयोग, और पूरी तरह सही structure बनाए रखना
- शिक्षक लाल पेन से grammar और structure ठीक करने वाले ‘मूल algorithm’ की भूमिका निभाते हैं
- यह प्रशिक्षण तार्किक और संतुलित वाक्य-रचना पर ज़ोर देता है, और बाद में high school व university तक जारी रहता है
औपनिवेशिक विरासत और भाषा की पदानुक्रम
- केन्या में English शिक्षा की जड़ें British Empire की भाषाई व्यवस्था में हैं
- grammar की शुद्धता और औपचारिकता को ‘Queen’s English’ के मानक पर परखा जाता था
- स्वतंत्रता के बाद भी यह भाषा आधिकारिक भाषा और सामाजिक हैसियत के प्रतीक के रूप में बनी रही
- परिष्कृत English बोलना और लिखना शिक्षा स्तर और सामाजिक वर्ग को अलग करने का पैमाना बन गया
- नतीजतन, AI ने जिस विशाल औपचारिक शैली पर प्रशिक्षण लिया, वह केन्याई English शिक्षा के परिणाम से मिलती-जुलती दिखने लगी
AI detectors का bias और सीमाएँ
- AI detectors पहचान के लिए ‘perplexity(पूर्वानुमेयता)’ और ‘burstiness(वाक्य-लंबाई की विविधता)’ जैसे मानदंडों का उपयोग करते हैं
- पूर्वानुमेय sentence structure और स्थिर rhythm को गैर-मानवीय मान लिया जाता है
- लेकिन केन्याई शिक्षा ठीक इसी तरह की पूर्वानुमेय और संतुलित शैली को आदर्श मानती है
- शोध से पता चलता है कि ऐसे detectors में non-native लेखन को AI-जनित मानकर गलत वर्गीकृत करने की संभावना अधिक होती है
- यह भाषाई विविधता को बाहर कर देने वाले तकनीकी bias को उजागर करता है
मानवीयता और भाषा की नई परिभाषा
- केन्याई लेखक का लेखन मशीन नहीं, बल्कि शिक्षा, इतिहास और संस्कृति का परिणाम है
- यह उस धारणा की आलोचना करता है कि ‘मानवीय लेखन’ का मतलब सिर्फ अनौपचारिक और American-style अभिव्यक्ति है
- Nairobi, Lagos, Mumbai जैसे शहरों के लेखक भी शुद्धता और तार्किकता का सम्मान करने वाली लेखन परंपरा साझा करते हैं
- “यह AI जैसा दिखता है” कहना दरअसल मानवीयता के दूसरे रूपों को न पहचान पाने वाली नज़र है
- लेख का निष्कर्ष इस घोषणा के साथ होता है कि यही केन्याई लेखन है, और यह बहुत लंबे समय से ऐसा ही है
2 टिप्पणियां
Hacker News की राय
हमारी पीढ़ी ने शिक्षकों से छात्रों तक पहुँचने वाले लेखन के अनकहे नियम सीखे थे
पहला वाक्य ज़रूर किसी कहावत या ज़ोरदार पंक्ति से शुरू होना चाहिए था, और साधारण शब्दों की जगह ‘strode purposefully’ जैसे भाव इस्तेमाल करने होते थे
लेकिन विश्वविद्यालय में लेखन पढ़ते-पढ़ते धीरे-धीरे बात सरल वाक्यों और छोटे अभिव्यक्तियों की ओर मुड़ गई
अब Hemingway-शैली की गद्य-भाषा आदर्श लगती है। ChatGPT की भड़कीली शैली उल्टा थका देती है
लेखक की क्षमता मानता हूँ, लेकिन मुझे सरल और स्पष्ट लेखन पसंद है
वाक्य छोटे रखने की सनक ने अंग्रेज़ी गद्य को बिगाड़ दिया
ज़्यादातर लोगों के लिए सरलता मददगार है, लेकिन लंबे वाक्यों, semicolon, या सूक्ष्म शब्दावली को ‘खराब लेखन’ मान लेने की प्रवृत्ति समस्या है
यह रवैया पाठक और लेखक, दोनों की वृद्धि रोकता है
हाँ, ‘proceeded to’ जैसे भाव अब भी कूड़ा ही हैं। छात्रों को ज़बरदस्ती ‘स्मार्ट दिखने वाले’ शब्द लिखवाना सबसे खराब शिक्षण पद्धति है
मेरी पत्नी लेखिका है, और उसका कहना है कि fanfic या romance उपन्यासों में ‘strode’ शब्द अजीब तरह से बहुत आता है। हर बार जब कोई चलता है तो उसे ‘आत्मविश्वास से चला’ लिख देना नौसिखियों की आम आदत है
लेखन शैली में वर्ग-संकेत छिपे होते हैं
लेख में जैसा कहा गया, हमने जो अंग्रेज़ी सीखी वह साम्राज्यवादी दौर की ‘Queen’s English’ थी, यानी सत्ता की भाषा
लेखन की औपचारिक सुंदरता सीखना सिर्फ परीक्षा पास करने के लिए नहीं था, बल्कि यह साबित करने का तरीका था कि आप ‘सभ्य व्यक्ति’ हैं
लेखन के फैशन का चक्र सामाजिक फ़ैशन के चक्र जैसा है। जब अलंकृत शैली आम हो जाती है, तो ऊपरी वर्ग उल्टा सरल शैली से खुद को अलग दिखाता है
Hemingway जैसी संयमित शैली कुछ वैसी है जैसे ‘फटी हुई 1000 डॉलर की जींस’—जहाँ सिर्फ संपन्न लोग ही जानबूझकर सादगी का प्रदर्शन कर सकते हैं
मैं Big Three कंपनियों में से एक में काम करता था, और ChatGPT की शैली बिल्कुल वैसी ही है जैसी कंपनी में सिखाई जाने वाली self-evaluation report शैली
असली उपलब्धियों से ज़्यादा, ‘कहानी’ को अच्छे से पैक करना ही पदोन्नति की कुंजी था
क्या आप अमेरिकी हैं? अंग्रेज़ीभाषी दुनिया के भीतर भी ब्रिटिश और अमेरिकी सांस्कृतिक फ़र्क काफ़ी बड़े हैं
अमेरिकी कम बनावटी और ज़्यादा सीधे होते हैं, जबकि British English में अब भी अधिक सजावटी झुकाव है
मेरी अनुभूति है कि ब्रिटिश लोगों की शब्द-संपदा हर पीढ़ी के साथ घट रही है
लेखन के दो उद्देश्य होते हैं
(1) विचार पहुँचाने के लिए लेखन — जितना सरल, उतना अच्छा। Paul Graham के essays की तरह, जहाँ जानकारी बिना रुकावट दिमाग में चली जाती है
(2) स्व-अभिव्यक्ति के लिए लेखन — वहाँ भड़कीली और कलात्मक शैली फिट बैठती है
David Foster Wallace ने जैसा कहा, पहला संवाद की तरह संप्रेषण करने वाला लेखन है, और दूसरा “यही मैं हूँ!” चिल्लाती डायरी जैसा
यह दिलचस्प है कि LLM के training data का बड़ा हिस्सा केन्या में curate किया गया था
अगर डेटा जापान में बना होता, तो शायद ChatGPT “Don’t you agree?” जैसे जापानी-शैली वाले अंत इस्तेमाल करता
संबंधित लेख
भारत के पाठ्यपुस्तक लेखक Malkiat Singh का प्रभाव बड़ा है
उनकी किताबें केन्या में standard textbooks की तरह इस्तेमाल हुईं, और उनके छात्र जब LLM data curator बने, तो वह शैली दुनिया भर के AI में घुल गई
Malkiat Singh Wiki
(संक्षेप में) शायद यह टालना मुश्किल था
लगता है 樣 शायद “ChatGPT (Japan)” meme तैयार कर रहा है XD
लेकिन data labeling, LLM के text generation training data से अलग चीज़ है। इस पर काफ़ी गलतफ़हमी है
मैंने 1897 के Chicago City News Bureau की style guide पढ़ी थी, उसमें कई दिलचस्प नियम थे
जैसे ‘night’ और ‘evening’ को न मिलाना, या ‘very’ को बेवजह न लिखना
ऐसे बारीक नियम उस दौर की भाषाई संवेदना दिखाते हैं
मेरी नज़र में इस लेख की शैली ChatGPT से बिल्कुल अलग दिखती है
बहुत से लोग em-dash(—) के इस्तेमाल को AI का निशान मानते हैं, लेकिन वह बहुत कमज़ोर संकेत है
उल्टा ChatGPT अतिरंजित लहजा और ‘खोखली भव्यता’ पैदा करता है
असल में अनुच्छेदों की तुलना करें तो AI वाला संस्करण ज़्यादा सजावटी, लेकिन कम ईमानदार लगता है
इस लेख में खिंचाव है। ज़्यादातर GPT output में एक पैराग्राफ के बाद ही ध्यान टूट जाता है
पढ़ने के बाद लगता है कि कोई जानकारी बची ही नहीं
LLM और इंसान के बीच फ़र्क बहुत शब्दों में कुछ भी न कहने की क्षमता में है
अगर पहले से अच्छे वाक्य GPT को ‘improve’ करने को दोगे, तो वह स्वाभाविक रूप से उन्हें और लंबा-चौड़ा ही बनाएगा
मूल पाठ में संरचनात्मक सजावट है, लेकिन अर्थ जीवित है। AI का लिखा पाठ कम information density वाला और उबाऊ होता है
em-dash का अंधाधुंध शिकार करना उन लोगों का काम है जिन्हें व्याकरण की समझ नहीं
कलाकारों और YouTuber को भी यही समस्या झेलनी पड़ रही है
AI जैसा दिखने की वजह से गलत समझे जाने की घटना बढ़ रही है
सच में, शायद कुछ voice actors सिर्फ इसलिए काम खो देंगे क्योंकि उनकी आवाज़ AI voice जैसी लगती है
मैंने भी एक Factorio वीडियो डाला था, और कुछ दर्शकों ने कमेंट किया कि “AI voice चुभ रही है”
जबकि असल में मैं खुद बोल रहा था, और वीडियो के अंत में मेरा चेहरा भी आया था
AI voice में भावनाएँ नहीं होतीं और उच्चारण अटपटा होता है, इसलिए वह जल्दी पकड़ी जाती है
आजकल tutorial videos में ऐसे ‘खोखले वीडियो’ बहुत हैं जहाँ AI द्वारा लिखी script को बस पढ़ दिया जाता है
इसलिए अब मैं सिर्फ उन्हीं creators के वीडियो देखता हूँ जिन पर भरोसा है
मेरे वीडियो का लिंक
अगर AI image generation में असली लोगों के चेहरे बिना अनुमति के इस्तेमाल हो रहे हैं, तो Pierce Brosnan को सबसे पहले मुआवज़ा मिलना चाहिए
हमारी टीम में भी एक सहकर्मी था जो ChatGPT की तरह बोलता था
WhatsApp और Zoom पर उसका अंदाज़ इतना यांत्रिक था कि मैंने Meta AI से पूछा, तो उसने कहा “यह AI द्वारा लिखा हुआ लगता है”
लेकिन उसने कहा कि वह सच में AI इस्तेमाल नहीं करता, और अब सोचता हूँ तो शायद वह बात सही भी हो सकती है
लेकिन AI से AI पहचानने को कहना ही बेतुका है। यह तो जैसे उससे खुद उसके बारे में पूछना हुआ
मैंने भी “ChatGPT मेरे जैसा लिखता है” वाला अनुभव किया है
मैं lists और formatting बहुत इस्तेमाल करता हूँ, और dyslexia-friendly लेखन पसंद करता हूँ
2019 में लिखे अपने notes देखूँ तो उनमें पहले से ChatGPT जैसा एहसास था
मैं जानबूझकर spelling mistakes डाल देता हूँ या गैर-मानक शैली मिला देता हूँ
साफ़-साफ़ कहें तो, अगर कोई लेख ChatGPT के default output से अलग ही नहीं दिखता, तो वह खराब लेखन है
भले ही असल में AI न इस्तेमाल हुआ हो, ऐसी शैली को सुधारने की ज़रूरत है
शिक्षा में अच्छी रेटिंग सिर्फ उन्हें मिलनी चाहिए जो AI से बेहतर लिख सकें
“ChatGPT की तरह स्मार्ट लगने की कोशिश करता है” कहकर किसी सहकर्मी का मज़ाक उड़ाना थोड़ा हास्यास्पद है
em-dash पर बहस दिलचस्प है
पहले इसे सिर्फ तब देखा था जब Word खुद-ब-खुद बदल देता था, मैंने कभी खुद टाइप नहीं किया
Windows में Alt+0151 दबाना पड़ता है, यह मुझे अभी पता चला
इसलिए मेरे लिए em-dash अब भी अजनबी चिह्न है
अब समझ आता है कि लोग अलग-अलग environments में लिखते हैं
सच तो यह है कि HN पर ChatGPT से पहले भी em-dash पसंद करने वाले लोग थे
HN em-dash उपयोगकर्ता रैंकिंग
मैं emacs में Typo mode चालू रखता हूँ ताकि en/em dash और smart quotes अपने-आप इस्तेमाल हों
मैंने HN dataset का analysis किया था, और AI फैलने के बाद भी em-dash का उपयोग नहीं बढ़ा
हाँ, ज़रूरत से ज़्यादा parenthetical sentence structure AI या कच्चे लेखन की पहचान है
macOS Notes में
--अपने-आप—बन जाता है, जिसकी वजह से कभी terminal command fail भी हो गई थीOP की अंग्रेज़ी क्षमता प्रभावित करती है
ज़्यादातर non-native speakers स्कूल में साहित्यिक अंग्रेज़ी सीखते हैं, इसलिए औपचारिक शैली उनके लिए स्वाभाविक होती है
मैंने भी France में ऐसी शिक्षा पाई थी, लेकिन IT उद्योग में काम करते-करते मेरी अंग्रेज़ी अमेरिकी सीधी-सपाट शैली में बदल गई
यह लेख ChatGPT ने नहीं लिखा। इसमें बेकार की सजावट नहीं है, और information density ऊँची है
AI के लेखन में मैं आधे से ज़्यादा हिस्से छोड़ देता हूँ, लेकिन यह ऐसा लेख था जिसमें एक भी शब्द छोड़ने का मन नहीं हुआ
यह अच्छी तरह लिखने वालों का एक तरह का श्राप है
ChatGPT को ‘अच्छा लेखन’ नकल करने के लिए डिज़ाइन किया गया है, इसलिए जो लोग अच्छा लिखते हैं, उन्हें ही AI समझ लिया जाता है
मैंने ऐसे लेख भी देखे हैं जिनमें व्याकरण की बहुत गलतियाँ थीं, फिर भी लोग उन्हें ChatGPT जैसा कहकर कोस रहे थे
सार्वजनिक जानकारी है कि ChatGPT को अफ्रीकी business English पर train किया गया था
संबंधित लेख
अगर ‘अच्छा लिखना’ की परिभाषा लंबा, सुरक्षित, और आलोचना से बचने वाला लहजा है, तो हाँ, यह बात सही है
सच कहें तो LLM इंसानों से बेहतर नहीं लिखते
वे ‘a/an’ जैसी बुनियादी grammar भी अक्सर गलत करते हैं, और ‘because traffic’ जैसे अर्थ-संक्षेप वाले भाव अब भी इस्तेमाल करते हैं
यह देखकर लगता है कि अर्थ को बारीकी से सँभालने की मानवीय क्षमता अब भी आगे है
OP के लेख में LLM जैसी कृत्रिम गंध नहीं है
em-dash का उपयोग भी स्वाभाविक है, और उसमें व्यक्तिगत भावना झलकती है
मुझे ChatGPT-शैली का लेखन पसंद नहीं
वह marketing copy की तरह थका देता है, और बस खोखली चमक छोड़ जाता है
ऐसा लेखन पाठक को थका देता है और जानकारी भी ठीक से नहीं पहुँचा पाता
केन्या में ऐसी शैली सिखाई जाती है, यह जानकर हैरानी हुई
“मैं ChatGPT की तरह नहीं लिखता, ChatGPT मेरे जैसा लिखता है” यह बात असरदार लगी
आखिरकार हम सब धीरे-धीरे ChatGPT की तरह बोलने और लिखने के लिए नियत हैं
बच्चे होमवर्क, बड़े लोग résumé और counseling, सब AI को सौंपेंगे, और बातचीत में भी “हाँ, यह सही है, इसके तीन कारण गिना देता हूँ” जैसे लहजे आने लगेंगे
(चेक इमोजी) और इमोजी जोड़िए — इंसान इमोजी से प्यार करते हैं
(लाल X इमोजी) “bullshit” जैसे नकारात्मक शब्दों से बचिए
(thumbs up इमोजी) हम जल्द ही human feedback learning से आगे निकल जाएँगे (smile)
मज़ेदार लेख है।