सिर्फ X नहीं, Y है
(mail.cyberneticforests.com)- LLM जिस "It's not X, it's Y" नकारात्मक समानांतर संरचना का अक्सर उपयोग करते हैं, वह मूल रूप से विरोध स्थापित करने और पुरानी धारणाओं को नए सिरे से गढ़ने की उपयोगी अलंकारिक तकनीक है
- हाल के मॉडलों द्वारा इसके अत्यधिक उपयोग के कारण इस संरचना पर खराब लेखन का ठप्पा लग गया है, लेकिन किसी अलंकारिक उपकरण की कीमत इस बात पर निर्भर करती है कि उसमें क्या कहा जा रहा है
- AI detector और Grammarly जैसे टूल ऐसे पैटर्न ढूंढकर यह विरोधाभास पैदा करते हैं कि मशीन इंसानों की तरह लिखे, इसके लिए इंसान फिर से मशीन के हिसाब से लिखे
- इस संरचना के फैलाव का एक कारण RLVR(verified rewards के जरिए reinforcement learning) को माना गया है, जो इस बात से जुड़ा है कि मॉडल सही उत्तर तक पहुँचते समय जिस भाषा का इस्तेमाल करते हैं वही मजबूत होती जाती है
- जब भाषा के पैटर्न खुद मूल्यांकन का लक्ष्य बन जाते हैं, तो Goodhart's law की तरह भाषा अच्छी भाषा रहना बंद कर देती है; इसलिए मशीन के फैसले पर निर्भर होने के बजाय आलोचनात्मक सोच जरूरी है
नकारात्मक समानांतर संरचना और उसके खिलाफ प्रतिक्रिया
- LLM को आकर्षित करने वाली negative parallelism(नकारात्मक विरोध-संरचना) का काम विरोध स्थापित करना है, और यह खास तौर पर तब उपयोगी होती है जब किसी धारणा को इस तरह पलटा जाए: "आप ऐसा सोचते हैं, लेकिन असल में बात यह है"
- यह संरचना सोशल मीडिया, खासकर LinkedIn पर बहुत फैली हुई है, और स्वचालित भाषा उत्पादन के खिलाफ युद्ध के बीच इस पर प्रतिक्रिया तेज हुई है
- em-dash का उपयोग, delve·quietly·genuinely जैसे शब्द, और 3 बिंदुओं वाली सूची जैसी चीजें bot की निशानी मानकर संदेह की जाती हैं
- हाल के मॉडलों द्वारा इसके अति-प्रयोग के कारण बहुत से लोगों ने इसे खराब लेखन मान लिया, लेकिन JFK का यह वाक्य — "यह मत पूछो कि देश तुम्हारे लिए क्या कर सकता है, यह पूछो कि तुम देश के लिए क्या कर सकते हो" — भी इसी तकनीक का उदाहरण है, और कोई इसे आलसी लेखन नहीं कहता
- अलंकारिक उपकरण अपने आप में आलसी या प्रेरक नहीं होते; यह इस पर निर्भर करता है कि उनमें क्या भरा गया है
स्वचालित भाषा उत्पादन और detection tools का विरोधाभास
- AI detector दावा करते हैं कि वे ऐसे पैटर्न पकड़कर लोगों को witch-hunt से बचाते हैं, लेकिन यदि आप अपनी लिखी चीज़ Grammarly में डालें, तो वह AI detector द्वारा पकड़े जाने वाले शब्द-पैटर्नों का विश्लेषण करके संशोधन सुझाता है
- इससे आप लेखन का अधिकार Grammarly को दे देते हैं, और अपने वाक्य की लय तथा मंशा खो बैठते हैं
- Grammarly ने एक सेक्शन में 27 expressions को बदलने लायक बताया
- उसने "automated language production" को AI होने की 11 गुना अधिक संभावना वाला बताया और उसकी जगह "against mechanized language synthesis" सुझाया
- "align with" को AI-generated होने की 43 गुना अधिक संभावना वाला बताया, और कहा कि इंसान "corresponds" लिखते हैं
- छोटी-छोटी सलाहें जुड़ते-जुड़ते ऐसा नतीजा देती हैं कि अंत में लेखन आपका चुना हुआ नहीं रह जाता; इंसान जैसा सुनाई देने की कोशिश करती मशीन इंसानी आवाज़ की जगह लेने लगती है
- लेखक ने एक दूसरे AI detection vendor Pangram को $20 देकर यह जांचा कि सबमिशन से पहले लेख AI-generated नहीं माना जाएगा
- यह जानने के लिए नहीं कि उन्होंने खुद लिखा या नहीं, बल्कि यह सुनने के लिए कि उन्हें flag नहीं किया जाएगा; इसे लेखक ने लगभग extortion कहा
- Pangram सच्चाई को high·very likely·somewhat likely·human जैसी 4-स्तरीय ratings में बांटता है
तर्क-विरोधी संस्कृति और post-training
- मशीनों को समझने की सहज प्रवृत्ति हमें training data देखने की ओर ले जाती है, लेकिन वह data अब "सिर्फ web" नहीं रह गया; web तो केवल कच्चा माल है, जिसे भारी processing से गुजारा जाता है
- Post-training मॉडल को उसके डिज़ाइन किए गए उद्देश्य के मुताबिक optimize करता है
- RLHF(human feedback पर आधारित reinforcement learning): इंसान जवाबों की ranking करते हैं, और सिस्टम वैसे जवाबों को ज्यादा महत्व देना सीखता है
- RLVR(verified rewards के जरिए reinforcement learning): यह और भी अजीब है, और संदेह है कि "It's not X, it's Y" जैसी संरचना बार-बार दिखने का एक कारण यही है
- इस भाषा को बस आलसी कहकर खारिज कर देना यह समझने में बाधा डालता है कि यह हर जगह क्यों दिख रही है, और सोचने के लिए उपयोगी एक मजबूत linguistic frame को मॉडल की सोचने की क्षमता समझ लेने का खतरा पैदा करता है
- यानी भाषा ने जो काम किया, उसका श्रेय computation को दे दिया जाता है
RLVR कैसे काम करता है
- RLVR शब्दों की निगरानी करके किसी sub-process को चालू नहीं करता; यह भी सामान्य मॉडलों की तरह train होने के बाद tokens predict करता है
- token prediction में training data के गणितीय वितरण के आधार पर संभावित विकल्पों की सूची बनती है, फिर पहले आए शब्दों के संदर्भ में उनकी संभावना के हिसाब से ranking होती है
- RLVR मॉडल से गणित के सवाल हल करते समय समाधान तक पहुँचने की प्रक्रिया को लिखवाता है, जिससे वह उस भाषा की नकल करता है जिसका उपयोग हम ज़ोर से सोचते समय करते हैं
- जब मॉडल सही जवाब तक पहुँच जाता है, तो उस प्रक्रिया में सबसे अधिक इस्तेमाल हुई भाषा final model में उभरकर मजबूत हो जाती है; industry इसी के एक हिस्से को reasoning कहती है
-
"अजीब कुत्ता" उपमा
- एक स्थिति सोचिए: फ़ोन बंद है, और आपका दोस्त पूछता है, "हमने उस अजीब कुत्ते को किस दिन देखा था?"
- "गुरुवार था" → दोस्त: "नहीं, गुरुवार को तो मैं बिज़नेस ट्रिप पर था" → "तो फिर बुधवार, जब हम तुम्हारे birthday party पर जा रहे थे" → दोस्त: "सही, लेकिन पार्टी शुक्रवार को थी, तो हमने उसे शुक्रवार को देखा था"
- दोनों लोग फोटो से verify किए जा सकने वाले सही उत्तर तक भाषा के जरिए पहुँचते हैं; पहली सहज प्रतिक्रिया ("गुरुवार") वैसी ही है जैसी मॉडल पहले अपनी पहली अटकल पर रुक जाया करते थे
- लेकिन असली यादें और अनुभव रखने वाले दो इंसानों से अलग, मॉडल भाषा को लगातार लंबा खींचते हुए तर्क के pattern की नकल करता है; वह भाषा के माध्यम से नहीं, बल्कि भाषा के भीतर विचार-जैसी प्रक्रिया दोहराता है
- एक स्थिति सोचिए: फ़ोन बंद है, और आपका दोस्त पूछता है, "हमने उस अजीब कुत्ते को किस दिन देखा था?"
- "suppose…", "because", "consider", "alternatively", "wait" जैसे high-entropy शब्द लंबे अनुमानात्मक वाक्यांशों को जन्म देते हैं
- वे ऐसी भाषा को बुलाते हैं जो विरोध, अपवाद और अमूर्तन को खींच लाती है, और जब वही भाषा गणितीय समस्या के सही उत्तर तक पहुँचने में मदद करती है तो उसे और मजबूत कर दिया जाता है
हम तर्क क्यों करते हैं
- "अजीब कुत्ता" जैसी बातचीत का मकसद सिर्फ कैलेंडर की तारीख पहचानना नहीं, बल्कि स्मृति को खोलना है — यादों को फिर से बनाना, संदर्भ का स्वाद लेना, और दोस्तों के बीच जुड़ाव को गहरा करना
- LLM में उपयोग होने वाली reasoning की परिभाषा मानती है कि सवाल का सार उत्तर पाना है, उत्तर verify किया जा सकता है, और तुरंत निष्कर्ष पर पहुँचने से कुछ नहीं खोता
- इसका असर लेखन पर पड़ता है; जब language model के जरिए सोच की तेज prototyping की जाती है, तो संदेह के प्रति खुलापन खो सकता है
- अस्पष्टता, संदेह और अनिश्चितता कई तरह की सोच में तत्काल उत्तर से ज्यादा महत्वपूर्ण होती हैं
- सवाल यह भी है कि AI detector किसी text को AI-generated इसलिए मानते हैं क्योंकि उसमें reasoning के संरचनात्मक patterns होते हैं; Pangram और reasoning model दोनों ही उन संरचनात्मक पैटर्नों को पकड़ते हैं जिनके सहारे इंसान लिखते हुए तर्क करते हैं
- Pangram मॉडल को 2021 से पहले के data पर train किया गया, फिर उसी text के AI-generated versions को training में जोड़ा गया
- जब किसी को सार्वजनिक रूप से यह कहकर शर्मिंदा किया जाता है कि वह मशीन जैसा लगता है, तो लोग डर के कारण उन संरचनाओं से बचने लगते हैं जिन्हें उन्होंने "AI writing" के रूप में भीतर बैठा लिया है; इससे यह संदेश जाता है कि तर्क की भाषा पर निगरानी होनी चाहिए
- आखिरकार हम उन्हीं संरचनाओं से कतराने लगते हैं जो मॉडल ने हमसे सीखी थीं — यानी तर्क गढ़ने के असरदार औज़ार — और वह भी तब, जब आलोचनात्मक सोच के लिए उनकी सबसे ज्यादा जरूरत होती है
जब मापन ही लक्ष्य बन जाता है
- ब्रिटेन में AI-based essay assessment tool की तुलना मानव परीक्षकों से की गई
- यह सिस्टम essay की लंबाई, vocabulary range और sentence complexity के आधार पर ऊँचे अंक देता था, जबकि इनका शैक्षणिक मानदंडों से अक्सर कोई सीधा संबंध नहीं होता
- ये लक्षण RLVR-आधारित reasoning जैसे AI reasoning की विशेषताओं से मिलते हैं; यानी LLM उन मानकों से इंसानों को अंक दे रहा है जिनसे engineers LLM का मूल्यांकन करते हैं
- अर्थशास्त्र का Goodhart's law कहता है: "जब किसी देखी गई सांख्यिकीय नियमितता पर नियंत्रण के उद्देश्य से दबाव डाला जाता है, तो वह टूटने लगती है"; यानी जब माप ही लक्ष्य बन जाता है, तो वह अच्छा माप रहना बंद कर देता है
- LLM के संदर्भ में: "जब भाषा का मापन लक्ष्य बन जाता है, तो वह अच्छी भाषा रहना बंद कर देती है"
- सामग्री की बजाय भाषा के पैटर्न का मूल्यांकन करना खतरनाक है, और generation तथा detection दोनों इसे बढ़ावा देते हैं; automated grading उसी के बीच की कड़ी है
- यदि तर्क करने की क्रिया के बजाय तर्क के रूप को पुरस्कृत किया जाएगा, तो वह और आकर्षक तथा सर्वव्यापी होगा; और यदि रूप को दंडित किया जाएगा, तो तर्क को ही दंडित करने का खतरा होगा, इसलिए हर स्थिति में मशीन के फैसले पर छोड़ने के बजाय आलोचनात्मक रूप से सोचना जरूरी है
स्वचालित सोच के खिलाफ
- लेखक उस पुराने तर्क से सहमत नहीं है कि "अगर आपने कुछ गलत नहीं किया, तो डरने की कोई बात नहीं"
- 2018 से automated surveillance systems की 99.8% accuracy का हवाला दिया जाता रहा है, लेकिन Arvind Narayanan के अनुसार जब इसे paper-स्तर के आँकड़े की तरह इस्तेमाल किया जाता है, तो हर बार त्रुटियाँ जुड़ती जाती हैं
- नतीजतन, विश्वविद्यालय के 10% तक छात्रों पर झूठा आरोप लग सकता है; यदि हर text को AI जांच से गुजारा जाए, तो false positives कहीं बड़े पैमाने पर होंगे
- ये मॉडल वास्तविक शक्ति को केंद्रित करते हैं, और कंपनियाँ वादा करती हैं कि वे हमारी जगह तर्क करेंगी
- जब कोई दो पंक्तियों के वाक्य को AI interpreter में डालकर नतीजा ऑनलाइन पोस्ट करता है और कहता है, "देखो, यह plagiarism करने वाला है," तब एक खतरनाक चीज़ सामान्य बनाई जा रही होती है
- AI detection के दबाव में rewriting और self-censorship की संस्कृति मानवीय अभिव्यक्ति की रक्षा के ठीक उलट है; हमें मशीन की दोषी ठहराने की क्षमता पर भरोसा सामान्य बनाने का विरोध करना चाहिए
- अगर AI से लिखवाना सबसे बुरे रूप में मन का औद्योगीकरण है, तो AI detection सबसे बुरे रूप में विचार पर निगरानी की व्यवस्था बन सकती है
1 टिप्पणियां
Lobste.rs की रायें
अगर किसी स्वचालित सिस्टम ने किसी पेपर को सिर्फ इसलिए अपने-आप खारिज कर दिया कि उसने उसे AI-जैसा आँका, तो यह किसी बुरे सपने जैसा होगा, और अच्छी बात है कि मेरे काम में ऐसी समस्या नहीं है
यह बात अच्छी लगी कि reasoning की भाषा सिर्फ LLM output को धाराप्रवाह और विश्वसनीय नहीं बनाती, बल्कि उसे शुरू से काम करने लायक बनाती है या कम-से-कम बेहतर काम करवाती है. ऐसी तकनीकें इंसानों पर भी अच्छी तरह काम करती हैं, और इसी वजह से 5 Whys analysis जैसी तकनीकें असरदार होती हैं
दूसरी ओर, मुझे अब भी लगता है कि आलसी और कम-गुणवत्ता वाली लिखाई को पहचानना चाहिए. इसके लिए सिर्फ संरचना या शैलीगत उपकरणों पर ध्यान देने की ज़रूरत नहीं है. मेरे मामले में मैं आमतौर पर सद्भावना के साथ लिखाई पढ़ना शुरू करता हूँ, और अगर कुछ पैराग्राफ बाद भी लेखक की मूल बात समझना मुश्किल हो, तब मैं उसके बाद सामान्य संकेत ढूँढना शुरू करता हूँ, और वे काफ़ी बार मिल भी जाते हैं
दिलचस्प लेख है, लेकिन व्यवहार में मैं सोच-विचार के लिए लिखे गए text और reasoning पूरी होने के बाद संप्रेषण के लिए लिखे गए अंतिम text में फ़र्क करूँगा
उदाहरण में सोचते समय कोई कह सकता है “वह गुरुवार नहीं बल्कि बुधवार था”, लेकिन किसी को संदेश भेजते समय वह बस “वह गुरुवार था” लिखेगा
इसलिए अकादमिक या कार्यस्थल के वास्तविक output जैसे रिपोर्ट या ईमेल में वह भाषा नहीं होगी जो किसी विषय पर reasoning करते समय इस्तेमाल होती है, और अगर ठीक से लिखा गया हो तो उसे LLM-जैसा नहीं दिखना चाहिए. ड्राफ्ट या निजी नोट्स ऐसे हो सकते हैं, लेकिन अंतिम भेजी जाने वाली चीज़ें नहीं
मैं generative AI का कड़ा आलोचक हूँ, लेकिन जिन शोधकर्ताओं की मातृभाषा अंग्रेज़ी नहीं है, उनके लिए लिखाई सँवारने के काम में यह academic writing में उपयोगी हो सकता है
लेकिन इसके लिए लगभग तैयार और अच्छी तरह संरचित ड्राफ्ट चाहिए; अगर सिर्फ बुलेट पॉइंट्स डाल दिए जाएँ तो hallucination या सख्त और अप्राकृतिक अभिव्यक्तियाँ निकलती हैं
पिछले कुछ वर्षों में चीन या भारत जैसे देशों से आए बहुत-से कम-गुणवत्ता वाले पेपरों की समीक्षा करते-करते मुझे यह भी महसूस हुआ कि इन देशों के लोगों द्वारा अक्सर इस्तेमाल किए जाने वाले non-native अंग्रेज़ी मुहावरों के प्रति मुझमें थोड़ा पक्षपात बन गया है. दुख की बात यह है कि मैंने जिन सबसे बेहतरीन पेपरों की समीक्षा की, उनमें से कुछ इन्हीं देशों से थे
इस अर्थ में, चूँकि अंग्रेज़ी अकादमिक जगत की मानक भाषा बन चुकी है, LLM उच्च स्तर की भाषा को मानकीकृत करने और review process के bias को कम करने में भी मदद कर सकता है
जिन संस्थानों में बहुत-से कर्मचारी अंग्रेज़ी के native speaker नहीं होते, वहाँ आमतौर पर writing consultants होते हैं, जो सिर्फ अच्छे वाक्य नहीं बनाते बल्कि उससे भी ज़्यादा महत्वपूर्ण यह देखते हैं कि लिखा गया पाठ लेखक की मंशा से मेल खाता है या नहीं. इसे LLM पर छोड़ देने से अर्थ में सूक्ष्म बदलाव आ सकते हैं, और तथ्यगत त्रुटियों या गलत दावों की अभिव्यक्ति के कारण अंततः लेखक के लिए और भी बुरा परिणाम हो सकता है
जो संस्थान भाषा-संबंधी सलाह नहीं देते, वे अपने कर्मचारियों के लिए प्रतिकूल माहौल बना रहे हैं, और स्वतंत्र शोधकर्ता तो अन्य कारणों से भी अक्सर पहले से अधिक नुकसान में होते हैं
non-native अभिव्यक्तियों के प्रति अवचेतन पक्षपात को पूरी तरह टालना कुछ हद तक मुश्किल है, लेकिन पेपर समीक्षा में अगर भाषा की समस्या स्पष्ट हो तो मैं काफ़ी उदारता बरतता था, और जिन हिस्सों को भाषा समस्या के कारण अस्पष्ट माना, उन्हें संशोधन निर्देश के रूप में छोड़ देता था. यह ऐसी चीज़ है जिसे आत्म-जाँच के साथ संभालना चाहिए
कमजोर भाषा-प्रयोग कुछ हद तक ideas, methodology, और results को धुंधला कर सकता है, लेकिन LLM इसे वास्तव में तथ्य-विपरीत सामग्री में बदलकर बिगाड़ सकता है, जैसा कि मैंने समीक्षा किए गए पेपरों में देखा है, और नतीजतन उसका खंडन और संशोधन करना पड़ सकता है या पेपर सीधे खारिज भी हो सकता है. इस समस्या से निपटने के बेहतर तरीके मौजूद हैं, इसलिए LLM के उपयोग की सिफारिश नहीं करनी चाहिए
इसके अलावा, यह plagiarism है या नहीं, यह भी अभी खुला प्रश्न है. यह उससे भी बड़ा विवाद है, और कई बार बुनियादी तथ्यात्मक स्थिति पर भी सहमति नहीं होती. कुछ academic conferences या journals इसी कारण LLM सहायता पर रोक लगाते हैं, इसलिए उन नियमों का भी सम्मान होना चाहिए
विडंबना यह है कि कंपनियों ने इस हिस्टीरिया से कमाई करने में बिल्कुल समय बर्बाद नहीं किया, और वे LLM का इस्तेमाल करके यह तय कर पैसे कमा रही हैं कि कोई लिखाई सचमुच इंसान ने लिखी है या नहीं, और यह भी तय करने वाली निर्णायक बन गई हैं कि स्वीकार्य लेखन क्या है
लेखक की यह बात सही है कि अगर लोग आलस में सिर्फ शैली देखने के बजाय सामग्री के साथ ठीक से जुड़ना शुरू करें, तो यह पूरी समस्या ही गायब हो जाएगी