जो निश्चितता की लालसा रखता है, वह झूठ की लालसा रखता है

(etymonline.com)

1 पॉइंट द्वारा GN⁺ 2023-09-27 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Google Ngram Viewer के शब्द-आवृत्ति ग्राफ़ Google Books डेटा और फ़ॉर्मूला की खामियों के कारण 20वीं सदी में अंग्रेज़ी उपयोग में बदलाव को विकृत कर सकते हैं, और said व toast जैसे आम शब्द भी 1970–1980 के दशक में गायब होकर फिर लौटे हुए दिखते हैं
Google Books corpus में विश्वविद्यालयों से जुटाई गई सामग्री और आधुनिक विज्ञान/अकादमिक जर्नल व पाठ्यपुस्तकों का अनुपात बड़ा है, जिससे कुछ शब्दों की आवृत्ति बढ़-चढ़कर दिख सकती है और दूसरे शब्दों की आवृत्ति तुलनात्मक रूप से कम दिख सकती है
पुराने मुद्रित साहित्य में long s(ſ), spelling variants, plural forms और गलत dates के कारण Ngram fuck और suck, authorise और authorize, dog और dogs जैसे मामलों को ठीक से अलग नहीं कर पाता
Etymonline की etymology व्याख्याएँ मुद्रित स्रोतों और इंसानी काम पर आधारित हैं, लेकिन Ngram सजावटी visual material के ज्यादा करीब है, इसलिए जब वह etymology explanation से टकराता है तो उस पर भरोसा करना मुश्किल है
ऑनलाइन दुनिया में चित्र को लेखन से अधिक आसानी से चुना जाता है, लेकिन Ngram graph को शब्द-उपयोग का निर्णायक प्रमाण नहीं, बल्कि अपूर्ण data visualization की तरह देखना चाहिए

Google Ngram द्वारा बनाई जाने वाली अजीब शब्द-आवृत्तियाँ

Google Ngram Viewer में said की आवृत्ति 20वीं सदी के अंग्रेज़ी verbs में वास्तविक बदलाव जैसी कम, और आख़िरी हिमयुग के temperature graph की तरह ऊपर-नीचे होती आकृति जैसी अधिक दिखती है
- ऐसा नहीं है कि 1970 के दशक में अंग्रेज़ी लेखकों ने अचानक said लिखना बंद कर दिया और फिर दोबारा शुरू कर दिया
toast भी Ngram में लगभग 1980 के आसपास अंग्रेज़ी से करीब-करीब गायब होकर फिर लौटता हुआ दिखता है
- इसे “1977 का महान toast अकाल” जैसा व्यंग्यात्मक रूप दिया गया है
समस्या का एक पहलू Google Books से निकली Ngram फ़ॉर्मूला की लंबे समय से ज्ञात खामी में है
- यह error कई अंग्रेज़ी शब्दों को ऐसा दिखाता है मानो वे पूरी 20वीं सदी में घटते रहे और लगभग 1980 के आसपास फिर से उभर आए
Google Books corpus में विश्वविद्यालयों से शामिल की गई बहुत-सी मुद्रित सामग्री है, और आधुनिक विज्ञान/अकादमिक जर्नल व पाठ्यपुस्तकों का हिस्सा भी असंतुलित रूप से बड़ा है
- अकादमिक लेखन में अक्सर कुछ ही शब्दों को बार-बार इस्तेमाल करने की प्रवृत्ति होती है
- इसके परिणामस्वरूप कुछ शब्दों के score बढ़-चढ़कर दिखते हैं, और दूसरे शब्द तुलनात्मक रूप से कम दिखते हैं
- यही संरचना लगभग हर शब्द के Ngram में 20वीं सदी के मध्य का dip पैदा करने का कारण बनती है
said का अकादमिक लेखन में उपन्यासों या अख़बारों की तुलना में कम इस्तेमाल होना संभव है, लेकिन graph जैसे शब्द अकादमिक लेखन में कहीं अधिक बार इस्तेमाल होते हैं
- graph के 20वीं सदी के Ngram में वैसा dip नहीं दिखता

OCR, spelling और date errors से बनने वाली विकृतियाँ

Ngram में F-word आधुनिक काल से पहले लगभग इस्तेमाल नहीं हुआ दिखता, लेकिन 1820 से पहले की ओर जाते हुए उसका उपयोग अचानक बहुत बढ़ता हुआ दिखता है
- इनमें से कई उदाहरण असल में fuck नहीं, बल्कि पुराने suck हैं
- पुराने मुद्रण में long s(ſ) पुराने font और सस्ते कागज़ पर lowercase f जैसा दिख सकता है
- इस character का इस्तेमाल लगभग 1820 तक घट गया, और कभी-कभी केवल context ही f और s में अंतर बता पाता है
- माना जाता है कि AI यह फर्क नहीं समझता
Google Books spelling variants की समानता को ठीक से पहचान नहीं पाता
- authorise का Ngram authorize से अलग है, और दोनों में authorizes शामिल नहीं है
- noun Ngram में भी plural forms नहीं गिने जाते, इसलिए dog और dogs को अलग-अलग देखा जाता है
Google Books files में गलत dates लगी होने के मामले भी बहुत हैं
- पुरानी library book के cover पर लिखा 1896 digital scanner को 1800 जैसा दिख सकता है
- 1910 के दशक के Bible booklet bundle को कुछ समय तक 1799 की publication के रूप में दिखाए जाने का एक मामला है
- वह date publication date नहीं थी, बल्कि मुद्रित Bible booklet association के logo में शामिल founding year था
- इस संबंधित समस्या पर एक वीडियो भी है
Etymonline का text पूरी तरह मुद्रित स्रोतों से बनाया जाता है और इंसान उस पर काम करते हैं, लेकिन Ngram के साथ ऐसा नहीं है
- Ngram को एक अविश्वसनीय, अनजान technology द्वारा बनाया गया rough product माना जाता है
- ऑनलाइन माहौल में चित्र जीतता है और लेखन हारता है, इसलिए site में Ngram शामिल है
Ngram को शब्द-उपयोग के प्रमाण के रूप में निर्णायक रूप से स्वीकार करने के बजाय सजावटी, हल्के मनोरंजन वाले visual की तरह देखना बेहतर है
- यदि Etymonline की etymology explanation और Ngram शुरुआत से ही टकराते हैं, तो रुख यह होना चाहिए कि Etymonline सही है और Ngram गलत

1 टिप्पणियां

GN⁺ 2023-09-27

Hacker News की राय

इस लेख का सबसे अच्छा हिस्सा ngrams की आलोचना है, और व्यापक तौर पर आधुनिक algorithms में ngrams के व्यापक इस्तेमाल की आलोचना भी
खासकर यह बात बेहद पैनी है कि Etymonline printed sources और इंसानों द्वारा बनाए गए text पर आधारित है, जबकि ngrams एक ऐसी अनजान तकनीक का कच्चा उत्पाद है जो “influence” और “inform” के बीच का फर्क भी नहीं सीख पाई
यह algorithms और social media पर एक तीखे पलटवार की तरह पढ़ा जाता है, जो इंसानी भाषा और interaction को quantify करने की कोशिश में अक्सर गलत होते हुए भी अपने मालिकों के मुनाफे को maximize करना चाहते हैं
ऐसे समय में यह बात और भारी लगती है जब हम सुनते हैं कि generative AI असल में ngram predictor है
- “Etymonline पूरी तरह printed sources और इंसानों द्वारा बनाए गए text पर है, Ngrams नहीं” वाला हिस्सा थोड़ा उलझाने वाला है
  अगर “printed sources” से मतलब यह है कि digital sources शामिल नहीं हैं, तो यह लेख में बताए गए मुद्दे से बहुत जुड़ा हुआ नहीं लगता
  अगर सभी printed material को पूरी तरह शामिल नहीं किया गया है, तो वही biased dataset वाली समस्या पैदा हो सकती है, और इंसान भी OCR की तरह गलतियाँ कर सकते हैं
- “प्रभावित होना” और “जानकारी पाना” एक ही नैतिक सिक्के के दो पहलू लगते हैं
  यह कहने जैसा है कि दूसरों के विचार उनके अपने नहीं हैं, जबकि हम खुद को ऐसे सद्गुणी जानकारी-ग्राहक बताते हैं जो अपने निष्कर्ष खुद निकालते हैं
  मन का low-pass filter सिर्फ वही स्वीकार करता है जो मौजूदा ढांचे में फिट बैठता है
  अगर आप किसी चीज़ को reject नहीं कर रहे हैं, तो उससे जानकारी पाना और उससे प्रभावित होना एक ही बात है; और ऐसे frame में “मैंने तो सिर्फ जानकारी पाई” कहने वाला व्यक्ति डींग मारता हुआ और आत्म-जागरूकता से खाली लगता है
- सबसे ऊँचे स्तर का ज्ञान अब भी printed material में है, और अब भी इंसान ही उसे बनाते हैं
  electronic media निगल जाने वाली आत्मा जैसी है: वह produce नहीं करती, खा जाती है
उस page के comments में “क्या publishers अब भी हर spring thaw पर ‘is’ के truckloads order करते हैं...” वाला मज़ाक Dictionopolis में तो सही बात है
The Phantom Tollbooth पसंद करने वाला कोई है?
https://en.wikipedia.org/wiki/The_Phantom_Tollbooth
data analysis की मूल समस्या यह है कि analysis की quality data की quality जितनी ही अच्छी होती है
data quality का आकलन करना ही मुश्किल है; data अच्छा है या नहीं यह कैसे पता चले, उस पर कितना भरोसा किया जा सकता है, उसे कैसे measure और report किया जाए—ये सब आसान नहीं हैं
data quality पर qualitative और quantitative assessment हो भी, तो उसे analysis results के साथ integrate करके कैसे पेश किया जाए, यह अलग समस्या है
results को data quality के हिसाब से quantitatively adjust करना हो तो हर project में काफी custom work चाहिए, और यह साधारण line graph से आगे की बात है
Google Ngrams के लिए समय के साथ data sources की बनावट को “academic”, “news” जैसी बड़ी categories में बाँटकर chart में दिखाया जा सकता है, लेकिन इसके लिए हर document को category देनी होगी और लोगों के सचमुच देखने लायक प्रमुख जगह पर link और explanatory text भी रखना होगा
फिर भी यह उस intuitive reaction को नहीं रोक पाएगा जो किसी व्यक्ति को word usage घटती हुई time series देखकर होती है
बेहतर तरीका शायद word usage time series की uncertainty को quantify करके chart पर overlay करना हो सकता है
लेकिन यहाँ usage count अपने-आप में accurate है, और uncertainty sampling से आती है, इसलिए यह estimate करना होगा कि उस समय लिखे गए सभी documents और sampled documents कितने अलग हैं
शायद यह संभव हो, लेकिन आसान नहीं लगता; और ऐसा करने के बाद भी सवाल रहेगा कि लोग uncertainty markings को सही तरह interpret करेंगे या बस नीचे जाती line देखकर बाकी सब ignore कर देंगे
AI युग में आगे बढ़ते हुए हमें यह समस्या याद रखनी चाहिए
हमारी ज़िंदगी में भी यही बात लागू होती है: हम देखे गए data से सीखते हैं और राय बनाते हैं, लेकिन हमने जो data देखा वह कितना अच्छा है और हमारे निष्कर्ष कितने valid हैं, यह हमेशा सवाल बना रहता है
लेखक ज़ोर देकर कहते हैं कि “said” के बारे में ngram आँकड़े गलत हैं और ऐसा जताते हैं जैसे उल्टा सबूत मौजूद है, लेकिन असल सबूत नहीं देते
अपनी साइट पर भी वे सिर्फ Google ngram आँकड़े ही देते हैं: https://www.etymonline.com/word/said#etymonline_v_25922
इसमें ग्राफ़ के y-axis पर 0 न दिखाने की बड़ी चूक और ग्राफ़ की गलत व्याख्या भी जुड़ जाती है, इसलिए इस पर बिल्कुल भरोसा करना मुश्किल है और लेख बहुत कम गुणवत्ता का लगता है
- 60 साल के भीतर “said” का इस्तेमाल आधा हो गया, और फिर अगले 20 साल में पुराने स्तर पर लौट आया? यह दिखाने के लिए सबूत चाहिए कि English इतनी जल्दी इस तरह बदल गई थी
  ऐसा दावा असाधारण है, इसलिए उसके लिए ठोस आधार चाहिए
  अगर आधार नहीं है, तो मैं लेख की इस परिकल्पना और निष्कर्ष पर भरोसा करूँगा कि ngrams गड़बड़ हैं
  “toast” वाले ग्राफ़ की गलत व्याख्या हुई, यह सही है, और नीचे के स्तर से काटे गए खराब ग्राफ़ को ज़्यादा सावधानी से पढ़ना चाहिए था
- सबूत पेश करना इसलिए मुश्किल है क्योंकि स्रोत व्यवहार में सिर्फ एक ही है
  इसलिए लेख मूल रूप से Google Books/Ngram methodology की खामियाँ बता रहा है
  मुझे यह approach वाजिब लगता है
  वरना हम सिर्फ इसलिए किसी खामी वाली चीज़ को स्वीकार कर लेंगे कि वह मौजूद है और इस्तेमाल में आसान है
  “सबसे ज़्यादा tweet किया गया X है, इसलिए वही सबसे लोकप्रिय और महत्वपूर्ण है” जैसी बात का जवाब देने के लिए अलग research करके सच खोजना ज़रूरी नहीं है
  यह कहना भी काफी है कि “यह बेवकूफी भरी methodology है, इसलिए Twitter ऐसा कहता है तो उसे मत मानो”
- शायद आप चाहते हैं कि कोई newspaper जैसे स्रोतों की जाँच करे और देखे कि “said” की frequency ratio समय के साथ कैसे बदली
  यह उचित माँग है, लेकिन मुझे लगता है कि लेखक का expert के तौर पर यह कहना भी ठीक है कि newspapers ने said को लगभग समान frequency से इस्तेमाल करना जारी रखा
  वह explanation plausible है, और मैं नहीं मानता कि proof का burden ज़रूरी तौर पर लेखक पर ही है
- “said” का ग्राफ़ की तरह गिरना और फिर वापस चढ़ना वह पक्ष नहीं है जिसे सबूत चाहिए
  उल्टा, इस तरह बदलाव हुआ—इस असाधारण दावे को सबूत चाहिए
  वह दावा Google की तरफ़ से है, और blog लेखक को दोष देने से पहले यह देखना चाहिए कि अदृश्य dataset कितना representative है
  जिस input dataset को हम जानते ही नहीं, उसके आँकड़ों को क्या “Google पर भरोसा करो” की तरह जस का तस स्वीकार कर लेना चाहिए?
- EtymOnline शब्दों की popularity में बदलाव track करने की जगह meaning shifts track करने की कोशिश करता है
  इसलिए “said” entry में ठोस counter-evidence न होना समझ में आता है
  मुख्य text में सबूत न होने की वजह भी यही है कि “said” अपने peak के लगभग एक-तिहाई तक गिर गया—यह पक्ष कहीं ज़्यादा असाधारण दावा है, इसलिए उसे मजबूत सबूत चाहिए
  इतना कहना ही काफी है कि “ऊपरी तौर पर भी यह बिल्कुल तर्कसंगत नहीं लगता, और संभवतः Google dataset की genre composition बहुत बदल जाने की वजह से हुआ है”
Ngram graph यह नहीं कहता कि toast 1980 के आसपास English से लगभग गायब होकर फिर प्रकट हुआ
बस ऐसा दिखता है कि 1800 के बाद usage लगभग 40% घटा
जैसा दूसरों ने कहा है, y-axis का 0 से शुरू न होना निश्चित रूप से समस्या है
लेकिन अगर etymonline के लेखकों ने इसे नोटिस किए बिना गलत घोषणा कर दी, तो उन पर भरोसा करना मुश्किल है; खासकर इसलिए कि बाद का “देखो, कोई गिरावट नहीं है” example और भी ironic है, क्योंकि उसमें y-axis 0 है और 1980 के आसपास एक छोटा सा flat segment भी दिखता है
ऊपर से बढ़ा-चढ़ाकर और आक्रामक title और पहली line को देखें तो बात और भी ऐसी लगती है
- समस्या सिर्फ graph axis की नहीं है
  “toast” का usage 40% नहीं घटा; बल्कि Google dataset पहले से बहुत अलग genre composition में अचानक बदल गया
  मैंने 1970s की गिरावट समझाने की कोशिश कर रहे लोगों से बात की है, और मेरे सहित किसी ने भी यह नहीं समझा था कि यह data की dramatic flaw है
मुझे लगता है इस लेख का title ठीक से फिट नहीं बैठता
ऐसे नतीजे “clarity” से ज़्यादा clickbait की चाह या उसके scientific version के करीब हैं
मसलन Science या Nature के papers के सही होने की संभावना कोई खास ज़्यादा नहीं होती, लेकिन खासकर physics जैसे क्षेत्रों में, जो उसके अपने core field नहीं हैं, उनके flashy और extreme होने की संभावना ज़्यादा होती है
उल्टे “Real Clear Politics” नाम मुझे हमेशा तीखा लगा
क्योंकि मुझे लगता है politics में न “Real” होता है, न “Clear”
politics पर सबसे अच्छी किताब मुझे Hunter S. Thompson की Fear and Loathing on the Campaign Trail ‘72 लगती है
यह candidates के पीछे-पीछे घूमने, रात 3 बजे hitchhiker को lift देने, train में drugs के असर में होने, और फिर भी McGovern के nomination तक पहुँचाने वाली congressional procedure को समझ लेने जैसे sharp clear moments वाली personal memoir है
20 साल बाद आज की political घटनाओं पर एक ऐसी बारीक किताब आएगी जिसके पास मजबूत arguments होंगे कि हम जो कुछ मानते थे वह सब गलत था और असल में कुछ और ही हुआ था
इस बीच लोगों के viewpoints बेहद अलग-अलग होंगे, और यही reality है
“real” और “clear” जैसे adjectives उन viewpoints में से ज़्यादातर को बंद करके सिर्फ एक viewpoint को privilege देने की कोशिश हैं
Baudrillard ने Simulacra and Simulation में “real” शब्द को जिस तरह पूरी तरह deconstruct किया, वह भी याद आता है
इससे यह बात समझ में आती है कि fake बेचने वाले लोग “real” शब्द को आगे रखते हैं
Scientology का खुद को “certainty का science” कहना भी इसी context में है
- 20 साल बाद आने वाली वह किताब भी गलत होगी
  politics की एक अच्छी बात यह है कि motives बहुत साफ़ होते हैं
  politicians पहले power बनाए रखना चाहते हैं, और हालात बेहतर करने की इच्छा उसके बाद आती है
  यह समझ लेने पर सब कुछ समझ में आ जाता है
  भले ही असल में क्या हुआ, यह हमें अंत तक पता न चले
अतीत की कोई representative image कभी बनाई ही नहीं जा सकती
हमें सिर्फ बचे हुए सीमित sources के साथ काम करना पड़ता है, और वे समय और स्थान में evenly distributed नहीं होते
जब कोई इंसान मरता है, तो impressions, record न किए गए experiences, और परिचित smells तक मिट जाने वाली मूलभूत data loss होती है
जीवित व्यक्ति की memory भी किसी समय भरोसे लायक नहीं रह सकती
- इसलिए मुझे हमेशा अजीब लगा कि Wikipedia biographies सिर्फ उन्हीं लोगों की क्यों होती हैं जिनकी social representativeness fame या wealth से distorted होती है
- सिर्फ किसी एक समय पर नहीं, human memory हैरान करने वाली हद तक unreliable होती है
  खुद test करके देख सकने वाला example: https://youtu.be/vJG698U2Mvo?si=16fwk8wG8Yyhim5t
Google Ngram को गलत कहना मुश्किल है
यह corpus में सही तरह से पहचाने गए शब्दों के आँकड़े रिपोर्ट कर रहा है
समस्या उन आँकड़ों के context की है
“Google Books corpus में said का उपयोग किसी खास समय पर घटा” यह बात कुछ हद तक भरोसे से कही जा सकती है
उस corpus के उस subset में, जहाँ OCR ने उस शब्द के सभी उदाहरण सही तरह पहचाने हों, इसे और अधिक भरोसे से कहा जा सकता है
लेकिन पर्याप्त data के बिना “इस शब्द का उपयोग किसी खास समय पर कम हुआ” जैसा व्यापक दावा नहीं करना चाहिए
- अगर economist का meme “यह परिस्थिति पर निर्भर करता है” है, तो statistician का परम meme है और data चाहिए
  जब तक grand unified theory हल नहीं हो जाती, data की completeness या statistical inference को लेकर पूरी तरह आश्वस्त नहीं हुआ जा सकता
  गलत बात यह है कि आम लोगों को इस समझ से दूर ले जाकर गुमराह किया जाए
- इसलिए population के बारे में inferential statistics निकालते समय sample size से कहीं ज़्यादा महत्वपूर्ण sampling methodology होती है
  academic corpus से 10 लाख किताबों का sample लेना और 20वीं सदी के हर दशक की 10 bestseller किताबें चुनना, बहुत अलग-अलग language corpora बनाते हैं
यह graph के vertical axis में 0 शामिल न करने वाली classic गलती है
अगर आप सोचते हैं “तो बदलाव ज़्यादा दिखेगा ही नहीं”, तो आप सही हैं
0 हटाने पर छोटे बदलावों को भी बड़ा दिखाया जा सकता है
- दूसरी ओर, कुछ मामलों में छोटे बदलावों को highlight करना भी ज़रूरी होता है
  अगर cereal box के fill weight को दिखाने वाला control chart हो, तो आप chart में 0 डालना नहीं चाहेंगे
  किसी शहर के daily temperature का chart भी 0 Kelvin तक शामिल करके बनाने की ज़रूरत नहीं है
- क्या सिर्फ मुझे ही लगता है कि graph अपने-आप में ठीक है और text ने बस थोड़ा बढ़ा-चढ़ाकर कहा है?
  लगभग एक सदी तक stable दिखने के बाद अचानक करीब 50% की गिरावट आई है
- 0 शामिल करने से “said” graph में मदद मिलती, लेकिन समस्या हल नहीं होती
  तब भी “said” ऐसा दिखता मानो वह अपनी पहले की popularity के लगभग एक-तिहाई तक गिर गया हो, जबकि असल में sample की composition बहुत बदल गई थी
क्या यह n-gram की गलती है, या इसका मतलब है कि n-gram से कही जा सकने वाली बातें सीमित हैं?
data दिलचस्प है, लेकिन इससे क्या निष्कर्ष निकालना चाहिए, इस पर मुझे भरोसा नहीं है
ऐसा लगता है मानो आज की vocabulary से पुराने समय की किताबों को query किया जा रहा हो, इसलिए अजीब लगता है
मेरी जानकारी में एक आसान example है: “þe” search करने पर बहुत ज़्यादा results नहीं मिलते
historical तौर पर “þ” का 1400s के आसपास गायब होना मोटे तौर पर सही है
लेकिन अगर “ye” को भी साथ में डालें, तो usage बहुत बड़ी मात्रा में दिखता है
क्या यही n-gram का intended function है?
यह समय के साथ चली आई encoding error के ज़्यादा करीब लगता है
यह कुछ वैसा ही है जैसे Great Vowel Shift पर नाराज़ होते हुए यह न समझना कि हमारे phonetic symbols कोई fixed universal truth नहीं हैं

जो निश्चितता की लालसा रखता है, वह झूठ की लालसा रखता है

Google Ngram द्वारा बनाई जाने वाली अजीब शब्द-आवृत्तियाँ

OCR, spelling और date errors से बनने वाली विकृतियाँ

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय