1 पॉइंट द्वारा GN⁺ 2023-09-27 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Google Ngram Viewer के n-grams की अशुद्धता पर एक लेख
  • लेखक का कहना है कि Ngram में दिखने वाली सामान्य अंग्रेज़ी शब्दों की आवृत्ति 20वीं सदी के वास्तविक उपयोग को सटीक रूप से प्रतिबिंबित नहीं करती
  • लेखक और Talia Felix ने शोध में Google Books का उपयोग किया, लेकिन यह कई छिपी हुई त्रुटियों वाला गलत तरीके से जोड़ा गया डेटाबेस निकला
  • Ngram के सूत्र में Google Books से विरासत में मिली त्रुटियों में से एक यह है कि कई अंग्रेज़ी शब्द ऐसे दिखते हैं मानो 20वीं सदी के दौरान उनका उपयोग घटा और फिर 1980 के दशक में वे फिर से जीवित हो गए
  • यह त्रुटि इसलिए उत्पन्न होती है क्योंकि Google Books का corpus अधिकांशतः अकादमिक है, और आधुनिक विज्ञान व scholarly journals सीमित शब्दों को बार-बार उपयोग करने की प्रवृत्ति रखते हैं
  • अकादमिक लेखन में कुछ शब्दों के अत्यधिक उपयोग से अन्य शब्दों की आवृत्ति ग़लत रूप से कम दिखाई देती है, जिससे लगभग हर शब्द के Ngram में 20वीं सदी के मध्य का एक "गिरावट" बन जाता है
  • एक और त्रुटि यह है कि Google Books वैकल्पिक spelling और plural forms में समानता को पहचान नहीं पाता
  • लेखक का कहना है कि Google Books की कई फ़ाइलों पर ग़लत तारीख़ें लगी हुई हैं, जिससे डेटा की सटीकता और भी बिगड़ती है
  • इन अशुद्धियों के बावजूद, ऑनलाइन दुनिया में तस्वीरें जीतती हैं और शब्द हारते हैं, इसलिए Ngrams का उपयोग अब भी होता है
  • लेखक पाठकों को सलाह देता है कि Ngrams को सजावटी और विचित्र चीज़ के रूप में देखें, न कि शब्द-प्रयोग के सटीक प्रतिनिधित्व के रूप में
  • लेखक निष्कर्ष निकालता है कि भले ही दुनिया Ngram reality को पसंद करे, पाठक उससे अधिक समझदार बन सकते हैं

1 टिप्पणियां

 
GN⁺ 2023-09-27
Hacker News राय
  • "जो निश्चितता के लिए तरसता है, वह झूठ के लिए तरसता है" शीर्षक वाले लेख ने project schedules में certainty की चाहत पर चर्चा छेड़ दी।
  • लेख आधुनिक algorithms में ngrams के उपयोग की आलोचना करता है और दावा करता है कि ये अविश्वसनीय और अज्ञानपूर्ण तकनीक की उपज हैं।
  • ngrams पर की गई यह आलोचना उस दौर में एक चेतावनी की तरह देखी जा रही है, जब generation AI, जो मूलतः एक ngram predictor है, तेजी से हावी होता जा रहा है।
  • कुछ टिप्पणियाँ ngram statistics पर लेखकों के दावों की वैधता पर संदेह जताती हैं और सबूतों की कमी तथा भ्रम पैदा करने वाली graph interpretation की ओर इशारा करती हैं।
  • data analysis की बुनियादी समस्या को रेखांकित किया गया है, यह बताते हुए कि analysis उतना ही अच्छा होता है जितना data, और data quality का आकलन करना कठिन है।
  • कुछ टिप्पणियाँ लेख के शीर्षक और scientific publications में clickbait की प्रवृत्ति की आलोचना करती हैं।
  • Google Ngram के उपयोग पर चर्चा होती है, जहाँ कुछ लोगों का कहना है कि समस्या उसमें नहीं, बल्कि उसके statistics को context से बाहर पढ़ने में है।
  • लेख इस बात की भी आलोचना करता है कि graph के vertical axis में 0 शामिल नहीं है, जिससे छोटे उतार-चढ़ाव बहुत बड़े दिख सकते हैं।
  • यह भी चर्चा होती है कि data loss के कारण अतीत की प्रतिनिधि छवि बनाना असंभव है।