- Google Ngram Viewer के n-grams की अशुद्धता पर एक लेख
- लेखक का कहना है कि Ngram में दिखने वाली सामान्य अंग्रेज़ी शब्दों की आवृत्ति 20वीं सदी के वास्तविक उपयोग को सटीक रूप से प्रतिबिंबित नहीं करती
- लेखक और Talia Felix ने शोध में Google Books का उपयोग किया, लेकिन यह कई छिपी हुई त्रुटियों वाला गलत तरीके से जोड़ा गया डेटाबेस निकला
- Ngram के सूत्र में Google Books से विरासत में मिली त्रुटियों में से एक यह है कि कई अंग्रेज़ी शब्द ऐसे दिखते हैं मानो 20वीं सदी के दौरान उनका उपयोग घटा और फिर 1980 के दशक में वे फिर से जीवित हो गए
- यह त्रुटि इसलिए उत्पन्न होती है क्योंकि Google Books का corpus अधिकांशतः अकादमिक है, और आधुनिक विज्ञान व scholarly journals सीमित शब्दों को बार-बार उपयोग करने की प्रवृत्ति रखते हैं
- अकादमिक लेखन में कुछ शब्दों के अत्यधिक उपयोग से अन्य शब्दों की आवृत्ति ग़लत रूप से कम दिखाई देती है, जिससे लगभग हर शब्द के Ngram में 20वीं सदी के मध्य का एक "गिरावट" बन जाता है
- एक और त्रुटि यह है कि Google Books वैकल्पिक spelling और plural forms में समानता को पहचान नहीं पाता
- लेखक का कहना है कि Google Books की कई फ़ाइलों पर ग़लत तारीख़ें लगी हुई हैं, जिससे डेटा की सटीकता और भी बिगड़ती है
- इन अशुद्धियों के बावजूद, ऑनलाइन दुनिया में तस्वीरें जीतती हैं और शब्द हारते हैं, इसलिए Ngrams का उपयोग अब भी होता है
- लेखक पाठकों को सलाह देता है कि Ngrams को सजावटी और विचित्र चीज़ के रूप में देखें, न कि शब्द-प्रयोग के सटीक प्रतिनिधित्व के रूप में
- लेखक निष्कर्ष निकालता है कि भले ही दुनिया Ngram reality को पसंद करे, पाठक उससे अधिक समझदार बन सकते हैं
1 टिप्पणियां
Hacker News राय