wordfreq अब अपडेट क्यों नहीं हो रहा है
Generative AI डेटा को दूषित कर रहा है
- 2021 के बाद मानव भाषा-प्रयोग के बारे में कोई भरोसेमंद जानकारी नहीं बची है
- wordfreq के डेटा स्रोतों में से एक, open web (OSCAR), अब बड़े language models द्वारा बनाए गए अर्थहीन टेक्स्ट से भर चुका है
- ऐसे टेक्स्ट को डेटा में शामिल करने से शब्द-आवृत्ति विकृत हो जाती है
- उदाहरण के लिए, ChatGPT "delve" शब्द पर अटका रहता है, जिससे उसकी आवृत्ति असामान्य रूप से बढ़ जाती है
जो जानकारी पहले मुफ़्त थी, अब महंगी हो गई है
- wordfreq, Twitter और Reddit से conversational language usage का डेटा इकट्ठा करता था
- Twitter का डेटा हमेशा अस्थिर रहा, और अब Twitter गायब होकर X से बदल दिया गया है
- Reddit ने भी public data archive देना बंद कर दिया है, और अब वह डेटा ऐसी कीमत पर बेचता है जिसे सिर्फ OpenAI चुका सकता है
अब इस क्षेत्र में और शामिल नहीं होना चाहता
- wordfreq ने corpus linguistics और natural language processing tools के लिए मददगार भूमिका निभाई थी
- लेकिन अब natural language processing का क्षेत्र generative AI द्वारा निगला जा रहा है
- OpenAI और Google के नियंत्रित बंद डेटा पर निर्भर न रहने वाला NLP research ढूंढना मुश्किल है
- टेक्स्ट संग्रह करने वाले tools अब मुख्य रूप से generative AI training में इस्तेमाल होते हैं, जिससे copyright infringement की समस्या पैदा होती है
- लेखक ऐसे काम में शामिल नहीं होना चाहता जिसे generative AI के साथ भ्रमित किया जा सके
GN⁺ का सार
- wordfreq, 2021 तक के भाषा-डेटा पर आधारित एक प्रोजेक्ट था
- generative AI के आने से डेटा की विश्वसनीयता घटी, और Twitter व Reddit जैसे प्रमुख डेटा स्रोत paid हो जाने के कारण अपडेट रुक गए
- natural language processing का क्षेत्र generative AI द्वारा ग्रस्त होने के साथ, लेखक ने कहा कि वह अब इस क्षेत्र में शामिल नहीं रहना चाहता
- समान कार्यक्षमता वाले प्रोजेक्ट्स में Google Ngram Viewer जैसे वैकल्पिक tools सुझाए गए हैं
1 टिप्पणियां
Hacker News राय