1 पॉइंट द्वारा GN⁺ 2024-09-19 | 1 टिप्पणियां | WhatsApp पर शेयर करें

wordfreq अब अपडेट क्यों नहीं हो रहा है

Generative AI डेटा को दूषित कर रहा है

  • 2021 के बाद मानव भाषा-प्रयोग के बारे में कोई भरोसेमंद जानकारी नहीं बची है
  • wordfreq के डेटा स्रोतों में से एक, open web (OSCAR), अब बड़े language models द्वारा बनाए गए अर्थहीन टेक्स्ट से भर चुका है
  • ऐसे टेक्स्ट को डेटा में शामिल करने से शब्द-आवृत्ति विकृत हो जाती है
  • उदाहरण के लिए, ChatGPT "delve" शब्द पर अटका रहता है, जिससे उसकी आवृत्ति असामान्य रूप से बढ़ जाती है

जो जानकारी पहले मुफ़्त थी, अब महंगी हो गई है

  • wordfreq, Twitter और Reddit से conversational language usage का डेटा इकट्ठा करता था
  • Twitter का डेटा हमेशा अस्थिर रहा, और अब Twitter गायब होकर X से बदल दिया गया है
  • Reddit ने भी public data archive देना बंद कर दिया है, और अब वह डेटा ऐसी कीमत पर बेचता है जिसे सिर्फ OpenAI चुका सकता है

अब इस क्षेत्र में और शामिल नहीं होना चाहता

  • wordfreq ने corpus linguistics और natural language processing tools के लिए मददगार भूमिका निभाई थी
  • लेकिन अब natural language processing का क्षेत्र generative AI द्वारा निगला जा रहा है
  • OpenAI और Google के नियंत्रित बंद डेटा पर निर्भर न रहने वाला NLP research ढूंढना मुश्किल है
  • टेक्स्ट संग्रह करने वाले tools अब मुख्य रूप से generative AI training में इस्तेमाल होते हैं, जिससे copyright infringement की समस्या पैदा होती है
  • लेखक ऐसे काम में शामिल नहीं होना चाहता जिसे generative AI के साथ भ्रमित किया जा सके

GN⁺ का सार

  • wordfreq, 2021 तक के भाषा-डेटा पर आधारित एक प्रोजेक्ट था
  • generative AI के आने से डेटा की विश्वसनीयता घटी, और Twitter व Reddit जैसे प्रमुख डेटा स्रोत paid हो जाने के कारण अपडेट रुक गए
  • natural language processing का क्षेत्र generative AI द्वारा ग्रस्त होने के साथ, लेखक ने कहा कि वह अब इस क्षेत्र में शामिल नहीं रहना चाहता
  • समान कार्यक्षमता वाले प्रोजेक्ट्स में Google Ngram Viewer जैसे वैकल्पिक tools सुझाए गए हैं

1 टिप्पणियां

 
GN⁺ 2024-09-19
Hacker News राय
  • Google के SEO नियमों ने वेब को प्रदूषित कर दिया है। छोटे-छोटे पैराग्राफ, keyword की पुनरावृत्ति, और readability की बजाय indexability पर केंद्रित लेखन शैली समस्या है
    • ML/LLM दूसरा प्रदूषणकारी कारण है। पहला कारण corporate bots के लिए लिखा जाना था
  • 2023 में LowBackgroundSteel.ai बनाया गया, ताकि बिना प्रदूषित datasets इकट्ठा करने की जगह के रूप में इस्तेमाल हो सके
    • Wordfreq जोड़ने की योजना है। Tumblr पर सामग्री जमा करने का अनुरोध है
  • NLP community के प्रति निराशा समझ में आती है, लेकिन सभी लोग ऐसे नहीं हैं
    • वेब प्रदूषण की समस्या नई नहीं है। PageRank को manipulate करने की कोशिश करने वाले spam farms भी थे
    • वेब की हर पीढ़ी को उस पीढ़ी की समस्याओं से निपटने के लिए तकनीक चाहिए
    • George Orwell की 1984 में जिस auto-generated content consumption की भविष्यवाणी की गई थी, वह अब वास्तविकता बन गई है। लेकिन इस तकनीक का अच्छे दिशा में भी उपयोग हो सकता है
  • लगता है कि वेब मर चुका है। AI की वजह से उपयोगी जानकारी ढूँढने में अब ज़्यादा समय लगता है
    • खास wireless earbuds ढूँढने में 10 मिनट से ज़्यादा लग गए। साइटें कचरे से भरी हुई हैं
    • पुराने laptop पर graphics-भरी आधुनिक websites को browse करना मुश्किल है
    • वेब, web browser, web design, SEO, search, ads—सब कुछ नापसंद है। वेब का उपयोग किए बिना खरीदारी करने का तरीका ढूँढा जा रहा है
  • Google Trends लिंक साझा करते हुए यह मज़ेदार तथ्य बताया गया कि "delve" के search results में बढ़ोतरी नहीं हुई है
  • लगता है कि 2021 के बाद से मानव भाषा-प्रयोग के बारे में कोई भरोसेमंद जानकारी नहीं बची है
    • text पहले ही critical point पार कर चुका है, लेकिन video के लिए अभी यही निर्णायक समय है
    • खासकर छोटे बच्चों के लिए यह पहचानना मुश्किल है कि क्या असली है। तकनीक पहले से मौजूद है, लेकिन ज़्यादातर video content अभी तक प्रभावित नहीं हुआ है
  • इस राय से सहमति है कि वेब LLM द्वारा बनाए गए कचरे से भर गया है
    • कई मामलों में SEO के लिए बिना किसी मूल्य वाला content बनाया जाता है
  • जब AGI सस्ता और सुलभ हो जाएगा, तब ज़्यादातर काम AI द्वारा किया जाएगा
    • AI revolution की शुरुआत उन क्षेत्रों से होनी चाहिए जो AI की जड़ों के सबसे करीब हैं
  • 2020 से पहले की कागज़ी किताबें मूल्यवान संपत्ति बन सकती हैं
    • इंटरनेट कचरे से भर जाएगा और आधुनिक कागज़ी किताबों पर भी संदेह किया जाएगा
    • AI द्वारा लिखी किताबों के लेखक के रूप में इंसानों को पेश किया जाएगा
  • AI की वजह से नौकरी खोने वाले लेखकों को AI hyperscalers द्वारा नियुक्त किया जाना चाहिए
    • हालांकि, उनकी रचनाओं में AI द्वारा बनाया गया एक भी वाक्य नहीं होना चाहिए