wordfreq ने अपडेट करना क्यों बंद किया

(github.com/rspeer)

1 पॉइंट द्वारा GN⁺ 2024-09-19 | 1 टिप्पणियां | WhatsApp पर शेयर करें

wordfreq 2021 तक कई ऑनलाइन स्रोतों में देखे गए भाषा उपयोग का एक snapshot है, और उसके बाद डेटा को अपडेट करने से गुणवत्ता उलटे खराब हो सकती है, इसलिए इसे नवीनतम संस्करण पर ही freeze कर दिया गया है
2021 के बाद सार्वजनिक वेब पर इंसानों द्वारा लिखे गए पाठ जैसे दिखने वाले AI-जनित टेक्स्ट व्यापक रूप से फैल गए, जिससे वास्तविक मानव भाषा उपयोग के आधार पर शब्द आवृत्ति मापना कठिन हो गया
मौजूदा डेटा में पहले भी spam था, लेकिन उसे आम तौर पर पहचाना और प्रबंधित किया जा सकता था; हालांकि ChatGPT के “delve” मामले की तरह, जनरेटिव AI आउटपुट कुछ खास शब्दों की आवृत्ति को असामान्य रूप से बढ़ा सकता है
बोलचाल की भाषा के महत्वपूर्ण स्रोत रहे Twitter और Reddit के डेटा तक पहुंच या तो खत्म हो गई या बहुत महंगी हो गई, और Twitter के पुराने डेटा को उसके वितरण नियमों के कारण बाहरी रूप से वितरित भी नहीं किया जा सकता था
जैसे-जैसे natural language processing का क्षेत्र जनरेटिव AI और closed data पर निर्भरता की ओर झुक गया, डेवलपर नहीं चाहता कि wordfreq ऐसा काम लगे जो जनरेटिव AI में मदद करता हो या उसके साथ भ्रमित हो

सितंबर 2024 का पूरक

wordfreq अपडेट बंद करने वाला दस्तावेज़ काफ़ी ध्यान में आया, और डेवलपर का मानना है कि लोग उसकी स्थिति को मोटे तौर पर समझते हैं
उसने open source लाइब्रेरी पर काम करना बंद नहीं किया है; बहुउद्देश्यीय Unicode सुधार टूल ftfy पर काम जारी है
डेटा freeze होना ज़रूरी नहीं कि बुरा अंत हो
- बहुत से लोगों ने wordfreq को उपयोगी पाया है, और उसका नवीनतम संस्करण गायब नहीं होगा
- अपडेट करने पर डेटा और खराब हो सकता है, इसी आकलन के कारण इसे अब और अपडेट नहीं किया जाएगा
- समय के साथ यह पुराना ज़रूर होगा, लेकिन सक्रिय रूप से और खराब नहीं होगा

2021 तक के भाषा उपयोग का snapshot

wordfreq डेटा 2021 तक कई ऑनलाइन स्रोतों में मिल सकने वाले भाषा उपयोग के snapshot का प्रतिनिधित्व करता है
इसे अब अपडेट न करने के कारणों में डेटा प्रदूषण, एक्सेस की लागत, और natural language processing क्षेत्र में हुए बदलाव एक साथ शामिल हैं

जनरेटिव AI से प्रदूषित सार्वजनिक वेब

2021 के बाद वास्तविक इंसानों द्वारा इस्तेमाल की जाने वाली भाषा के बारे में विश्वसनीय जानकारी हासिल करना कठिन हो गया है, ऐसा माना गया
wordfreq के डेटा स्रोतों में से एक सार्वजनिक वेब था, जिसका उपयोग OSCAR के ज़रिए किया गया था
अब व्यापक अर्थ में वेब पर large language models द्वारा बनाए गए टेक्स्ट बहुत हैं, और उन्हें शामिल करने से शब्द आवृत्ति विकृत हो जाती है
पुराने डेटा स्रोतों में भी spam था, लेकिन कई मामलों में उसे संभालना और पहचानना संभव था
large language models ऐसा टेक्स्ट बनाते हैं जो वास्तविक इरादे वाली भाषा जैसा दिखता है, और उनका आउटपुट कई जगह फैल जाता है
Philip Shapira की delve पर लिखी पोस्ट के अनुसार, ChatGPT “delve” का उपयोग इंसानों के सामान्य उपयोग से अलग ढंग से जुनूनी तरीके से करता था, और उसकी कुल आवृत्ति को order of magnitude स्तर तक बढ़ा देता था

गायब या महंगा हुआ conversational डेटा

wordfreq केवल औपचारिक मुद्रित शब्दों तक सीमित नहीं था; यह अपेक्षाकृत अधिक conversational भाषा उपयोग को खास तौर पर Twitter और Reddit से एकत्र करता था
Twitter और X
- Twitter-आधारित डेटा आधार शुरू से ही अस्थिर था
- उस समय भी जब Twitter “firehose” के कुछ हिस्से तक मुफ्त पहुंच देता था, उसकी terms of service के अनुसार एकत्र किया गया डेटा Luminoso के बाहर वितरित नहीं किया जा सकता था
- wordfreq में उस डेटा को इनपुट बनाकर तैयार किए गए frequency values शामिल हैं, लेकिन एकत्र किया गया मूल डेटा डेवलपर की संपत्ति नहीं था और अब उसके पास नहीं है
- अब Twitter गायब हो चुका है, सार्वजनिक API बंद हो चुकी है, और साइट की जगह X ने ले ली है
- डेवलपर का मानना है कि भले ही X raw data feed दे, उसमें से कोई मूल्यवान जानकारी निकालना संभव नहीं होगा
Reddit
- Reddit ने भी सार्वजनिक डेटा archive उपलब्ध कराना बंद कर दिया
- अब Reddit अपने archive बेचता है, और उसकी कीमत को इस स्तर की बताया गया है कि उसे सिर्फ OpenAI ही चुका सकता है

जनरेटिव AI से दूरी बनाए रखने की वजह

wordfreq मूल रूप से corpus linguistics और natural language processing टूल्स के काम के बीच के एक intersection पर था
डेवलपर के अनुसार, जिस “natural language processing” क्षेत्र को वह जानता था, उसे आजकल ढूंढना मुश्किल है, क्योंकि जनरेटिव AI उस क्षेत्र को निगलता जा रहा है
दूसरी तकनीकें अब भी मौजूद हैं, लेकिन ध्यान और फंडिंग का बड़ा हिस्सा जनरेटिव AI ले जा रहा है
OpenAI और Google के नियंत्रण वाले closed data पर निर्भर न रहने वाला NLP शोध अब दुर्लभ दिखता है
wordfreq की तरह कई भाषाओं में बहुत-सा टेक्स्ट इकट्ठा करने का काम पहले काफ़ी उचित माना जाता था
अब टेक्स्ट इकट्ठा करने वाले टूल मुख्य रूप से जनरेटिव AI training में इस्तेमाल होते हैं, और लोगों का इसके प्रति रक्षात्मक प्रतिक्रिया देना जायज़ माना जाता है
अगर कोई किताबों, लेखों, वेबसाइटों और सार्वजनिक पोस्टों का सारा टेक्स्ट इकट्ठा कर रहा है, तो यह संभावना ज़्यादा है कि उसका उद्देश्य ऐसी plagiarism machine बनाना है जो लोगों की बातों को अपनी बताकर पेश करे

अपडेट बंद करने का निष्कर्ष

डेवलपर ऐसा काम नहीं करना चाहता जो जनरेटिव AI के साथ भ्रमित हो सकता हो या उसे मदद पहुंचा सकता हो
वह कहता है कि OpenAI और Google को अपना डेटा खुद इकट्ठा करना चाहिए, और उसके लिए बहुत भारी कीमत चुकानी चाहिए
wordfreq अब और अपडेट नहीं होगा, लेकिन उसका मौजूदा नवीनतम संस्करण बना रहेगा

1 टिप्पणियां

GN⁺ 2024-09-19

Hacker News टिप्पणियाँ

मोटे तौर पर सहमत हूँ, लेकिन वेब पहले से ही Google के अनौपचारिक SEO नियमों से दूषित था
एक-वाक्य वाले पैराग्राफ, keyword repetition, readability से ज़्यादा “indexability” को महत्व देने के कारण, LLM से पहले भी वेब ऐसे analysis के लिए आदर्श data source नहीं था
training data के रूप में भी यही बात थी, और आखिरकार LLM ऐसे लेखन पर पले-बढ़े जो इंसानों के लिए नहीं, बल्कि Googlebot के लिए लिखा गया था। ML/LLM लेखन-प्रदूषण की दूसरी पुनरावृत्ति हैं; पहली वह थी जब इंसानों ने दूसरे इंसानों के बजाय corporate bots के लिए लिखना शुरू किया था
- blog spam ज़्यादातर इंसानों ने ही लिखा था, और भले ही वह दूसरे कारणों से घटिया था, इंसानों द्वारा लिखे text की बुनियादी word frequency मापने के लिए वह ठीक लगता था
  frequencies में bias होगा, लेकिन ज़्यादातर text में ऐसा होता है, और carburetor maintenance की textbook में “carburetor” शब्द baseline से कहीं ज़्यादा आना ही है
  अलग-अलग किताबों, news articles और blogs का स्वस्थ मिश्रण हो तो ठीक है। इसके उलट LLM content कुछ हद तक अपनी ही पूंछ खाने वाले साँप जैसा है—यानी word distribution model के output से फिर word distribution statistics model बनाने की कोशिश
- किसी बिंदु पर यह भी स्वीकार करना होगा कि किसी खास तरह की language usage उस medium itself की property है जिसमें word frequency गिनी जा रही है
  अखबार, उपन्यास, boss को भेजे emails वगैरह में भी वाक्य और पैराग्राफ की लंबाई, बेकार repetition, और readability के अलावा दूसरे metrics को महत्व देने वाली अपनी विशिष्ट style होती है
  कम-से-कम अगर text किसी ऐसे इंसान ने लिखा है जो यह सोचता है कि कोई दूसरा इंसान उसे पढ़ सकता है, तो उसे machine-generated text की तुलना में कहीं अधिक वैध language usage माना जा सकता है
- यह दूसरी और कहीं बड़े पैमाने की Eternal September जैसी लगती है
  पता नहीं internet इसे और कितना झेल पाएगा, और मेरा usage 2018 की तुलना में भी साफ़ तौर पर कम हो गया है। अब पढ़ने लायक चीज़ें ढूँढना इतना मुश्किल है कि अंततः मैं यहाँ ज़्यादा समय बिताने लगता हूँ
- फिर भी, बात उतनी चरम नहीं है जितनी संकेतित की गई है। training data को quality metrics के आधार पर weights दिए जाते हैं, और journalists या Wikipedia contributors द्वारा लिखे लेखों को मौसी की brownie recipe या corporate blog spam से ज़्यादा weight मिलता है
- Google से पहले Altavista था, और उस समय भी page के नीचे सफेद background पर सफेद text में keywords सैकड़ों बार ठूँस देना बेहद आम था
  SEO spam नया नहीं है; बस उसका रूप बदला है
2023 में unpolluted datasets के references इकट्ठा करने की जगह के तौर पर https://lowbackgroundsteel.ai/ बनाया था
wordfreq भी जोड़ने वाला हूँ, इसलिए अच्छा होगा अगर Tumblr पर material भेजें
- “launch” के लिए बधाई। मैं भी लगभग ठीक ऐसी ही site बनाने को कुछ समय से background task की तरह रखे हुए था। curious हूँ कि cutoff date कहाँ रखते हैं
  research करते समय मैंने जो useful list बनाई थी वह यह है: 2017 में transformer architecture का आविष्कार, जून 2018 में GPT-1, फरवरी 2019 में GPT-2, जून 2020 में GPT-3, मार्च 2022 में GPT-3.5, नवंबर 2022 में ChatGPT
  तय की गई cutoff date से पहले के kiwix archives भी जोड़ना अच्छा रहेगा। इन्हें Internet Archive पर पाया जा सकता है और इनमें Wikipedia, Stack Overflow, Wikisource, Wikibooks और कई wiki versions हैं
- नाम चतुर है। metaphor पसंद आया
- मुझे लगता है यह ठीक उसके उलट है जो author चाहते थे। author अब इस गड़बड़ी का हिस्सा नहीं रहना चाहते
  ऐसे sources को इकट्ठा करके रखना बड़ी tech कंपनियों के लिए और ज़्यादा data scrape करना बहुत आसान बना देगा
- संदर्भ के लिए, मेरे datasets DebateSum और OpenDebateEvidence/OpenCaseList अपनी मौजूदा form में अधिकतम 2022 तक खत्म हो जाते हैं, इसलिए यह criteria में आते हैं
- पता नहीं AI graphics से दूषित site पर भरोसा करना चाहिए या नहीं /s
जिस natural language processing community से मैं जुड़ा हूँ, उसके बारे में OP के निराश होने की स्थिति अफसोसजनक है, और भले ही यह एक trend है और लगभग hype के peak जैसा है, मैं कहना चाहूँगा कि “हम सब ऐसे नहीं हैं”
artificial content से web के दूषित होने की समस्या timely है, और PageRank को manipulate करने की कोशिश करने वाले spam farms जैसे पुराने examples भी रहे हैं
इसलिए इंसानों द्वारा curated high-quality websites की list, यानी “small web”, को नई value मिल सकती है
web की हर generation को अपनी generation के adversarial mechanisms से आगे निकलने के लिए technology चाहिए थी, और आज का web भी exception नहीं है
जब Eric Arthur Blair ने “George Orwell” pen name से 1984 लिखा था, तो उन्होंने ऐसी स्थिति का अनुमान लगाया था जिसमें जनता critical thinking से दूर होने के लिए automatically generated content consume करती है। अब वही हो रहा है, लेकिन जिस technology की आलोचना हो रही है उसे अच्छे कामों में भी इस्तेमाल किया जा सकता है, और मेरी NLP research team में हम यही करने की कोशिश करते हैं। आखिरकार अच्छाई जीतेगी
- “अच्छे” small web ने असल में कभी जीत हासिल की है?
  IRC, Usenet, Reddit, Facebook, Geocities, Yahoo, webring आदि—किसी भी content system के mainstream use तक पहुँचते ही लगता है कि वह noise से दूषित हो जाता है
  छोटे और curated options भी आखिरकार पर्याप्त बड़े हो जाने पर अपनी ही सफलता के शिकार बनते हैं और spam के कब्ज़े में चले जाते हैं
  यह हमेशा quality और quantity की arms race होती है, और अंततः curators भारी मात्रा का मुकाबला नहीं कर पाते
- जो लोग critical thinking से बचते हैं, वे AI content हो या न हो, पहले से ऐसा कर रहे थे और आगे भी करेंगे
- “आखिरकार अच्छाई जीतेगी” वाला विचार खतरनाक है। ऐसा वास्तव में होने के लिए जिस decisive action की ज़रूरत पड़ने की संभावना है, वह सोच उसे उल्टा टाल सकती है
- थोड़ा अलग विषय है, लेकिन Marx ने भी 1894 में cryptocurrency और NFT के अस्तित्व की भविष्यवाणी की थी https://www.marxists.org/archive/marx/works/1894-c3/ch25.htm
  यह अजीब है कि हम ऐसी “redlines” को लगातार यूँ ही पार करते जा रहे हैं। उस meme की तरह: SF writer ने कहा, “मैंने Torment Nexus को एक cautionary tale के रूप में बनाया,” और tech company कहती है, “हमने classic SF novel ‘Torment Nexus मत बनाओ’ में आने वाला Torment Nexus बना दिया”
- अगर अच्छाई के जीतने का रास्ता विनाशकारी रूप से बदल चुकी technology और beliefs को reject करना हो तो?
साफ़ कहूँ तो वेब मर चुका है। “AI” की वजह से अब कुछ उपयोगी खोजने के लिए search में खंगालने में 2005 से भी ज़्यादा समय लगता है
जो साइटें मिलती भी हैं, वे भी ज़्यादातर कचरा हैं
उदाहरण के लिए, किसी मशहूर wireless earphone को खोजने में भी, जबकि मुझे कंपनी, कंपनी की website और विक्रेता पहले से पता हैं, कम से कम 10 मिनट लग जाते हैं। क्योंकि वह हर तरह की फालतू चीज़ों के नीचे दबा होता है
मेरा laptop “पुराना” 8-core i7, 16GB RAM वाला है, फिर भी graphics-heavy “modern” sites से जूझता है। पुरानी sites सरल थीं और ठीक से चलती थीं, इसलिए product जल्दी search करके खरीद सकते थे; लेकिन कल रात cart में डालना और checkout करना भी सचमुच यातना जैसा था
मुझे web, browser, web design, SEO, search, ads और उनके साथ आने वाली सारी सस्ती बकवास से नफ़रत है। अब बस। अगर web के बिना कुछ खरीदने का तरीका होगा, तो मैं वही करूँगा। मुझे technology से पूरी तरह नफ़रत नहीं है, लेकिन web अब सड़ा हुआ अंडा बन चुका है
- Amazon पर पहले reviews और Q&A को search box से सीधे search किया जा सकता था, और वह बेहद उपयोगी था
  अब वह search box पहले query को LLM को भेजता है, 10–15 सेकंड इंतज़ार करवाता है, फिर “कुछ reviews में ऐसा-वैसा कहा गया” जैसा बेकार summary दिखाता है
  उसके बाद ही actual reviews और questions में मेरे खोजे हुए शब्द वाले items देखने के लिए button दबा सकते हैं। शायद यही मुझे Amazon छोड़ने पर मजबूर कर देगा। अगर सीधे search करने का कोई तरीका अभी भी है, तो बताइए
- कुल मिलाकर असहमति की कोई खास गुंजाइश नहीं है
  पहले Trek bicycle derailleur hanger search करने पर पहला result वही होता था जो चाहिए था। अब नई bicycle खरीदने के 5 ads, एक टूटा हुआ third-party link पार करना पड़ता है, और किस्मत अच्छी हो तो page 1 के सबसे नीचे उस part page का link मिलता है
  web का कचराकरण सच है
- लगता है laptop पूरी तरह outdated है। Modern SEO load संभाल सकने वाला next-gen laptop Amazon से खरीदना चाहिए
  recommended product है LEEZWOO 15.6" Laptop - 16GB RAM 512GB SSD PC Laptop, Quad-Core N95 Processor Up to 3.1GHz, Laptop Computers with Touch ID, WiFi, BT4.2, for Students/Business
  नाम कितना आसानी से पढ़ा जाता है, है न
- बेहतर search को product के रूप में बेचने वाला एक startup है। मुख्य बात यह है कि आप पैसे देकर इस्तेमाल करते हैं, इसलिए आप product नहीं हैं https://kagi.com/welcome
- पिछले 10 वर्षों में मैं धीरे-धीरे खुद को web से अलग कर रहा हूँ। आजकल मुख्यतः native technology से offline apps बनाता हूँ
  वह क्षमता अभी भी बची हुई है। कुछ समय तक toolbars और malware से इतनी दूषित थी कि पीछे हटना पड़ा था, और अब malware दूसरी तरफ है, इसलिए native apps फिर से cool हो गए हैं। बस यह जानना है कि कहाँ देखना है
  मेरा signboard यहाँ है: https://akkartik.name/freewheeling-apps
  हालांकि यहाँ जिस “web” की बात हो रही है, वह शायद सिर्फ search engines के जरिए पहुँच वाली चीज़ों को ही मतलब रखता है। अभी भी पुराना web मौजूद है—यानी अरबों users वाली aggregation services नहीं, बल्कि संबंधों और प्रतिष्ठा से mediated web। जैसे ऊपर वाला link, या यह वीरतापूर्वक moderated site जिस पर हम अभी लिख रहे हैं
“2021 के बाद इंसानी भाषा के उपयोग के बारे में भरोसेमंद जानकारी किसी के पास नहीं है, ऐसा लगता है” — इस बात से सहमत हूँ
text तो कुछ समय पहले ही tipping point पार कर चुका है, लेकिन video के लिए अभी का समय watershed moment जैसा लगता है
खासकर छोटे बच्चों में क्या असली है और क्या नहीं, इसकी intuition कमजोर होती है। अगर पूछा जाए कि video में दिख रहा व्यक्ति असली है या नहीं, तो अभी वे काफी आत्मविश्वास से जवाब देते हैं, लेकिन हर दिन वह confidence घट रहा है
technology निश्चित रूप से तैयार है, और अभी अधिकांश video content प्रभावित नहीं हुआ है, लेकिन मेरा मानना है कि यह जल्द बदलेगा
- ऐसा challenge है: https://www.nytimes.com/interactive/2024/09/09/technology/ai-video-deepfake-runway-kling-quiz.html
  https://www.nytimes.com/interactive/2024/01/19/technology/artificial-intelligence-image-generators-faces-quiz.html
  curated examples की तुलना करने के कारण यह थोड़ा unfair है, लेकिन experts भी ऐसे tests में ज़्यादा पास नहीं कर पाएँगे। technology केवल आगे बढ़ती है, और speed भी बढ़ती जा रही लगती है
  चौंकाने वाली चीज़ है प्रगति की रफ़्तार। मानवता लगभग 30 लाख साल पुरानी है, Homo sapiens करीब 3 लाख साल, शहर·कृषि·सभ्यता करीब 10 हजार साल, धातु करीब 4000 साल, industrial revolution 500 साल, democracy 200 साल, computing 50–100 साल के आसपास
  क्रांतियों के बीच का अंतर लगभग exponentially छोटा होता जा रहा है
  आज की दुनिया की तुलना अपने बचपन से करूँ, तो जिन revolutions को मैं अभी भी absorb कर रहा हूँ, उनमें से एक automated manufacturing है। AliExpress पर जाएँ तो बहुत सारी चीज़ें practically free हैं। मैंने 5-port 120W charger अपने समय के 2 मिनट से भी कम मूल्य में खरीद लिया, और पैसे कमाने में लगने वाले समय से कम समय उसे खोजने में लगा
  यह सब कहाँ जा रहा है, मुझे ठीक से नहीं पता
- अब मुझे भरोसा नहीं रहा कि मैं असली इंसान पहचान सकता हूँ
  असली लोग भी जब TikTok, Instagram, YouTube creators के व्यवहार-ढाँचे अपना लेते हैं, तो मैं अक्सर उन्हें “लगभग नकली” के रूप में mark कर देता हूँ
  मेरी दाढ़ी भी सफेद होने लगी है, लेकिन 2020 के presentation video में ही मैंने YouTube thumbnail face का मज़ाक उड़ाया था। AI ऐसे “आधे-मानवीय” behavior patterns को बहुत तेज़ और ताकत से पकड़ लेता है
  दो-दो युवा महिलाओं वाले videos घूम रहे थे जिनमें वे “This is real”/“This is not real” signs पकड़े थीं; दोनों पूरी तरह झूठ भी हो सकते हैं, और मैं फर्क नहीं कर सकता। सभी में थोड़े “अजीब” behavior patterns दिखते हैं, लेकिन जिन थोड़े influencer videos से मेरा सामना हुआ है, उनसे consistent हैं
- खराब generated चीज़ें पहचानी जा सकती हैं, लेकिन कैसे पता कि अच्छी चीज़ों से धोखा नहीं खा रहे हैं
- मैंने यह विचार कभी नहीं किया था। अगर इंसान AI content और reality में फर्क करने की क्षमता खो दें, तो डरावना है
“अब पूरा web बड़े language models द्वारा बनाए गए slop से भरा पड़ा है, जिसे किसी ने लिखा नहीं और जो कुछ भी convey नहीं करता” — यह कहना fair और accurate है
सबसे अच्छे case में भी, model चलाने वाले व्यक्ति ने वह लेख नहीं लिखा होता, और शब्दों का यह salad उस व्यक्ति की बात convey नहीं कर पाता
कई मामलों में तो content बस SEO के लिए उंडेला जाता है, बिना इस इरादे के कि वह किसी के लिए value रखे
- वह वाक्य मुझे भी बहुत strongly hit हुआ और बेहद powerful लगा
शायद 2020 से पहले की कागज़ी किताबें 10–20 साल बाद कीमती commodity बन सकती हैं
जब internet slop से भर जाएगा, और उस समय की कागज़ी किताबों पर भी शक किया जाने लगेगा
और ऐसे human talking heads भी आएंगे जो किसी बहुत smart AI द्वारा लिखी किताब के लेखक होने का नाटक करेंगे। आखिर हम यह सब क्यों कर रहे हैं
- शायद Sam Altman या Mark Zuckerberg जैसे मशहूर “परोपकारियों” को ऊपर उठाने के लिए। यहां भी बहुत से लोग उन्हें hero मानते हैं
- मुझे लगता था कि ढेरों किताबें जमा करके उन्हें लगभग न पढ़ना कोई mental illness है, लेकिन अब लगता है और करना पड़ेगा
- या यह AI talking head भी हो सकता है जो AI-लिखी किताब का लेखक होने का नाटक कर रहा हो https://youtu.be/pAPGRGTqIgI
  चेतावनी: state-sponsored disinformation AI
इस issue को लेकर मेरी feelings बहुत mixed हैं
एक तरफ, मैं Robyn Speer से पूरी तरह सहमत हूं। open web मर चुका है, और web वाकई बहुत दुखद हालत में है। कुछ दिन पहले मैंने अपना personal blog gopher पर डालने का फैसला किया। सिर्फ इसलिए कि gopher पर कचरा कहीं कम है; जाहिर है, इसका मतलब यह नहीं कि gopher ही solution है
लेकिन कुछ हफ्ते पहले, मुझे अपनी पत्नी के 97 साल के दादाजी को एक video file भेजनी थी, जो दूसरे देश में रहते हैं और computer या mobile phone इस्तेमाल नहीं करते। आखिर पता चला कि उनके पास DVD player है, और मैंने latest 4K HDR video को ऐसे format में बदलने के लिए x264 इस्तेमाल किया जो किसी पुराने DVD player पर भी चल सके, साथ ही जितना हो सके image quality बची रहे
समस्या यह है कि x264 की documentation नहीं है। x265 के उलट, जिसके पास proper documentation लिखवाने के लिए corporate sponsor का पैसा था, x264 असल में doom9 forum के members द्वारा trial and error से विकसित किया गया था। इसमें सैकड़ों obscure flags हैं, और उनमें से कुछ अब 20 साल पहले की तरह behave नहीं करते
मैं doom9 की 20 साल पुरानी दर्जनों threads खंगालकर समझ सकता था कि हर flag क्या करता है, लेकिन असल में मैंने LLM, इस case में Claude, से पूछा
Claude perfect नहीं था और उसने कुछ ffmpeg flags को x264 flags के साथ मिला दिया, लेकिन traditional search और trial-and-error जोड़कर मैं लगभग 30 मिनट में काम खत्म कर पाया। output quality भी काफी satisfactory थी, और वह बहुत पुराने DVD player पर भी चल गया
LLM से पहले, मैं इस काम के लिए कोई x264 expert hire नहीं करता। मैं कुछ घंटे और लगाता, या ज्यादा संभावना यह है कि वह 97 साल के बुजुर्ग अपनी परनातिन का dance नहीं देख पाते। बताया गया कि उस video ने उनके चेहरे पर बड़ी smile ला दी
LLM भी पहले की हर चीज़ की तरह सिर्फ एक tool है। अपने आप में न अच्छा है न बुरा। अहम यह है कि हम क्या करते हैं और कैसे इस्तेमाल करते हैं
- पुराने DVD burning software में से ज्यादातर में video conversion built-in feature नहीं होता था क्या?
  उस दौर में मैं Nero Burning ROM या Handbrake इस्तेमाल करता। quality शायद desired level तक optimize नहीं होती, लेकिन 97 साल की आंखों से देखने के लिए video काफी watchable होता
क्या हम humans ने AI से internet को इतना pollute कर दिया है कि अब वह लगभग unusable हो गया है?
मेरे हिसाब से internet को पृथ्वी जैसे natural environment की तरह देखा जा सकता है। क्योंकि यह वह जगह है जहां लोग share करते हैं, मिलते हैं और बातचीत करते हैं
natural environment को pollute करने के बाद अब internet तक pollute कर दिया, यह हैरान करने वाली बात है
- अगर अभी ऐसा नहीं हुआ है तो बहुत जल्द हो जाएगा। इस problem पर काम करने वाले लोग भी होंगे, लेकिन मुझे लगता है कि हम अब एक बहुत imminent feedback loop moment तक पहुंच रहे हैं
  इंसानों द्वारा record की गई ज्यादातर information digitize हो चुकी है, और उसका बड़ा हिस्सा बहुत तेज़ी से non-human content generate कर रहा है। यानी हमने अपने usable data में जबरदस्त noise inject कर दिया है
  answer ज्यादा human content है या नया generated content, यह मुझे नहीं पता, लेकिन यह transition mid-term में challenges पैदा करेगा
  मैं सोचना चाहूंगा कि LLMs में “जितने ज्यादा tokens, उतना बेहतर” वाला दौर खत्म हो रहा है और focus existing data को बेहतर इस्तेमाल करने पर जा रहा है, लेकिन असल में हम एक अहम inflection point के सामने खड़े हैं
- अभी भी कुछ छोटे, बंद communities हैं जो बहुत valuable हैं। जिस जगह मैं अभी post कर रहा हूं, वह भी उनमें से एक है
  लेकिन open internet अब basically बेकार हो चुका है, और root cause ad-based business model है
- tragedy of the commons आसपास की हर चीज़ को खराब कर देती है
- सही है। internet को और बड़ा cesspool बनाने के practical instructions भी यहां हैं https://www.youtube.com/watch?v=endHz0jo9Ck
  अब ऐसा लगता है कि कोई भी नई technology आखिरकार SEO amplification की ओर जाती है, जैसे यह कोई natural law हो। AI internet का Degelman M34 Manure Spreader बन गया है https://degelman.com/products/manure-spreaders
- अच्छा analogy है। सौभाग्य से online “real estate” को शून्य से बनाना आसान है। हालांकि Twitter और Reddit जैसी कुछ valuable spaces हम कुछ हद तक खो चुके हैं
जो लेखक जल्द ही अपनी नौकरी खोने वाले हैं या पहले ही खो चुके हैं और अपने पुराने काम से व्यावहारिक रूप से फिर से रोजगार पाना मुश्किल है, उनसे AI के बहुत बड़े कारोबारी खिलाड़ियों को पैसे देकर कुछ भी लिखवाना चाहिए
शर्त सिर्फ एक हो: उस काम की पंक्तियों में एक भी वाक्य AI से बना हुआ नहीं होना चाहिए
शुरुआत में मैं कहना चाहता था कि “सरकार को पैसे देने चाहिए”, लेकिन वह नुकसान का सामाजिककरण होगा, और हम अतीत में पहले ही यह काफी झेल चुके हैं
- पहले से कुछ कंपनियां ऐसा काम कर रही हैं। मैं भी कुछ जगहों पर कभी-कभी contract काम करता हूं, और कभी-कभी भुगतान उस स्तर से काफी ज्यादा होता है जिसकी एक औसत लेखक कहीं और उम्मीद कर सकता है
  हालांकि ज्यादातर लेखकों ने कभी लेखन से अपनी आजीविका नहीं चलाई है। लिखने की दहलीज बहुत कम है, लिखना पसंद करने वाले लोग बहुत ज्यादा हैं, और ज्यादातर लोग लगभग पढ़ते ही नहीं
- tape को program कौन करता है? https://en.wikipedia.org/wiki/Profession_(novella)
- AI कंपनियां सच में ऐसे लोगों को नियुक्त करके custom training data बना रही हैं
- लोग 10 साल से भी ज्यादा समय से शोर पैदा करके पैसे लेते आए हैं। Garbage in, garbage out हमेशा सच है
  अगला token ढूंढना एक solved problem है। नई सोच को इंसान हल कर सकते हैं और जल्द ही AI भी कर सकता है, लेकिन data में और garbage जोड़ने से यह बेहतर नहीं होगा
- क्या तुमने अमेरिकी इतिहास कभी पढ़ा है, lol

wordfreq ने अपडेट करना क्यों बंद किया

सितंबर 2024 का पूरक

2021 तक के भाषा उपयोग का snapshot

जनरेटिव AI से प्रदूषित सार्वजनिक वेब

गायब या महंगा हुआ conversational डेटा

Twitter और X

Reddit

जनरेटिव AI से दूरी बनाए रखने की वजह

अपडेट बंद करने का निष्कर्ष

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News टिप्पणियाँ