OpenAI के अंदरूनी संपर्क रखने वाला कोई भी व्यक्ति, मकड़ी समस्या के समाधान का अनुरोध

(mailman.nanog.org)

2 पॉइंट द्वारा GN⁺ 2024-04-12 | 1 टिप्पणियां | WhatsApp पर शेयर करें

OpenAI GPTBot की वेबसाइट क्रॉलिंग समस्या

लेखक की अपनी वेबसाइट web.sp.am पर OpenAI का GPTBot आकर पेजों को अत्यधिक मात्रा में क्रॉल कर रहा है
- एक दिन में लगभग 30 लाख पेज अनुरोध किए गए, जिनमें से 18 लाख robots.txt के अनुरोध थे
- लेखक की साइट Content Farm जैसी संरचना वाली है, जहाँ 6 अरब 85 करोड़ 90 लाख वेबसाइटों में से हर एक के पास 1 पेज है
- सभी पेज लगभग एक जैसे दिखते हैं और एक ही IP, एक ही wildcard SSL certificate का उपयोग करते हैं, इसलिए crawler के लिए स्थिति समझना कठिन नहीं होना चाहिए
1–2 महीने पहले Amazon के crawler ने भी ऐसी ही समस्या पैदा की थी, लेकिन संपर्क करके उसकी क्रॉलिंग रुकवाई जा सकी थी
लेखक पूछ रहा है कि क्या OpenAI में भी ऐसा कोई व्यक्ति है जिससे संपर्क किया जा सके
लेखक मज़ाक में कह रहा है कि शायद उसकी वेबसाइट का डेटा GPT-5 की training में इस्तेमाल हो रहा है

GN⁺ की राय

यदि crawler robots.txt को ठीक से समझ नहीं पाता और अत्यधिक अनुरोध भेजता है, तो भले ही वह दुर्भावनापूर्ण न हो, सामने वाले के लिए यह सेवा को नुकसान पहुँचाने वाली गंभीर समस्या हो सकती है। OpenAI को भी जल्द से जल्द crawler logic में सुधार करना चाहिए
खासकर Content Farm की तरह बहुत बड़ी संख्या में domains चलाने वाली जगहों पर, हर साइट को अलग-अलग क्रॉल न करने के लिए IP-आधारित filtering जैसे उपायों पर विचार किया जाना चाहिए
crawling bot के व्यवहार की monitoring करने, असामान्य संकेतों का पता लगाने और जल्दी प्रतिक्रिया देने के लिए process और system की ज़रूरत दिखती है
crawling target साइट के प्रशासकों के साथ नज़दीकी communication रखते हुए नुकसान को न्यूनतम करना चाहिए। केवल data collection पर ही ध्यान देने के बजाय सह-अस्तित्व का दृष्टिकोण महत्वपूर्ण है

1 टिप्पणियां

GN⁺ 2024-04-12

Hacker News की राय

इससे GPT-2/3/J का https://reddit.com/r/counting से सामना याद आता है। यह Reddit का वह स्थान है जहाँ उपयोगकर्ता एक-एक करके संख्या पोस्ट करते हैं और अनंत तक गिनती चलते रहती है। शायद SolidGoldMagikarp जैसे username इंटरनेट पर इतना आम string लगने लगे कि tokenization के दौरान उसे independent token की तरह माना गया
https://www.alignmentforum.org/posts/8viQEp8KBg2QSW4Yc/solid...
https://www.lesswrong.com/posts/LAxAmooK4uDfWmbep/anomalous-...
शब्दावली अनंत नहीं होती, और बताया गया था कि GPT-3 की vocabulary भी केवल 50,257 tokens की थी। सोचता हूँ कि Reddit के इस niche hobby की वजह से हुई अतिरिक्त compute cost, और अगर उसकी जगह वास्तविक टेक्स्ट में अधिक सामान्य substring को दिया जाता तो average input token count कितना घटता—क्या उस अंतर को मापा जा सकता था
अगर OP साइट का subtitle IECC ChurnWare 0.3 GPT-5 token बन जाए तो मज़ेदार होगा
- यह जानने की जिज्ञासा है कि hallucination का कारण बड़े language model की प्रकृति से ज़्यादा source content में कितना निहित है। आखिर अगर किसी इंटरनेट फोरम पर ऐसा सवाल आए जिसका जवाब मुझे नहीं पता, तो मैं ख़ास तौर पर “मुझे नहीं पता” लिखने नहीं जाता
  वास्तव में one-to-one बातचीत के बाहर “मुझे नहीं पता” जैसा जवाब आम तौर पर ज़्यादा उपयोगी नहीं होता। किसी group में अगर आप चुप हैं, तो वही काफ़ी हद तक दिखा देता है कि आपको नहीं पता
- tokenization के दौरान username token बन गया था, लेकिन असली model training से पहले ऐसा टेक्स्ट training data से हटा दिया गया, इसलिए model ने उस token वाले टेक्स्ट पर training नहीं ली। इसी वजह से ऐसा glitch token बना जो किसी अर्थ से जुड़ा ही नहीं था
- Computerphile में भी glitch token पर चर्चा है
  https://www.youtube.com/watch?v=WO2X3oZEJOA
- आजकल सबसे आम vocabulary size 32k है
मुझे उससे भी ज़्यादा यह जानना है कि वह content farm आखिर किसलिए है। वह बेमानी लगती है, लेकिन लगता है कोई अजीब-सी economic incentive ज़रूर होगी। affiliate links तो हैं, पर उनसे भला कितना कमाया जा सकता होगा
- यह एक honeypot है। इसके लेखक https://en.wikipedia.org/wiki/John_R._Levine इसे इसलिए बनाए रखते हैं ताकि जब भी कोई नया और बड़े पैमाने का scraping operation शुरू हो, वह इस छोटे farm तक ज़रूर पहुँचे और logs में दर्ज हो जाए
  वह कई दशकों से सक्रिय एक मशहूर anti-spam शख़्सियत हैं। NANOG messages में landing page link को सहज रूप से छोड़ देना भी bots को चारा खिलाने का एक तरीका है
- iecc.com पर John Levine नाम वेब 1.0 दौर की Invincible Electric Calculator Company के रूप में याद आता है। वह Usenet के comp.compilers newsgroup के moderator थे और IBM PC RT के लिए पहला C compiler उन्होंने लिखा था
  https://compilers.iecc.com/
- यह bots के लिए honeypot के और ज़्यादा क़रीब लगता है। मक़सद काफ़ी मिलता-जुलता है
- Linkers & Loaders उनकी लिखी हुई किताब है। दूसरी किताबें मैंने जाँची नहीं हैं
  https://www.iecc.com/linker/ पेज पर पहले किताब का draft कई formats में उपलब्ध था, लेकिन जब इसे https://news.ycombinator.com/item?id=18424233 पर पोस्ट किया गया, तो मैंने offline reading के लिए files को bundle कर दिया था, और उसके बाद वहाँ यह संदेश आ गया कि “लगातार piracy की वजह से अब यह उपलब्ध नहीं कराया जाता”
  मैंने email करके पूछा था कि क्या यह ठीक है, लेकिन जवाब कुछ रूखा था और कहा गया कि मैंने files की piracy की है, इसलिए मैंने link हटा दिया और उधर उन्होंने wording बदल दी। मैं किताब का लेखक नहीं था, वे ही लेखक थे, इसलिए ऐसा करना उनका अधिकार था। फिर भी मैंने सुझाव दिया था कि पेज पर साफ़-साफ़ लिख दें कि ऐसा न किया जाए, लेकिन उन्होंने ज़्यादा radical तरीका चुना
- यह बस मज़े के लिए बनाया गया था, और अभी यह अपना काम बहुत अच्छे से कर रहा है। हर चीज़ का कोई आर्थिक मक़सद हो, 100 trackers हों, ads हों, या company sponsorship हो—ऐसा ज़रूरी नहीं है
क्या सिर्फ़ मैं ही यह उम्मीद कर रहा था कि बात OpenAI server farm में सचमुच मकड़ियों की भरमार होने और उनके दूसरों के racks में घुसने की है? मुझे पता था ऐसा नहीं होगा, फिर भी उम्मीद थी
- मैं तो यह उम्मीद कर रहा था कि किसी बड़े keyword cluster ने मकड़ियों की image बना दी होगी
robots.txt सही तरह से सेट नहीं किया गया था। जो हिस्सा वास्तव में block करता, उसे comment out कर दिया गया था
Amazonbot और GPTBot दोनों के लिए Disallow: / comment out है, और अभी जो लागू है वह सिर्फ़ User-agent: * के लिए /archive block है
- तब और अब के बीच content बदल गया है
अगर robots.txt का पालन किया जाए, तो OpenAI के पास bot blocking और data collection दोनों की समस्या है: https://x.com/AznWeng/status/1777688628308681000
शीर्ष 100,000 websites में से 11% पहले ही OpenAI crawler को block कर चुकी हैं, जो इसके rivals Google, FB, Anthropic, Perplexity—इन सबको मिलाकर भी अधिक है
- यह सिर्फ़ training का नहीं, end users का भी मसला है। कई बार मैंने किसी लंबे लेख पर सवाल पूछा या summary माँगी, और जवाब मिला कि वह खुद उसे पढ़ नहीं सकता, इसलिए अंत में मुझे टेक्स्ट chat window में copy-paste करना पड़ा
  robots.txt की गैर-बाध्यकारी प्रकृति को देखते हुए, और यह भी कि दूसरे संदर्भों में सार्वजनिक data को बड़े आराम से ingest कर लिया जाता है, यह हैरानी की बात है कि ऐसी चीज़ को user experience में रुकावट बने रहने दिया जाता है
लगता है बस इसे करने देना चाहिए। अगर इंटरनेट चाहिए, तो यही असल इंटरनेट है। उसे लाखों पेज लेने से खास फर्क पड़ता नहीं दिखता, तो बस करने दो
- इससे उस web farm के दूसरे सामान्य users पर performance impact पड़ता है
- कुछ scrapers robots.txt का सम्मान करते हैं। OpenAI नहीं करता। SP बस दुनिया को यही बता रहा है
- CTO तक कह रहा है कि data कहाँ से आ रहा है, यह उसे भी नहीं पता
- यही तो असली मुद्दा है। उसकी शिकायत यह है कि OpenAI robots.txt का सम्मान नहीं करता
network security की दुनिया में इसे tarpit कहते हैं। data को बहुत धीरे भेजकर या infinite recursion पैदा करके attack, scan और दूसरी automation को धीमा किया जा सकता है
नतीजे में attacker का समय और energy बर्बाद होती है, और हमारी तरफ defense मज़बूत करने के लिए समय मिल सकता है
- email की सामग्री देखकर तो यह बस एक honeypot जैसा लगता है। content लौटाते समय कोई delay भी नहीं दिखता
  tarpit उससे अलग है। इसे scan या scraping को धीमा करने और सामने वाले के resources जानबूझकर बर्बाद करने के लिए design किया जाता है। कई techniques हैं, लेकिन ज़्यादातर response या response speed को exponential तरीके से limit करती हैं
2011 में भी picolisp project में ऐसा ही कुछ हुआ था, जब उसने on-the-fly पेज बनाने वाला Markov chain जैसा “ticker” सार्वजनिक किया था
https://picolisp.com/wiki/?ticker
यह काफ़ी अच्छा honeypot है
आखिरकार OpenAI जैसी कंपनियाँ लगभग पूरी तरह AI-generated content पर अपने models को train करने लगेंगी, और Q&A के नज़रिए से ऐसा content काफ़ी बार थोड़ा-थोड़ा गलत होता है, इसलिए उस पर train किए गए AI responses की quality भी जल्दी खराब होगी
अभी इंटरनेट का ज़्यादातर content इंसान लिखते हैं, लेकिन 5 साल बाद ऐसा न भी हो। मुझे लगता है AI क्षेत्र को जल्दी सुलझानी वाली बड़ी समस्याओं में यह एक है। पुरानी कहावत की तरह, garbage in, garbage out
- web text training का अंतिम पड़ाव हमेशा ouroboros ही था। क्योंकि ad tech के incentives बहुत कम कमाई के लिए low-quality content को बड़े पैमाने पर पैदा करने की ओर धकेलते हैं
  इस पूरी स्थिति की विडंबना काफ़ी क्रूर है
- scrape करने लायक virgin forest जैसा content अब नहीं बचेगा, लेकिन जो content इंसान चाहते हैं वह फिर भी सबसे लोकप्रिय, प्रचारित, curated और edited रहेगा। organic content पर train करना असंभव हो जाए, तब भी अच्छा content पाना संभव है
- यह समस्या पहले ही हल हो चुकी है। Microsoft ने Phi को कैसे train किया, वह देखिए। उसने मौजूदा models से textbook-based synthetic data generate कराया, और इस तरह Common Crawl जैसी चीज़ों की तुलना में कहीं बेहतर quality का “facts”-आधारित नया dataset बनाया
  यह ouroboros से ज़्यादा bootstrapping problem जैसा लगता है
- आगे चलकर सब कुछ multimodal होगा, और distributed sensing network के feeds पर train और inference होगा। इसमें radio, optical, acoustic, accelerometer, vibration, mobile phone के अंदर और बाहर के बहुत से sensors शामिल होंगे
  सिर्फ text संभालने वाले transformer का दौर अब बीत चुका है
- समझ नहीं आता कि आपको क्यों लगता है कि OpenAI और उसके जैसे लोग आखिर में लगभग पूरी तरह AI-generated content पर ही train करेंगे। इंटरनेट पर वास्तविक content से ज़्यादा AI-generated content होने की संभावना बड़ी है, और शायद ऐसा अभी से हो भी चुका हो, लेकिन यह मानने की कोई वजह नहीं कि AI companies इसे नोटिस नहीं करेंगी और अपने training methods को adjust नहीं करेंगी
मेरा मानना है कि OpenAI robots.txt पढ़ता तो है, लेकिन फिर भी index करता है। बस शायद यह निशान लगा देता होगा कि यह ऐसा content था जिसे index नहीं करना चाहिए था
- और फिर ऐसे content को training में शायद double weight भी दे देता होगा

OpenAI के अंदरूनी संपर्क रखने वाला कोई भी व्यक्ति, मकड़ी समस्या के समाधान का अनुरोध

OpenAI GPTBot की वेबसाइट क्रॉलिंग समस्या

GN⁺ की राय

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय