2 पॉइंट द्वारा GN⁺ 2024-04-12 | 1 टिप्पणियां | WhatsApp पर शेयर करें

OpenAI GPTBot की वेबसाइट क्रॉलिंग समस्या

  • लेखक की अपनी वेबसाइट web.sp.am पर OpenAI का GPTBot आकर पेजों को अत्यधिक मात्रा में क्रॉल कर रहा है

    • एक दिन में लगभग 30 लाख पेज अनुरोध किए गए, जिनमें से 18 लाख robots.txt के अनुरोध थे
    • लेखक की साइट Content Farm जैसी संरचना वाली है, जहाँ 6 अरब 85 करोड़ 90 लाख वेबसाइटों में से हर एक के पास 1 पेज है
    • सभी पेज लगभग एक जैसे दिखते हैं और एक ही IP, एक ही wildcard SSL certificate का उपयोग करते हैं, इसलिए crawler के लिए स्थिति समझना कठिन नहीं होना चाहिए
  • 1–2 महीने पहले Amazon के crawler ने भी ऐसी ही समस्या पैदा की थी, लेकिन संपर्क करके उसकी क्रॉलिंग रुकवाई जा सकी थी

  • लेखक पूछ रहा है कि क्या OpenAI में भी ऐसा कोई व्यक्ति है जिससे संपर्क किया जा सके

  • लेखक मज़ाक में कह रहा है कि शायद उसकी वेबसाइट का डेटा GPT-5 की training में इस्तेमाल हो रहा है

GN⁺ की राय

  • यदि crawler robots.txt को ठीक से समझ नहीं पाता और अत्यधिक अनुरोध भेजता है, तो भले ही वह दुर्भावनापूर्ण न हो, सामने वाले के लिए यह सेवा को नुकसान पहुँचाने वाली गंभीर समस्या हो सकती है। OpenAI को भी जल्द से जल्द crawler logic में सुधार करना चाहिए
  • खासकर Content Farm की तरह बहुत बड़ी संख्या में domains चलाने वाली जगहों पर, हर साइट को अलग-अलग क्रॉल न करने के लिए IP-आधारित filtering जैसे उपायों पर विचार किया जाना चाहिए
  • crawling bot के व्यवहार की monitoring करने, असामान्य संकेतों का पता लगाने और जल्दी प्रतिक्रिया देने के लिए process और system की ज़रूरत दिखती है
  • crawling target साइट के प्रशासकों के साथ नज़दीकी communication रखते हुए नुकसान को न्यूनतम करना चाहिए। केवल data collection पर ही ध्यान देने के बजाय सह-अस्तित्व का दृष्टिकोण महत्वपूर्ण है

1 टिप्पणियां

 
GN⁺ 2024-04-12
Hacker News राय
  • GPT-2/3/J ने r/counting सबरेडिट में यूज़र्स को अनंत तक बढ़ते हुए नंबर पोस्ट करते देखा, इसलिए SolidGoldMagikarp जैसे यूज़रनेम को इंटरनेट पर आम स्ट्रिंग मानकर tokenization के दौरान top-level token की तरह ट्रीट किया गया।

  • GPT-3 की vocabulary 50,257 unique tokens तक सीमित थी। अनुमान है कि इस सबरेडिट यूज़र्स के niche hobby की वजह से बढ़ी बिजली लागत और वास्तविक टेक्स्ट में आम substring के लिए स्लॉट आवंटित करके औसत input token संख्या घटाने के बीच सीधा linear संबंध तो नहीं था, लेकिन मापने योग्य प्रभाव ज़रूर रहा होगा।

  • अगर वेबसाइट का subtitle "IECC ChurnWare 0.3" GPT-5 का token बन जाए, तो वह मज़ेदार होगा।

  • वेबसाइट मालिक ने robots.txt सही तरह नहीं लिखा, इसलिए वास्तव में crawling की अनुमति देने वाले हिस्से को comment out कर दिया।

  • content farm के उद्देश्य को लेकर जिज्ञासा जताई गई। यह बेमतलब लगता है, लेकिन शक है कि इसके पीछे कोई अजीब आर्थिक incentive हो सकता है। affiliate links हैं, लेकिन उनसे कितनी कमाई होगी, यह संदिग्ध है।

  • कुछ लोगों ने मज़ाक में कहा कि OpenAI server farm में सचमुच मकड़ियाँ हों और उम्मीद की कि वे दूसरे rack में चली जाएँ।

  • network security में इसे tarpit कहा जाता है। यह attack, scan और automation को धीमा करके हमलावर का समय और ऊर्जा बर्बाद कर सकता है और बचाव के लिए समय दिला सकता है।

  • अगर OpenAI भी robots.txt का पालन करे, तो bot blocking और data collection की समस्या होगी। top 100,000 websites में से 11% पहले ही crawlers को block कर रही हैं, जो competitors की तुलना में ज़्यादा है।

  • लगता है कि वेबसाइट का मालिक लाखों पेजों की खोज को लेकर बहुत चिंतित नहीं है, इसलिए OpenAI को जो करना है करने देना ही बेहतर होगा।

  • अंततः OpenAI जैसी कंपनियाँ ज़्यादातर AI द्वारा बनाए गए, और अक्सर थोड़े गलत, कंटेंट पर अपने मॉडल train करेंगी, और इससे AI responses की quality गिर सकती है। अभी ज़्यादातर कंटेंट इंसानों द्वारा लिखा गया है, लेकिन 5 साल बाद ऐसा नहीं होगा। यह उन समस्याओं में से एक है जिन्हें AI industry को जल्दी सुलझाना होगा।

  • अगर इस तरह की वेबसाइटों का उद्देश्य ही spiders का समय और resources बर्बाद करना है, तो वे OpenAI के साथ ऐसा क्यों नहीं करना चाहेंगी?

  • इस तरह का honeypot LLM training को प्रदूषित करने का एक दिलचस्प तरीका लगता है।