OpenAI के बॉट ने एक छोटी कंपनी की वेबसाइट को 'DDoS हमले' की तरह ठप कर दिया

(techcrunch.com)

6 पॉइंट द्वारा GN⁺ 2025-01-14 | 4 टिप्पणियां | WhatsApp पर शेयर करें

Triplegangers 7 कर्मचारियों वाली एक छोटी कंपनी है, जो "human digital double" डेटाबेस बेचती है
- 3D image files और तस्वीरें 3D artists, video game creators आदि को उपलब्ध कराती है
समस्या: OpenAI के बॉट ने 600 से अधिक IP का इस्तेमाल करके वेबसाइट को अत्यधिक crawl किया, जिससे सर्वर डाउन हो गया
- 65,000 से अधिक product pages और लाखों तस्वीरों को इकट्ठा करने की कोशिश की
- इस तरह की "DDoS हमले जैसी" request की बाढ़ से AWS लागत बढ़ने की आशंका
OpenAI का GPTBot अगर robots.txt file में सही सेटिंग न हो तो डेटा को खुलकर crawl करता है
- साइट अलग से block न करे तो बॉट activity डिफ़ॉल्ट रूप से अनुमति प्राप्त रहती है
- robots.txt: वह file जो तय करती है कि search engines किस डेटा को crawl न करें
- Triplegangers ने अपनी वेबसाइट की robots.txt file सही तरह से सेट नहीं की थी, इसलिए OpenAI का बॉट डेटा scrape कर सका
अतिरिक्त समस्याएँ:
- OpenAI को crawling block request पहचानने में 24 घंटे तक लग सकते हैं
- दूसरी AI कंपनियाँ भी इसी तरह डेटा crawl करती हैं

Triplegangers की प्रतिक्रिया

उठाए गए कदम:
- सही तरह से configured robots.txt file बनाई
- Cloudflare account settings के जरिए GPTBot और अन्य AI crawlers को block किया
नतीजा:
- साइट को फिर से स्थिर करने में सफलता
- लेकिन OpenAI कौन-सा डेटा ले गया, यह पता नहीं है, और डेटा deletion request का भी कोई तरीका नहीं है
- OpenAI के अधूरे opt-out tools: कंपनियों के लिए crawling रोकना और मुश्किल बनाते हैं

crawling की समस्या खास तौर पर गंभीर क्यों है

AI crawlers वेबसाइट का डेटा बिना अनुमति ले जाते हैं, और यह खासकर Triplegangers जैसी कंपनियों के लिए बड़ी समस्या पैदा करता है
डेटा की संवेदनशीलता:
- Triplegangers के पास वास्तविक लोगों को scan करके बनाया गया डेटाबेस है
- GDPR जैसी privacy laws के तहत डेटा का अनधिकृत उपयोग प्रतिबंधित है
डेटा की उपयोगिता:
- डेटा tag किया गया है, इसलिए AI training के लिए उपयोगी है
- उदाहरण: ethnicity, age, physical traits आदि को विस्तार से चिह्नित किया गया है

अन्य छोटे व्यवसायों के लिए सीख

AI बॉट का पता लगाना:
- AI bots crawl कर रहे हैं या नहीं, यह जानने के लिए logs की monitoring ज़रूरी है
- ज़्यादातर वेबसाइटों को यह तक पता नहीं होता कि उन्हें crawl किया गया है
बढ़ती crawling समस्या:
- 2024 में सामान्य रूप से invalid traffic 86% बढ़ा
- AI crawlers और scrapers इसके मुख्य कारण हैं

निष्कर्ष

AI bots की crawling समस्या छोटे व्यवसायों पर गंभीर असर डालती है
AI कंपनियों को डेटा लेने से पहले अनुमति मांगनी चाहिए
छोटे व्यवसायों को robots.txt और firewall का सक्रिय रूप से उपयोग करना चाहिए, और लगातार monitoring करनी चाहिए

4 टिप्पणियां

crawler 2025-01-14

अगर किसी साइट पर आने वाले 600 IP सच में असली थे, तो लगता है कि वाकई पागलों की तरह scrape कर रहा था, लेकिन robots.txt इस्तेमाल नहीं किया गया था, इस पर थोड़ा "हूँ?" लगता है।
लगता है डेटा इस कंपनी के लिए अहम है और साइट भी सक्रिय है, तो कम-से-कम सबसे बुनियादी robots.txt सेटिंग से तो शुरुआत करनी चाहिए थी...

xguru 2025-01-14

AI कंपनियां अब अधिकांश वेब ट्रैफ़िक बना रही हैं

unsure4000 2025-01-14

मुझे लगता है Cloudflare सच में एक ज़रूरी बुराई है। यह बेहद performant single point of failure भी है।

GN⁺ 2025-01-14

Hacker News राय

AI कंपनियां फ़ोरम पर बहुत अधिक ट्रैफ़िक पैदा कर रही हैं
- Read the Docs पर AI bots द्वारा 10TB से अधिक ट्रैफ़िक उत्पन्न करने का एक मामला सामने आया है
- दावा है कि OpenAI ने डेटा scrape करने के लिए 600 IPs का उपयोग किया
- केवल Cloudflare के reverse proxy IPs रिकॉर्ड हुए, इसलिए वास्तविक client IPs का पता नहीं चल सका
- कुछ लोगों का मानना है कि logs में timestamps नहीं हैं और request rate का उल्लेख भी नहीं है, इसलिए इसे DDOS हमला कहना उचित नहीं है
एक web developer के रूप में AI कंपनियों के अक्षम scrapers को लेकर असंतोष है
- सलाह दी गई है कि साइट पर अत्यधिक load न डालने वाले बुनियादी नियमों का पालन किया जाए
- AI कंपनियों के scrapers अक्षम और परेशान करने वाले लगते हैं
लेख में "robots.txt" को गलत लिखे जाने की ओर इशारा किया गया
- timestamps के बिना log file को सबूत के रूप में इस्तेमाल करना संदिग्ध माना गया
- OpenAI पूरी तरह निर्दोष नहीं है, लेकिन लेख की गुणवत्ता कमज़ोर बताई गई
कुछ लोगों की राय है कि web का इतिहास खुद को दोहरा रहा है
- पहले API के माध्यम से जानकारी मिल सकती थी, लेकिन अब ज़्यादातर चीज़ें block हैं
- उम्मीद है कि AI ऐसे automated interactions को फिर से संभव बना सकता है
कभी व्यक्तिगत web crawler में रुचि थी, लेकिन अब अनुचित Google economy से निराशा है
- चिंता है कि LLMs बहुत utility दे सकते हैं, लेकिन रचनात्मकता चुराने का डर लोगों को दरवाज़े बंद करने पर मजबूर कर देगा
हाल ही में Amazon पर किताबें प्रकाशित करने वाले लोग AI से बने धोखाधड़ी वाले नकली संस्करणों से प्रतिस्पर्धा कर रहे हैं
- BBC पर इस तरह के अनुभव का इंटरव्यू किया गया था
चेतावनी दी गई है कि अगर कोई साइट robots.txt का सही इस्तेमाल नहीं करती, तो AI खुलकर scraping कर सकता है
- robots.txt की जांच करने की सलाह दी गई है
साइट HTTP error 429 का उपयोग करके bots की रफ़्तार नियंत्रित कर सकती है
- सुझाव है कि अगर bots किसी subnet से आ रहे हों, तो नियम subnet पर लागू करें, केवल individual IP पर नहीं