- Triplegangers 7 कर्मचारियों वाली एक छोटी कंपनी है, जो "human digital double" डेटाबेस बेचती है
- 3D image files और तस्वीरें 3D artists, video game creators आदि को उपलब्ध कराती है
- समस्या: OpenAI के बॉट ने 600 से अधिक IP का इस्तेमाल करके वेबसाइट को अत्यधिक crawl किया, जिससे सर्वर डाउन हो गया
- 65,000 से अधिक product pages और लाखों तस्वीरों को इकट्ठा करने की कोशिश की
- इस तरह की "DDoS हमले जैसी" request की बाढ़ से AWS लागत बढ़ने की आशंका
- OpenAI का GPTBot अगर robots.txt file में सही सेटिंग न हो तो डेटा को खुलकर crawl करता है
- साइट अलग से block न करे तो बॉट activity डिफ़ॉल्ट रूप से अनुमति प्राप्त रहती है
- robots.txt: वह file जो तय करती है कि search engines किस डेटा को crawl न करें
- Triplegangers ने अपनी वेबसाइट की robots.txt file सही तरह से सेट नहीं की थी, इसलिए OpenAI का बॉट डेटा scrape कर सका
- अतिरिक्त समस्याएँ:
- OpenAI को crawling block request पहचानने में 24 घंटे तक लग सकते हैं
- दूसरी AI कंपनियाँ भी इसी तरह डेटा crawl करती हैं
Triplegangers की प्रतिक्रिया
- उठाए गए कदम:
- सही तरह से configured robots.txt file बनाई
- Cloudflare account settings के जरिए GPTBot और अन्य AI crawlers को block किया
- नतीजा:
- साइट को फिर से स्थिर करने में सफलता
- लेकिन OpenAI कौन-सा डेटा ले गया, यह पता नहीं है, और डेटा deletion request का भी कोई तरीका नहीं है
- OpenAI के अधूरे opt-out tools: कंपनियों के लिए crawling रोकना और मुश्किल बनाते हैं
crawling की समस्या खास तौर पर गंभीर क्यों है
- AI crawlers वेबसाइट का डेटा बिना अनुमति ले जाते हैं, और यह खासकर Triplegangers जैसी कंपनियों के लिए बड़ी समस्या पैदा करता है
- डेटा की संवेदनशीलता:
- Triplegangers के पास वास्तविक लोगों को scan करके बनाया गया डेटाबेस है
- GDPR जैसी privacy laws के तहत डेटा का अनधिकृत उपयोग प्रतिबंधित है
- डेटा की उपयोगिता:
- डेटा tag किया गया है, इसलिए AI training के लिए उपयोगी है
- उदाहरण: ethnicity, age, physical traits आदि को विस्तार से चिह्नित किया गया है
अन्य छोटे व्यवसायों के लिए सीख
- AI बॉट का पता लगाना:
- AI bots crawl कर रहे हैं या नहीं, यह जानने के लिए logs की monitoring ज़रूरी है
- ज़्यादातर वेबसाइटों को यह तक पता नहीं होता कि उन्हें crawl किया गया है
- बढ़ती crawling समस्या:
- 2024 में सामान्य रूप से invalid traffic 86% बढ़ा
- AI crawlers और scrapers इसके मुख्य कारण हैं
निष्कर्ष
- AI bots की crawling समस्या छोटे व्यवसायों पर गंभीर असर डालती है
- AI कंपनियों को डेटा लेने से पहले अनुमति मांगनी चाहिए
- छोटे व्यवसायों को robots.txt और firewall का सक्रिय रूप से उपयोग करना चाहिए, और लगातार monitoring करनी चाहिए
4 टिप्पणियां
अगर किसी साइट पर आने वाले 600 IP सच में असली थे, तो लगता है कि वाकई पागलों की तरह scrape कर रहा था, लेकिन robots.txt इस्तेमाल नहीं किया गया था, इस पर थोड़ा "हूँ?" लगता है।
लगता है डेटा इस कंपनी के लिए अहम है और साइट भी सक्रिय है, तो कम-से-कम सबसे बुनियादी robots.txt सेटिंग से तो शुरुआत करनी चाहिए थी...
AI कंपनियां अब अधिकांश वेब ट्रैफ़िक बना रही हैं
मुझे लगता है Cloudflare सच में एक ज़रूरी बुराई है। यह बेहद performant single point of failure भी है।
Hacker News राय
AI कंपनियां फ़ोरम पर बहुत अधिक ट्रैफ़िक पैदा कर रही हैं
एक web developer के रूप में AI कंपनियों के अक्षम scrapers को लेकर असंतोष है
लेख में "robots.txt" को गलत लिखे जाने की ओर इशारा किया गया
कुछ लोगों की राय है कि web का इतिहास खुद को दोहरा रहा है
कभी व्यक्तिगत web crawler में रुचि थी, लेकिन अब अनुचित Google economy से निराशा है
हाल ही में Amazon पर किताबें प्रकाशित करने वाले लोग AI से बने धोखाधड़ी वाले नकली संस्करणों से प्रतिस्पर्धा कर रहे हैं
चेतावनी दी गई है कि अगर कोई साइट robots.txt का सही इस्तेमाल नहीं करती, तो AI खुलकर scraping कर सकता है
साइट HTTP error 429 का उपयोग करके bots की रफ़्तार नियंत्रित कर सकती है