- लेखक ने कल अपने सर्वर पर AI bots को block करने के बारे में लिखा था, और आज MacStories के लिए वही काम किया
- सेटअप पूरा होने के बाद Federico, Perplexity नाम की साइट पर MacStories की एक खास पोस्ट को cite कर सका
- लेखक ने अपनी साइट पर ये बदलाव लागू किए:
- 30 मार्च:
PerplexityBotजैसे bots को robots.txt में block करना शुरू किया - 14 जून: nginx में server-side block जोड़ा। सभी matching entries को 403 Forbidden response लौटाया गया
- 30 मार्च:
- लेखक मानता है कि सभी AI कंपनियां robots.txt को ignore करती हैं, और उसने मार्च से requests को block किया था, लेकिन संभवतः उसका कोई असर नहीं हुआ
- लेखक ने AI bot blocking पर लेख block measures लागू होने के बाद publish किया था, इसलिए अगर User Agent भेजा जा रहा हो तो Perplexity को उस साइट तक पहुंच नहीं होनी चाहिए थी
- लेकिन जब उसने Perplexity से उस पोस्ट के बारे में पूछा, तो उसे एक ऐसा पूरा summary मिला जिसमें वे details भी थीं जिन्हें सिर्फ अंदाज़े से नहीं जाना जा सकता था
- लेखक को लगा कि शायद उसने सिर्फ Chrome User Agent spoofing test किया था, इसलिए हो सकता है configuration गलत हो
- लेकिन जब उसने उस User Agent
PerplexityBotके साथ code test किया, जिसे Perplexity requests में इस्तेमाल करने का दावा करता है, तो उम्मीद के मुताबिक 403 response मिला, यानी nginx configuration में कोई समस्या नहीं थी - जब लेखक ने Perplexity AI से पूछा कि robots.txt के बावजूद वह साइट तक कैसे पहुंच सका, तो Perplexity AI ने जवाब दिया कि उसके पास robots.txt द्वारा blocked content को crawl या access करने की क्षमता नहीं है, और restricted content तक पहुंचना या उसका summary बनाना unethical होगा
- लेकिन Lewis ने पुष्टि की कि Perplexity ऐसा User Agent string इस्तेमाल कर रहा है जिसमें
PerplexityBotशामिल नहीं है:Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.3 - लेखक ने भी access logs enable करने के बाद जब Perplexity से सवाल पूछा, तो Lewis की तरह उसने भी देखा कि User Agent में कोई custom User Agent शामिल नहीं था
- Perplexity content scrape करने के लिए headless browser का उपयोग कर रहा है, robots.txt को ignore कर रहा है, और सही User Agent string भी नहीं भेज रहा
- ऐसा लगता है कि Perplexity के IP range में ये headless browsers मौजूद नहीं हैं, इसलिए IP range को block करना भी संभव नहीं है
- लेखक नहीं चाहता कि उसकी posts AI कंपनियों द्वारा मुफ्त में collect की जाएं, लेकिन अब उसके पास करने के लिए ज्यादा कुछ नहीं बचा है
- लेखक Perplexity के Discord में शामिल हुआ, intro channel में अपना परिचय दिया और bug channel में bug submit किया
- अगले कदम के रूप में वह GDPR request पर विचार कर रहा है, लेकिन अभी निश्चित नहीं है
GN⁺ की राय
- AI bot blocking का महत्व: AI bots को साइट के content का बिना अनुमति उपयोग करने से रोकने के लिए सही blocking methods ज़रूरी हैं।
- User Agent की जांच: अगर AI bots सही User Agent का उपयोग नहीं करते, तो इसे पहचानना और block करना महत्वपूर्ण है।
- robots.txt फ़ाइल की सीमाएं: कई AI bots robots.txt फ़ाइल को ignore कर सकते हैं, इसलिए अतिरिक्त server-side blocking methods की ज़रूरत होती है।
- गोपनीयता सुरक्षा: GDPR जैसे नियमों के ज़रिए AI bots की unauthorized access को रोकने के तरीकों पर विचार करना चाहिए।
- वैकल्पिक समाधान: साइट की सुरक्षा के लिए दूसरे AI bot blocking solutions या security tools का उपयोग भी एक अच्छा तरीका हो सकता है।
1 टिप्पणियां
Hacker News राय