1 पॉइंट द्वारा GN⁺ 2024-06-16 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • लेखक ने कल अपने सर्वर पर AI bots को block करने के बारे में लिखा था, और आज MacStories के लिए वही काम किया
  • सेटअप पूरा होने के बाद Federico, Perplexity नाम की साइट पर MacStories की एक खास पोस्ट को cite कर सका
  • लेखक ने अपनी साइट पर ये बदलाव लागू किए:
    • 30 मार्च: PerplexityBot जैसे bots को robots.txt में block करना शुरू किया
    • 14 जून: nginx में server-side block जोड़ा। सभी matching entries को 403 Forbidden response लौटाया गया
  • लेखक मानता है कि सभी AI कंपनियां robots.txt को ignore करती हैं, और उसने मार्च से requests को block किया था, लेकिन संभवतः उसका कोई असर नहीं हुआ
  • लेखक ने AI bot blocking पर लेख block measures लागू होने के बाद publish किया था, इसलिए अगर User Agent भेजा जा रहा हो तो Perplexity को उस साइट तक पहुंच नहीं होनी चाहिए थी
  • लेकिन जब उसने Perplexity से उस पोस्ट के बारे में पूछा, तो उसे एक ऐसा पूरा summary मिला जिसमें वे details भी थीं जिन्हें सिर्फ अंदाज़े से नहीं जाना जा सकता था
  • लेखक को लगा कि शायद उसने सिर्फ Chrome User Agent spoofing test किया था, इसलिए हो सकता है configuration गलत हो
  • लेकिन जब उसने उस User Agent PerplexityBot के साथ code test किया, जिसे Perplexity requests में इस्तेमाल करने का दावा करता है, तो उम्मीद के मुताबिक 403 response मिला, यानी nginx configuration में कोई समस्या नहीं थी
  • जब लेखक ने Perplexity AI से पूछा कि robots.txt के बावजूद वह साइट तक कैसे पहुंच सका, तो Perplexity AI ने जवाब दिया कि उसके पास robots.txt द्वारा blocked content को crawl या access करने की क्षमता नहीं है, और restricted content तक पहुंचना या उसका summary बनाना unethical होगा
  • लेकिन Lewis ने पुष्टि की कि Perplexity ऐसा User Agent string इस्तेमाल कर रहा है जिसमें PerplexityBot शामिल नहीं है:
    Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.3  
    
  • लेखक ने भी access logs enable करने के बाद जब Perplexity से सवाल पूछा, तो Lewis की तरह उसने भी देखा कि User Agent में कोई custom User Agent शामिल नहीं था
  • Perplexity content scrape करने के लिए headless browser का उपयोग कर रहा है, robots.txt को ignore कर रहा है, और सही User Agent string भी नहीं भेज रहा
  • ऐसा लगता है कि Perplexity के IP range में ये headless browsers मौजूद नहीं हैं, इसलिए IP range को block करना भी संभव नहीं है
  • लेखक नहीं चाहता कि उसकी posts AI कंपनियों द्वारा मुफ्त में collect की जाएं, लेकिन अब उसके पास करने के लिए ज्यादा कुछ नहीं बचा है
  • लेखक Perplexity के Discord में शामिल हुआ, intro channel में अपना परिचय दिया और bug channel में bug submit किया
  • अगले कदम के रूप में वह GDPR request पर विचार कर रहा है, लेकिन अभी निश्चित नहीं है

GN⁺ की राय

  • AI bot blocking का महत्व: AI bots को साइट के content का बिना अनुमति उपयोग करने से रोकने के लिए सही blocking methods ज़रूरी हैं।
  • User Agent की जांच: अगर AI bots सही User Agent का उपयोग नहीं करते, तो इसे पहचानना और block करना महत्वपूर्ण है।
  • robots.txt फ़ाइल की सीमाएं: कई AI bots robots.txt फ़ाइल को ignore कर सकते हैं, इसलिए अतिरिक्त server-side blocking methods की ज़रूरत होती है।
  • गोपनीयता सुरक्षा: GDPR जैसे नियमों के ज़रिए AI bots की unauthorized access को रोकने के तरीकों पर विचार करना चाहिए।
  • वैकल्पिक समाधान: साइट की सुरक्षा के लिए दूसरे AI bot blocking solutions या security tools का उपयोग भी एक अच्छा तरीका हो सकता है।

1 टिप्पणियां

 
GN⁺ 2024-06-16
Hacker News राय
  • यह संभव होना चाहिए कि LLM मेरे डेटा पर ट्रेन न कर सके, और Perplexity को इसे आसानी से ब्लॉक करने की सुविधा देनी चाहिए।
  • Perplexity को real-time web queries के ज़रिए मेरी वेबसाइट का डेटा उपयोगकर्ताओं को देने से रोकना एक जोखिमभरे क्षेत्र में प्रवेश करना है।
  • ad blocker, reader mode, screen reader जैसे टूल भी Perplexity की तरह ही काम करते हैं, और इसे प्रतिबंधित करना कई टूल्स को प्रभावित कर सकता है।
  • मैं नहीं चाहता कि वेबसाइट मालिक DRM का उपयोग करके वेबसाइट को केवल किसी खास तरीके से दिखाने के लिए मजबूर करें।
  • लगता है Perplexity user agent के लागू होने के समय को लेकर गलतफहमी में था।
  • वेबसाइट मालिक यह तय नहीं कर सकते कि उपयोगकर्ता कौन-सा browser इस्तेमाल करेगा, और Perplexity भी इसका अपवाद नहीं है।
  • Perplexity का user agent के बिना बड़े पैमाने पर डेटा इकट्ठा करना समस्या है, और इसे बंद होना चाहिए।
  • AI कंपनियों द्वारा मॉडल को train करने के लिए वेबसाइट scrape करना और उपयोगकर्ता के अनुरोध पर web page लाना, इन दोनों में अंतर किया जाना चाहिए।
  • Perplexity द्वारा दूसरे लोगों का content लेकर उसका उपयोग करने से जुड़ी समस्याओं पर एक लेख का लिंक दिया गया है।
  • Perplexity का crawler robots.txt का सम्मान करना चाहिए, लेकिन user agent crawler नहीं है, इसलिए उसे इसका पालन करने की ज़रूरत नहीं है।
  • अगर AI कंपनियाँ मेरी वेबसाइट scrape करें तो मुझे फ़र्क नहीं पड़ता; मैं उन्हें गलत डेटा ले जाने दूँगा।
  • जिसने भी web scraping किया है, वह जानता होगा कि user agent के बारे में झूठ बोलने की वजह क्या होती है।
  • Perplexity के CEO ने Google और OpenAI की आलोचना की, लेकिन यह सामने आया कि वे खुद भी robots.txt का पालन नहीं कर रहे थे और user agent छिपा रहे थे।
  • AI कंपनियों को मेरा content मुफ़्त में ले जाने से रोकने के लिए invisible prompt injection का उपयोग किया जा सकता है।
  • Perplexity का स्वैच्छिक web standards का पालन न करना ज़रूरी नहीं कि झूठ कहलाए।