• Perplexity ने क्रॉलिंग प्रतिबंध निर्देशों को दरकिनार करने के लिए अपनी पहचान छिपाने वाला वेब क्रॉलर इस्तेमाल किया
  • robots.txt फ़ाइल को अनदेखा करने और IP तथा User Agent को बार-बार बदलने जैसी गतिविधियाँ दर्ज की गईं
  • नए डोमेन के प्रयोग में, ब्लॉक सेटिंग के बावजूद यह पाया गया कि Perplexity ने साइट की सामग्री तक पहुँच बनाई
  • Cloudflare ने इन गतिविधियों को रोकने के लिए Perplexity को आधिकारिक प्रमाणित बॉट सूची से बाहर कर बॉट प्रबंधन नियमों में बदलाव किए
  • OpenAI जैसे सदाशयी/उत्तरदायी बॉट ऑपरेटरों की तुलना में Perplexity का स्टेल्थ व्यवहार एक बड़ी समस्या के रूप में उभरा

Perplexity के गुप्त क्रॉलर उपयोग व्यवहार का सारांश

  • Perplexity एक AI-आधारित क्वेरी/उत्‍तर इंजन है, जो औपचारिक रूप से रिपोर्ट किए गए User Agent से वेबसाइटों का प्रारंभिक क्रॉल करता है
  • लेकिन जब नेटवर्क ब्लॉक का सामना होता है, तो यह अपनी पहचान छिपाने के लिए User Agent बदलता है और विभिन्न ASN (Autonomous System Number) के जरिए एक्सेस करने की कोशिश करता है
  • इसी दौरान कई मामलों में robots.txt फ़ाइल को अनदेखा किया गया या बिना उसे अनुरोध किए सीधे एक्सेस करने के प्रयास मिले

वेबसाइट और क्रॉलर के बीच भरोसे के सिद्धांत और समस्या व्यवहार

  • पिछले कई दशकों में इंटरनेट ने भरोसे के आधार पर विकास किया है, और क्रॉलर के लिए पारदर्शिता, उद्देश्य की स्पष्टता तथा स्पष्ट संचालन नियमों का पालन करना अपेक्षित है
  • क्रॉलर को वेबसाइट मालिकों के दिशानिर्देशों और प्राथमिकताओं का सम्मान करना चाहिए; Perplexity के इस अवलोकित व्यवहार ने इन सिद्धांतों का उल्लंघन किया
  • इसी कारण Cloudflare ने Perplexity को आधिकारिक प्रमाणित बॉट सूची से निकाला और स्टेल्थ क्रॉलर डिटेक्शन/ब्लॉक के लिए अतिरिक्त प्रबंधन नियम लागू किए

प्रयोग और खोज उदाहरण

  • Cloudflare ने Perplexity के क्रॉलिंग व्यवहार की जाँच करने के लिए एक नया डोमेन बनाया
    • robots.txt में सभी स्वचालित एक्सेस पर प्रतिबंध लगाया और WAF नियम जोड़े गए
    • Perplexity के आधिकारिक User Agent और IP को ब्लॉक करने के बाद भी, उसने फिर भी अपनी पहचान छिपाकर साइट सामग्री एकत्र करने का प्रयास किया
  • Perplexity ने दोनों प्रकार के User Agent से कंटेंट एक्सेस की कोशिश की: आधिकारिक और स्टेल्थ दोनों; स्टेल्थ वाला वास्तविक ब्राउज़र (Chrome) की तरह दिखने की कोशिश करता है
वर्ग User Agent उदाहरण दैनिक अनुरोध मात्रा
आधिकारिक Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Perplexity-User/1.0; +https://perplexity.ai/perplexity-user) 20,000,000~25,000,000
गुप्त Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36 3,000,000~6,000,000
  • कई IP और ASN उपयोग में लिए गए जो आधिकारिक IP रेंज का हिस्सा नहीं थे, और लगातार IP बदलकर ब्लॉक नीतियों को चकमा देने की कोशिश की गई
  • परिणामस्वरूप, दसियों हजारों डोमेन और लाखों अनुरोधों में यह गतिविधि पहचानी गई; Cloudflare ने machine learning और network signals के आधार पर इस क्रॉलर को टैग किया

स्टेल्थ क्रॉलर बायपास केस और सीमाएँ

  • जब स्टेल्थ क्रॉलर को ब्लॉक किया जाता है, तो Perplexity अन्य वेबसाइटों जैसे बाहरी स्रोतों का उपयोग करके उत्तर देने की कोशिश करती है
  • हालाँकि, इस स्थिति में सामग्री की गहराई/विवरण उल्लेखनीय रूप से घटता दिखा

जिम्मेदार बॉट ऑपरेटर मानक और OpenAI की बेहतरीन प्रथाएँ

  • अच्छी तरह संचालित बॉट में पारदर्शिता, पहचान की स्पष्टता, गतिविधि उद्देश्य का सार्वजनिक खुलासा, प्रत्येक गतिविधि के लिए अलग क्रॉलर का उपयोग और वेबमास्टर नियमों (robots.txt आदि) के अनुपालन जैसे मानक होने चाहिए
  • OpenAI आधिकारिक IP, User Agent और क्रॉलर गतिविधि उद्देश्य पारदर्शी तरीके से देता है तथा robots.txt का सख्ती से पालन करता है
  • वास्तविक परीक्षणों में ChatGPT क्रॉलर ने भी disallow सेटिंग या नेटवर्क ब्लॉक मिलने पर अतिरिक्त क्रॉलिंग प्रयास बंद कर दिए
  • Web Bot Auth जैसे मानकीकृत ऑथेंटिकेशन तंत्र भी सक्रिय रूप से अपनाए जा रहे हैं

सुरक्षा उपाय और प्रतिक्रिया

  • Perplexity के अघोषित User Agent से होने वाली सभी क्रॉलिंग को Cloudflare के बॉट प्रबंधन सिस्टम में डिटेक्ट करके ब्लॉक किया गया है
  • Cloudflare की मौजूदा बॉट ब्लॉकिंग या challenge नियम सक्रिय करने वाले ग्राहक पहले से ही सुरक्षित हैं
  • स्टेल्थ क्रॉलर ब्लॉक करने वाली एडमिनिस्ट्रेटर नियम सभी ग्राहकों (फ्री ग्राहकों सहित) को उपलब्ध कराई गई है
  • Content Independence Day के बाद 2,500,000 से अधिक वेबसाइटों ने AI क्रॉलिंग प्रतिबंध नीति लागू की
  • बॉट ऑपरेटरों के लगातार बदलते evasion प्रयासों के अनुरूप Cloudflare भी अपनी प्रतिक्रिया प्रणाली और तकनीकों को लगातार विकसित कर रहा है

नीति प्रयास और आगे की दिशा

  • Cloudflare वैश्विक टेक्नोलॉजी और नीति विशेषज्ञों, IETF आदि के साथ मिलकर robots.txt एक्सटेंशन के मानकीकरण पर सक्रिय रूप से काम कर रहा है
  • भरोसेमंद क्रॉलर नियम स्थापित करने और तेजी से बदलते AI एवं क्रॉलर वातावरण में पारदर्शिता और कॉम्प्लायंस पर जोर देने की दिशा में आगे बढ़ रहा है

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.