3 पॉइंट द्वारा GN⁺ 2025-07-03 | 2 टिप्पणियां | WhatsApp पर शेयर करें
  • Cloudflare ने A.I. डेटा scraper को डिफ़ॉल्ट रूप से ब्लॉक करने वाली नई सेटिंग पेश की है
  • वेबसाइट मालिक अनुमति दिए बिना AI bots की crawling अपने-आप ब्लॉक कर सकते हैं
  • AI model training के लिए ज़रूरी high-quality data के संग्रह से जुड़े इंटरनेट content protection की भूमिका को यह और मज़बूत करता है
  • content creators और media बिना अनुमति data use को लेकर लगातार चिंता जताते रहे हैं
  • AI कंपनियों और content owners के बीच कानूनी विवाद लगातार अधिक आम होते जा रहे हैं

Cloudflare ने AI डेटा scraper के लिए डिफ़ॉल्ट ब्लॉकिंग फीचर पेश किया

  • Cloudflare एक टेक कंपनी है जो online traffic management और security services प्रदान करती है
  • हाल के समय में AI कंपनियों द्वारा वेबसाइट डेटा बिना अनुमति इकट्ठा करने की घटनाएँ बढ़ने के बाद, Cloudflare ने ऐसा permission-based नया setting पेश किया है जिससे उसके ग्राहक अपने-आप AI डेटा scraper की पहुँच ब्लॉक कर सकते हैं

नई डिफ़ॉल्ट नीति और उसका बदलाव

  • इस नए फीचर के ज़रिए वेबसाइटें डिफ़ॉल्ट रूप से AI bots की automated crawling (scraping) को ब्लॉक कर सकती हैं
  • अगर data crawling की ज़रूरत हो, तो वेबसाइट मालिक को अलग से हाथ से access permission देनी होगी
  • पहले, ऐसे bots जिन्हें Cloudflare hacker या malicious actor नहीं मानता था, वे वेबसाइट की जानकारी स्वतंत्र रूप से इकट्ठा कर सकते थे

Cloudflare की नीति बदलने की वजह

  • Cloudflare के CEO Matthew Prince ने ज़ोर देकर कहा कि यह कदम "इंटरनेट पर मूल content की सुरक्षा और web publishers के अधिकारों को मज़बूत करने" के लिए है
  • अगर AI कंपनियाँ बिना अनुमति इंटरनेट data का उपयोग करती हैं, तो content creators के लिए नया content बनाने की प्रेरणा कम हो सकती है
  • Cloudflare network दुनिया भर के लगभग 20% internet traffic को संभालता है
  • हाल में वेब पर AI crawler activity तेज़ी से बढ़ी है, और यह नीति उसी के जवाब में लाई गई है

AI डेटा और उद्योग में बढ़ता टकराव

  • OpenAI, Anthropic, Google जैसी कंपनियों के बीच AI model development के लिए बड़े पैमाने पर data collection की प्रतिस्पर्धा काफ़ी तीव्र है
  • high-quality web data AI models की sophistication और output quality में अहम भूमिका निभाता है
  • इसके परिणामस्वरूप, वेबसाइट operators, news organizations और copyright holders बिना अनुमति data collection और बिना compensation के उपयोग पर आपत्ति जता रहे हैं

कानूनी विवाद बढ़ने के उदाहरण

  • जून 2025 में Reddit ने Anthropic के खिलाफ, और 2023 में The New York Times ने OpenAI और Microsoft के खिलाफ, AI training data के बिना अनुमति उपयोग और copyright infringement के आरोपों पर मुकदमे दायर किए
  • OpenAI और Microsoft इन copyright infringement दावों से इनकार कर रहे हैं

निष्कर्ष

  • Cloudflare की नई AI data collection डिफ़ॉल्ट ब्लॉकिंग नीति AI उद्योग और content owners के बीच data access और उपयोग के नैतिक तथा कानूनी मानकों पर बड़ा प्रभाव डालती है
  • यह नीति बदलाव AI ecosystem में content rights protection और prior consent के मानक स्थापित करने की दिशा में एक महत्वपूर्ण मोड़ बन रहा है.

2 टिप्पणियां

 
GN⁺ 2025-07-03
Hacker News राय
  • एक बात जिस पर लोग ज़्यादा ध्यान नहीं देते, वह यह है कि हम ऑनलाइन जो लगभग हर काम करते हैं, वह अब तक OpenAI, Anthropic जैसी कंपनियों को मुफ्त training data देने का ही काम करता रहा है, और इस प्रक्रिया में वास्तविक मूल्य बनाने वाले इंसान पीछे छूट जाते हैं। इस दिशा पर ज़ोर देना 100% सही लगता है, लेकिन इस समाधान को बहुत innovativе कहना मुश्किल है, और AI परजीवीपन के खिलाफ इससे कहीं अधिक innovation की ज़रूरत है—ऐसी उम्मीद जताई गई।
    • यह तर्क कि Cloudflare और ऐसी ही कंपनियाँ उल्टा इंटरनेट की आज़ादी को नुकसान पहुँचा रही हैं। असल में verification के नाम पर बहुत बार साइटें धीमी हो जाती हैं या block हो जाती हैं, जिससे 1998 जैसी धीमी loading का अनुभव होता है। अब ऐसा दौर बनता जा रहा है जहाँ केवल वही browser ठीक से चल पाते हैं जो ad companies को users को track और monetize करने देते हैं, और Cloudflare समस्या हल करने के बजाय बीच में घुसकर पैसा कमा रहा है और पूरे इंटरनेट अनुभव की quality गिरा रहा है—ऐसी आलोचना।
    • मैं ऑनलाइन लिखता हूँ क्योंकि मैं अपने विचार साझा करना चाहता हूँ, और यह AI training data के रूप में इस्तेमाल हो या कोई इंसान पढ़े, दोनों ही स्थिति में मैं संतुष्ट हूँ।
    • मेरा मानना है कि public internet data को AI training में स्वतंत्र रूप से इस्तेमाल करना 100% ठीक है। लेकिन इतनी तेज़ crawling कि छोटे websites चलाना मुश्किल हो जाए, यह बिल्कुल स्वीकार्य नहीं है, और इसे सच्चे अर्थों में commons की tragedy माना जा सकता है।
    • इस पर संदेह है कि Cloudflare सचमुच सारी AI data scraping को पूरी तरह रोक पाएगा। ऐसी कार्रवाइयाँ असल में crawling को कठिन और महँगा बना देंगी, जिससे रोज़ाना हर page को scrape कर publisher पर लागत डालने वाले व्यवहार को रोका जा सकेगा, लेकिन आखिरकार data किसी न किसी dataset में पहुँच ही जाएगा—ऐसी संभावना जताई गई।
  • मैंने यह feature चालू करके देखा, तो सिर्फ इतना पता चला कि robots.txt अपने-आप बदल जाता है। इसके अलावा और क्या होता है, यह स्पष्ट नहीं है। robots.txt file में कई AI bots और crawlers को block करने वाली settings जुड़ जाती हैं।
    • "User-agent: CCBot disallow: /" देखकर सवाल उठा कि क्या CCBot(Common Crawl) सिर्फ AI के लिए है। CCBot तो पहले से ही कई robots.txt में block होता आया है। क्या Common Crawl अपने content के इस्तेमाल के तरीके तक नियंत्रित कर सकता है? अगर CC fair use पर निर्भर करता है, तो license fee माँगने या secondary use की अनुमति देने जैसे अधिकार वास्तव में उसके पास हैं भी या नहीं—यह जिज्ञासा है। यह भी सवाल है कि क्या websites की terms अक्सर site operator को दूसरों के(user) content को LLM उपयोग के लिए re-license करने और revenue share करने की अनुमति देती हैं।
    • Cloudflare कहता है कि वह original content की सुरक्षा के लिए default settings बदल रहा है, लेकिन असल robots.txt guidance में अपवाद के रूप में 'AI RAG(Retrieval Augmented Generation)' उपयोग की अनुमति दी गई है। यह अजीब लगता है, क्योंकि language model training की तुलना में RAG लेखकों की कमाई को कहीं ज़्यादा real-time में नुकसान पहुँचा सकता है।
    • यह भी विचार है कि Google भी आखिरकार web indexing और AI training—दोनों के लिए data scrape करता है, और अंत में मजबूरन एक चुनाव थोप सकता है। अगर website operator AI training में सहयोग न करे और बदले में Google search visibility भी खोनी पड़े, तो यह बहुत पेचीदा दुविधा होगी।
    • मेरी निजी hobby sites में अगर user-agent में bot आता है और robots.txt, humans.txt, favicon.ico के अलावा कोई file माँगी जाती है, तो मैं 444 status (तुरंत connection बंद) लौटाता हूँ। ज़्यादातर search engines के CIDR blocks को blackhole कर देता हूँ। शायद इस तरह करने वाला मैं अकेला ही हूँ।
    • कुछ newspapers ने सिर्फ LLM crawlers ही नहीं, बल्कि ChatGPT search feature को भी साथ में block किया है, और उस तुलना में Cloudflare की setting कहीं अधिक तर्कसंगत default लगती है।
  • यह headline कुछ हद तक भ्रामक हो सकती है। अभी हुआ यह है कि Cloudflare इस्तेमाल करने वाली sites के लिए 'opt-in' तरीके से सभी AI bots को जल्दी block करना आसान हो गया है, लेकिन यह default नहीं है और न ही अपने-आप लागू होता है। यह बात कि Cloudflare चाहे तो इस तरह की blanket action मनमाने ढंग से कर सकता है, उसकी ताकत कितनी बड़ी है यह दिखाती है।
    • क्या यह सचमुच default नहीं है—ऐसा सवाल उठा। Cloudflare की official blog post में default setting बदलने का ज़िक्र है।
    • अब AI bots और websites के बीच संबंध शत्रुतापूर्ण हो चुका है। Cloudflare बस उस स्थिति पर प्रतिक्रिया दे रहा है। क्या DDoS defense भी इसी तरह का संदर्भ नहीं है—ऐसा सवाल।
    • लगता है Cloudflare ठीक-ठाक defense tools देने से ज़्यादा इंटरनेट को धीमा ही बनाता है। उसके challenges को मैं कभी आधे दिन से ज़्यादा नहीं रोक पाया। यह सब आखिरकार AI SEO के लिए intermediary market में उतरने का पहला कदम लगता है। Cloudflare का असली मकसद sites के लिए काम करना नहीं, बल्कि scraper और publisher के बीच commission लेने की कोशिश जैसा दिखता है। Cloudflare से नफ़रत है।
  • Cloudflare के जरिए serve होने वाला मेरा data usage 2 साल पहले 20gb था, जो अब 100gb हो गया है। असली visitors आधे से भी कम रह गए हैं, फिर भी traffic बढ़ा है। इससे लगता है कि Cloudflare resource cost घटाने के लिए इस तरह के कदम उठा रहा है।
    • बड़े traffic में bandwidth cost महँगी होती है—इस बात से सहमति।
  • HN पर अक्सर bot traffic के कारण websites धीमी होने की शिकायतें दिखती हैं, लेकिन एक site operator के रूप में यह मुझे आसानी से समझ नहीं आता। अगर default रूप से Cloudflare cache इस्तेमाल हो, तो ज़्यादातर traffic cache से serve हो जाएगा और server पर लगभग कोई load नहीं पड़ेगा। CPU और bandwidth cost भी आजकल काफ़ी सस्ते नहीं हैं क्या? लोग इतने संवेदनशील क्यों हैं—ऐसी जिज्ञासा।
    • मैं भी एक बड़ी site चलाता हूँ, जिसमें 10 भाषाओं में सैकड़ों हज़ार pages हैं, कुल मिलाकर कई million pages, और लगभग 1000 RPS तक जाता है। अगर AI crawler एक साथ 100~200 RPS कई IPs में बाँटकर भेजे और महँगे endpoints को केंद्रित ढंग से hit करे, तो मौजूदा bot-blocking उपायों से भी संभालना मुश्किल हो जाता है और DDoS जैसा असर पैदा होता है।
    • मैं भी AI traffic से site down होने का अनुभव कर चुका हूँ। Multi-layer cache होने पर भी, public API के कुछ बिना-auth वाले endpoints cache नहीं होते, और अगर इन्हें बार-बार hit किया जाए तो अंततः site गिर जाती है। अगर लाखों pages को बहुत कम समय में miss-cache के साथ एक साथ regenerate करना पड़े, तो requests जमा होते जाते हैं और errors आने लगते हैं; और errors के कारण cache पूरा नहीं बनता, जिससे एक बुरा चक्र शुरू हो जाता है। AI traffic अगर ऐसे endpoints को लगातार मारता रहे, तो समस्या बनी रहती है।
    • यह मान लेना ही समस्या है कि Cloudflare default रूप से इस्तेमाल होगा। क्या अब साधारण site चलाने के लिए भी यह अनिवार्य तत्व बन गया है—यह सवाल।
    • लोग जिन AI traffic समस्याओं की ओर ज़्यादा इशारा करते हैं, वे अक्सर उन crawlers से जुड़ी हैं जो date range के आधार पर सारे posts निकालने जैसे API endpoints को अंतहीन hit करते रहते हैं।
    • मुझे भी ऐसी तीखी प्रतिक्रिया कुछ अजीब लगती है, लेकिन poorly optimized sites के लिए AI crawlers से बच निकलना चाहना समझ में आता है। संबंधित tools में सबसे तेज़ी से और सबसे व्यापक रूप से फैलने वाला शायद Anubis checker लगता है github link। यह देखते हुए कि AI traffic distributed crawler होता है, collaborative limiting करने वाले open source software को और सक्रिय रूप से बढ़ने की ज़रूरत महसूस होती है। HTTP status code "420 Enhance Your Calm" जैसी प्रतिक्रिया web पर और ज़्यादा चाहिए—ऐसा उल्लेख संदर्भ लिंक
  • अगर AI कंपनियाँ बिना अनुमति कई websites का data इस्तेमाल करती रहीं, तो digital content बनाने की प्रेरणा खत्म हो जाएगी। अंततः AI की growth structure खुद दूसरी digital activities को नुकसान पहुँचाते हुए आख़िर में web को भी नष्ट कर देगी—ऐसी चिंता जताई गई। दिलचस्प बात यह है कि AI के लिए web खुद एक 'शिकार' जैसा है।
    • दुनिया भर में ad blocker usage rate 30% है, इसलिए digital content को नुकसान पहुँचाने वाला तर्क थोड़ा अधिक जटिल है—ऐसी राय।
    • अगर AI वह सब नहीं कर पाता जो वह अंततः करना चाहता है—यानी इंसानों के साथ विविध interactions और economic activities—तो AI के data resources भी आखिरकार खत्म हो जाएँगे।
    • जैसे आज capitalism का मुख्य exploitation target इंसान बन गया है, वैसे ही AI भी संरचनात्मक रूप से कुछ वैसी ही दिशा में बढ़ रहा है—ऐसा नज़रिया।
  • Cloudflare पहले से configured rules के जरिए robots.txt का पालन करने वाले और ईमानदारी से व्यवहार करने वाले AI bots या crawlers को पकड़ सकता है, लेकिन Perplexity जैसी कुछ कंपनियाँ पहले ही traffic को disguise कर रही हैं। ऐसे में सवाल है कि क्या यह block सिर्फ ईमानदार bots को ही नुकसान पहुँचाएगा और छिपाव को बढ़ावा देगा। यह arms race 20 साल पहले से चली आ रही है, कोई नई बात नहीं है। Cloudflare के global signals, bot scoring, और traffic fingerprinting की वजह से disguised AI bots को भी काफ़ी अच्छी तरह पहचाना जा सकता है—इस बारे में एक explanation link भी साझा किया गया blog.cloudflare.com संदर्भ
    • इस सवाल पर कि अगर सिर्फ ईमानदार और पारदर्शी bots को regulate किया जाएगा, तो क्या disguised crawling और नहीं बढ़ेगी—जवाब में कहा गया कि यह संघर्ष 20 साल से जारी है, इसलिए यह न तो पूरी तरह नई बात है, न ही इसका कोई नया अंतिम समाधान।
    • Super Bot Fight Mode का Block AI Bots option वास्तव में ज़्यादातर bot traffic हटाने में काफ़ी कारगर रहा, और यह robots.txt या user agent पर निर्भर नहीं था बल्कि traffic patterns के analysis पर आधारित था। इसकी वजह से मेरे tools को चलाने के लिए अलग से bypass rules की ज़रूरत पड़ी।
    • Cloudflare अच्छी तरह जानता है कि जिन users को वह पसंद नहीं करता, उनके लिए इंटरनेट इस्तेमाल करना कैसे बहुत मुश्किल बनाया जाए। अगर robots.txt के जरिए bots को malicious classify होने से रोका जाए, तो site-level पर कुछ allowance की गुंजाइश रहती है, लेकिन बाकी मामलों में Cloudflare अपनी ही processing पद्धति इस्तेमाल करेगा।
    • भारी मात्रा में scraping करने वाले AI bots को Cloudflare के नज़रिए से छिपाना वास्तव में मुश्किल है, क्योंकि fingerprinting और network-level signals के ज़रिए उनकी पहचान की जा सकती है। वास्तव में बड़ी कंपनियाँ Cloudflare के साथ सीधे संवाद में भी रहती हैं, इसलिए warning से लेकर response तक कई तरह के उपाय संभव होंगे—ऐसी संभावना।
  • क्या बड़ी AI कंपनियाँ सचमुच robots.txt का सम्मान करती हैं? शायद कुछ public crawlers ही नियम मानते हों; असल में तो पर्दे के पीछे छिपे तरीकों से crawling चल रही हो सकती है—ऐसा संदेह। उनके पास किताबें, images, यहाँ तक कि user data भी अवैध रूप से scrape करके इस्तेमाल करने का इतिहास है।
    • छोटे crawlers अक्सर खुद को बड़ी कंपनियों जैसा दिखाकर blocking से बचने की कोशिश करते हैं, इसलिए फर्क करना मुश्किल हो जाता है।
    • robots.txt का पालन आखिरकार एक परंपरा भर है; इस पर कोई खास कानूनी या तकनीकी मजबूरी नहीं है। Terms में robots.txt policy compliance की शर्त लिखी जा सकती है, लेकिन उसका वास्तविक असर कितना होगा—यह संदिग्ध है।
    • इस traffic का बड़ा हिस्सा शायद AI की सीधी scraping नहीं, बल्कि ऐसा हो सकता है कि कोई इंसान AI से सवाल पूछे और AI उसी समय internet पर research करने निकल पड़े। ऐसे browser-जैसे research उपयोग को robots.txt के दायरे में मानें या सिर्फ indexing के मामले में—यह भ्रम है।
    • Cloudflare की gatekeeper भूमिका बहुत पसंद नहीं आती, लेकिन AI कंपनियों पर वास्तविक प्रभाव डाल सकने वाली स्थिति में वही है।
  • फिलहाल block target AI bots की सूची बहुत छोटी है संदर्भ लिंक
    • Cloudflare के विवरण में Common Crawl(CCBot) को भी AI Bots के रूप में वर्गीकृत करके block option में रखा गया है। लेकिन Common Crawl वास्तव में सिर्फ AI bot नहीं, बल्कि एक open crawling infrastructure है संदर्भ लिंक
    • Cloudflare पूरे web traffic का विशाल अवलोकन करता है, इसलिए अभी पकड़ी गई bots की सूची शायद सबसे अधिक बार दिखने वालों पर केंद्रित है, और आगे नए bots मिलते रहेंगे तो जोड़े जाते रहेंगे। वास्तव में हर crawler को block करना असंभव होगा, लेकिन पूरे internet के पैमाने पर देखें तो Cloudflare जितने bots पहचानने वाली जगहें बहुत कम होंगी।
    • सिर्फ इस तरह की blocking से भी अधिकांश sites का traffic आधे से कम हो सकता है।
  • web के बड़े evolution—web2 की घेराबंदी, web3 की खोखली निराशा, और अब का दौर—लगातार community और knowledge repository की भूमिका से दूर जाने की दिशा में दिखते हैं। Quality और technology भले लगातार बेहतर हुई हों, लेकिन उतना ही बहुत कुछ खोया भी गया है।