Cloudflare का /crawl, एक ही API कॉल में पूरी वेबसाइट क्रॉलिंग का सपोर्ट
(developers.cloudflare.com)- Cloudflare ने Browser Rendering के नए /crawl endpoint को open beta में पेश किया है, जो सिर्फ एक API कॉल के साथ पूरी वेबसाइट को crawl कर सकता है
- शुरुआती URL सबमिट करने पर यह अपने-आप पेजों को खोजता है, headless browser से render करता है, और नतीजे HTML, Markdown, JSON फ़ॉर्मेट में लौटाता है
- Workers AI आधारित structured JSON output, crawl depth, page count limit, wildcard pattern जैसे scope control फीचर के साथ incremental crawling, static mode जैसी कई क्षमताएँ देता है
- यह robots.txt नियमों का पालन करता है और असामान्य ट्रैफ़िक रोकने के लिए crawl-delay को भी सपोर्ट करता है
- इसे model training, RAG pipeline बनाने, और पूरे साइट-स्तर पर content research व monitoring में इस्तेमाल किया जा सकता है
/crawl endpoint का अवलोकन
- Cloudflare की Browser Rendering सेवा में नया जोड़ा गया /crawl endpoint एक ही API कॉल के साथ पूरी वेबसाइट को एक्सप्लोर कर content इकट्ठा करने की सुविधा देता है
- उपयोगकर्ता जब शुरुआती URL सबमिट करता है, तो सिस्टम अपने-आप लिंक फॉलो करता है, पेज render करता है और नतीजे लौटाता है
- return फ़ॉर्मेट के तौर पर HTML, Markdown, structured JSON में से चुना जा सकता है
- यह फीचर open beta में उपलब्ध है और Workers Free तथा Paid प्लान दोनों में इस्तेमाल किया जा सकता है
- crawl जॉब asynchronous तरीके से चलती है
- URL सबमिट करने पर job ID मिलता है, और बाद में प्रोसेस पूरा होने पर नतीजे देखे जा सकते हैं
- पेज एक-एक करके प्रोसेस होते हैं, इसलिए पूरे हुए नतीजों को चरणबद्ध तरीके से देखा जा सकता है
प्रमुख फीचर
- कई output फ़ॉर्मेट का सपोर्ट
- HTML, Markdown, JSON जैसे अलग-अलग फ़ॉर्मेट में नतीजे लौटाए जाते हैं
- JSON फ़ॉर्मेट Workers AI के ज़रिए structured data के रूप में दिया जाता है
- crawl scope controls
- crawl depth, page count limit, URL pattern include/exclude settings सेट किए जा सकते हैं
- automatic page discovery
- sitemap, page links, या दोनों के आधार पर URL अपने-आप खोजे जा सकते हैं
- incremental crawling
modifiedSinceऔरmaxAgeपैरामीटर का उपयोग करके बिना बदले हुए पेजों को स्किप किया जा सकता है, जिससे समय और लागत बचती है
- static mode
render: falseसेट करने पर browser चलाए बिना सिर्फ static HTML लाया जाता है, जिससे static साइटों की तेज़ crawling संभव होती है
- well-behaved bot
- यह robots.txt के निर्देशों का पालन करता है और crawl-delay सेटिंग को भी पहचानता है
उपयोग और संदर्भ दस्तावेज़
- यह endpoint model training data collection, RAG pipeline निर्माण, और site content research व monitoring के लिए उपयोगी है
- उपयोगकर्ता कॉन्फ़िगरेशन के लिए crawl endpoint दस्तावेज़ देख सकते हैं
- अगर अपनी साइट को crawling target बनाना है, तो robots.txt और sitemap best practices की समीक्षा करनी चाहिए
उपलब्ध प्लान
- Workers Free तथा Paid प्लान दोनों में उपलब्ध
5 टिप्पणियां
मैंने इसे हल्के तौर पर इस्तेमाल करके देखा, लेकिन लगता है कि यह bot blocking को बायपास नहीं कर पाता। अभी के लिए तो मैं apify या zyte को ही ज़्यादा पसंद करूँगा.. haha
क्या यह Cloudflare की bot blocking feature को भी bypass कर देता है?
क्या ये तलवार भी बेच रहे हैं और ढाल भी??
कुछ अजीब लग रहा है हाह
लगता है अब तो सबके लिए Monopoly शुरू हो गया है lol
किसी कार्ड को डिफेंड करने वाली, किसी क्षमता को nullify करने वाली, किसी special ability की....
हाहाहा, कुछ तो मज़ेदार लग रहा है।
Hacker News टिप्पणियाँ
मेरे अनुभव में Cloudflare से सुरक्षित पेजों पर यह काम नहीं करता
अफ़सोस की बात है कि यह अपनी ही समस्या बनाकर फिर उसका समाधान बेचने जैसा है
यह हैरानी की बात है कि Cloudflare proxy इस्तेमाल करने वाली वेबसाइटों के पहले से scrape किए गए versions होस्ट नहीं करता
उदाहरण के लिए https://www.example.com/cdn-cgi/cached-contents.json जैसी किसी form में दिया जा सकता था, क्योंकि content पहले से cache में है, इसलिए अलग scraping service या API से होकर जाने की ज़रूरत नहीं होनी चाहिए
बेशक ऐसा न करने के कारण होंगे, लेकिन इसे default option के रूप में न देना फिर भी चौंकाता है
access control लगाया जा सकता है, लेकिन तब वह आखिरकार ऐसा complex CDN API बन जाएगा जो किसी ने नहीं माँगा, और कानूनी समस्याएँ भी पैदा होंगी
“सुविधाजनक JSON” से “AI scrapers को पूरी साइट सौंप देना” तक बस बहुत छोटा फ़ासला है
केवल request आने पर conversion करने से origin requests कम किए जा सकते हैं और cache efficiency भी बनी रहती है
जब मैं CDN में काम करता था, तो cache hit rate बढ़ाने के लिए ‘second hit caching’ इस्तेमाल करता था — यानी cache में तभी store करना जब दूसरी request आए
Markdown for Agents feature चालू करने पर, जब AI system
text/markdownrequest करता है, तो HTML को real time में Markdown में convert कर देता हैCloudflare का scraping defense बेचना और साथ ही scraping service भी बेचना कुछ माफिया जैसा लगता है
यह इंटरनेट भर में उसके प्रभाव की वजह से संभव है
DNS data collection और ‘अच्छी छवि’ के लिए है
ढाँचा ऐसा होगा कि publisher Cloudflare के पीछे होंगे, और AI कंपनियाँ अगर data चाहें तो Cloudflare के ज़रिए paid access लेंगी
मुख्य customer आम users नहीं, बल्कि AI कंपनियाँ हैं
/crawlendpointrobots.txtका सम्मान करता हैयानी crawling के लिए मना किए गए URL response में
"status": "disallowed"के रूप में दिखते हैंstructured crawl endpoint expose करना
robots.txtयाsitemapकी स्वाभाविक अगली कड़ी जैसा लगता हैअगर और ज़्यादा साइटें ऐसे machine-readable entry points दें, तो indexing बहुत अधिक efficient हो जाएगी
अभी crawlers बार-बार वही structure फिर से खोजते रहते हैं, जिससे काफ़ी बर्बादी होती है
मैं APIs को human-centered design के साथ बनाना पसंद करता हूँ, और LLM providers उस पर optimization करें, यह बेहतर लगता है
HTML और DOM मूल रूप से machines के पढ़ने के लिए बना structure हैं
कुछ नया invent करने की जगह, मौजूदा tech का सही इस्तेमाल करना चाहिए
इसका दुरुपयोग इस तरह हो सकता है कि इंसानों को एक normal page दिखे और bots को दूसरा
इसे web archiving के लिए इस्तेमाल किया जा सकता था, इसलिए WARC format support न होना अफ़सोसजनक है
यह पत्रकारों या शोधकर्ताओं के लिए उपयोगी होता
origin server अभी भी Cloudflare की Browser Rendering requests को detect और block कर सकता है
CF-Workerheader से इन्हें पहचाना जा सकता है, और WAF rules या middleware में filter किया जा सकता हैलेकिन ये requests Cloudflare ASN 13335 से आती हैं और इनका bot score कम होता है, इसलिए simple score-based defenses काम नहीं करेंगी
आखिरकार application-level rate limiting और behavior analysis ज़्यादा असरदार हैं
एक structural conflict मौजूद है, लेकिन यह कुछ वैसा ही है जैसे search engines webmasters को tools देते हैं
robots.txtका पालन करते हैं, इसलिए वही सबसे आसान तरीका हैमैं सोच रहा था कि यह crawler bot-blocking logic के आगे चलता है या पीछे
मैंने सोचा था कि अच्छा होता अगर मैं अपनी साइट का well-crawled version दे पाता
अगर site admins को ऐसी सुविधा दी जाए, तो crawlers सिर्फ transfer cost देकर उसे access कर सकते थे
शायद इसे ऐसे implement किया जा सकता है कि मेरी अपनी साइट पर crawl job चलाया जाए और फिर
static.subdomain पर serve किया जाएअगर साइट static है, तो बस उसे HTML में render करके host किया जा सकता है, और अगर dynamic है, तो snapshot का मतलब कितना होगा यह संदिग्ध है
caching जोड़ना शायद बेहतर तरीका हो सकता है
ऐसा लगता है कि Cloudflare आजकल सारे cool features ले जा रहा है
पता नहीं AWS क्या कर रहा है
यह feature वाकई प्रभावशाली है
लगता है Cloudflare भविष्य की दिशा में पहले से बढ़ रहा है