- Cloudflare ने Browser Rendering के नए /crawl endpoint को open beta में पेश किया है, जो सिर्फ एक API कॉल के साथ पूरी वेबसाइट को crawl कर सकता है
- शुरुआती URL सबमिट करने पर यह अपने-आप पेजों को खोजता है, headless browser से render करता है, और नतीजे HTML, Markdown, JSON फ़ॉर्मेट में लौटाता है
- Workers AI आधारित structured JSON output, crawl depth, page count limit, wildcard pattern जैसे scope control फीचर के साथ incremental crawling, static mode जैसी कई क्षमताएँ देता है
- यह robots.txt नियमों का पालन करता है और असामान्य ट्रैफ़िक रोकने के लिए crawl-delay को भी सपोर्ट करता है
- इसे model training, RAG pipeline बनाने, और पूरे साइट-स्तर पर content research व monitoring में इस्तेमाल किया जा सकता है
/crawl endpoint का अवलोकन
- Cloudflare की Browser Rendering सेवा में नया जोड़ा गया /crawl endpoint एक ही API कॉल के साथ पूरी वेबसाइट को एक्सप्लोर कर content इकट्ठा करने की सुविधा देता है
- उपयोगकर्ता जब शुरुआती URL सबमिट करता है, तो सिस्टम अपने-आप लिंक फॉलो करता है, पेज render करता है और नतीजे लौटाता है
- return फ़ॉर्मेट के तौर पर HTML, Markdown, structured JSON में से चुना जा सकता है
- यह फीचर open beta में उपलब्ध है और Workers Free तथा Paid प्लान दोनों में इस्तेमाल किया जा सकता है
- crawl जॉब asynchronous तरीके से चलती है
- URL सबमिट करने पर job ID मिलता है, और बाद में प्रोसेस पूरा होने पर नतीजे देखे जा सकते हैं
- पेज एक-एक करके प्रोसेस होते हैं, इसलिए पूरे हुए नतीजों को चरणबद्ध तरीके से देखा जा सकता है
प्रमुख फीचर
- कई output फ़ॉर्मेट का सपोर्ट
- HTML, Markdown, JSON जैसे अलग-अलग फ़ॉर्मेट में नतीजे लौटाए जाते हैं
- JSON फ़ॉर्मेट Workers AI के ज़रिए structured data के रूप में दिया जाता है
- crawl scope controls
- crawl depth, page count limit, URL pattern include/exclude settings सेट किए जा सकते हैं
- automatic page discovery
- sitemap, page links, या दोनों के आधार पर URL अपने-आप खोजे जा सकते हैं
- incremental crawling
modifiedSince और maxAge पैरामीटर का उपयोग करके बिना बदले हुए पेजों को स्किप किया जा सकता है, जिससे समय और लागत बचती है
- static mode
render: false सेट करने पर browser चलाए बिना सिर्फ static HTML लाया जाता है, जिससे static साइटों की तेज़ crawling संभव होती है
- well-behaved bot
- यह robots.txt के निर्देशों का पालन करता है और crawl-delay सेटिंग को भी पहचानता है
उपयोग और संदर्भ दस्तावेज़
उपलब्ध प्लान
- Workers Free तथा Paid प्लान दोनों में उपलब्ध
अभी कोई टिप्पणी नहीं है.