Cloudflare का /crawl, एक ही API कॉल में पूरी वेबसाइट क्रॉलिंग का सपोर्ट

(developers.cloudflare.com)

11 पॉइंट द्वारा GN⁺ 2026-03-11 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

Cloudflare ने Browser Rendering के नए /crawl endpoint को open beta में पेश किया है, जो सिर्फ एक API कॉल के साथ पूरी वेबसाइट को crawl कर सकता है
शुरुआती URL सबमिट करने पर यह अपने-आप पेजों को खोजता है, headless browser से render करता है, और नतीजे HTML, Markdown, JSON फ़ॉर्मेट में लौटाता है
Workers AI आधारित structured JSON output, crawl depth, page count limit, wildcard pattern जैसे scope control फीचर के साथ incremental crawling, static mode जैसी कई क्षमताएँ देता है
यह robots.txt नियमों का पालन करता है और असामान्य ट्रैफ़िक रोकने के लिए crawl-delay को भी सपोर्ट करता है
इसे model training, RAG pipeline बनाने, और पूरे साइट-स्तर पर content research व monitoring में इस्तेमाल किया जा सकता है

/crawl endpoint का अवलोकन

Cloudflare की Browser Rendering सेवा में नया जोड़ा गया /crawl endpoint एक ही API कॉल के साथ पूरी वेबसाइट को एक्सप्लोर कर content इकट्ठा करने की सुविधा देता है
- उपयोगकर्ता जब शुरुआती URL सबमिट करता है, तो सिस्टम अपने-आप लिंक फॉलो करता है, पेज render करता है और नतीजे लौटाता है
- return फ़ॉर्मेट के तौर पर HTML, Markdown, structured JSON में से चुना जा सकता है
यह फीचर open beta में उपलब्ध है और Workers Free तथा Paid प्लान दोनों में इस्तेमाल किया जा सकता है
crawl जॉब asynchronous तरीके से चलती है
- URL सबमिट करने पर job ID मिलता है, और बाद में प्रोसेस पूरा होने पर नतीजे देखे जा सकते हैं
- पेज एक-एक करके प्रोसेस होते हैं, इसलिए पूरे हुए नतीजों को चरणबद्ध तरीके से देखा जा सकता है

प्रमुख फीचर

कई output फ़ॉर्मेट का सपोर्ट
- HTML, Markdown, JSON जैसे अलग-अलग फ़ॉर्मेट में नतीजे लौटाए जाते हैं
- JSON फ़ॉर्मेट Workers AI के ज़रिए structured data के रूप में दिया जाता है
crawl scope controls
- crawl depth, page count limit, URL pattern include/exclude settings सेट किए जा सकते हैं
automatic page discovery
- sitemap, page links, या दोनों के आधार पर URL अपने-आप खोजे जा सकते हैं
incremental crawling
- modifiedSince और maxAge पैरामीटर का उपयोग करके बिना बदले हुए पेजों को स्किप किया जा सकता है, जिससे समय और लागत बचती है
static mode
- render: false सेट करने पर browser चलाए बिना सिर्फ static HTML लाया जाता है, जिससे static साइटों की तेज़ crawling संभव होती है
well-behaved bot
- यह robots.txt के निर्देशों का पालन करता है और crawl-delay सेटिंग को भी पहचानता है

उपयोग और संदर्भ दस्तावेज़

यह endpoint model training data collection, RAG pipeline निर्माण, और site content research व monitoring के लिए उपयोगी है
उपयोगकर्ता कॉन्फ़िगरेशन के लिए crawl endpoint दस्तावेज़ देख सकते हैं
अगर अपनी साइट को crawling target बनाना है, तो robots.txt और sitemap best practices की समीक्षा करनी चाहिए

उपलब्ध प्लान

Workers Free तथा Paid प्लान दोनों में उपलब्ध

Cloudflare का /crawl, एक ही API कॉल में पूरी वेबसाइट क्रॉलिंग का सपोर्ट

/crawl endpoint का अवलोकन

प्रमुख फीचर

उपयोग और संदर्भ दस्तावेज़

उपलब्ध प्लान

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.