• Cloudflare ने Browser Rendering के नए /crawl endpoint को open beta में पेश किया है, जो सिर्फ एक API कॉल के साथ पूरी वेबसाइट को crawl कर सकता है
  • शुरुआती URL सबमिट करने पर यह अपने-आप पेजों को खोजता है, headless browser से render करता है, और नतीजे HTML, Markdown, JSON फ़ॉर्मेट में लौटाता है
  • Workers AI आधारित structured JSON output, crawl depth, page count limit, wildcard pattern जैसे scope control फीचर के साथ incremental crawling, static mode जैसी कई क्षमताएँ देता है
  • यह robots.txt नियमों का पालन करता है और असामान्य ट्रैफ़िक रोकने के लिए crawl-delay को भी सपोर्ट करता है
  • इसे model training, RAG pipeline बनाने, और पूरे साइट-स्तर पर content research व monitoring में इस्तेमाल किया जा सकता है

/crawl endpoint का अवलोकन

  • Cloudflare की Browser Rendering सेवा में नया जोड़ा गया /crawl endpoint एक ही API कॉल के साथ पूरी वेबसाइट को एक्सप्लोर कर content इकट्ठा करने की सुविधा देता है
    • उपयोगकर्ता जब शुरुआती URL सबमिट करता है, तो सिस्टम अपने-आप लिंक फॉलो करता है, पेज render करता है और नतीजे लौटाता है
    • return फ़ॉर्मेट के तौर पर HTML, Markdown, structured JSON में से चुना जा सकता है
  • यह फीचर open beta में उपलब्ध है और Workers Free तथा Paid प्लान दोनों में इस्तेमाल किया जा सकता है
  • crawl जॉब asynchronous तरीके से चलती है
    • URL सबमिट करने पर job ID मिलता है, और बाद में प्रोसेस पूरा होने पर नतीजे देखे जा सकते हैं
    • पेज एक-एक करके प्रोसेस होते हैं, इसलिए पूरे हुए नतीजों को चरणबद्ध तरीके से देखा जा सकता है

प्रमुख फीचर

  • कई output फ़ॉर्मेट का सपोर्ट
    • HTML, Markdown, JSON जैसे अलग-अलग फ़ॉर्मेट में नतीजे लौटाए जाते हैं
    • JSON फ़ॉर्मेट Workers AI के ज़रिए structured data के रूप में दिया जाता है
  • crawl scope controls
    • crawl depth, page count limit, URL pattern include/exclude settings सेट किए जा सकते हैं
  • automatic page discovery
    • sitemap, page links, या दोनों के आधार पर URL अपने-आप खोजे जा सकते हैं
  • incremental crawling
    • modifiedSince और maxAge पैरामीटर का उपयोग करके बिना बदले हुए पेजों को स्किप किया जा सकता है, जिससे समय और लागत बचती है
  • static mode
    • render: false सेट करने पर browser चलाए बिना सिर्फ static HTML लाया जाता है, जिससे static साइटों की तेज़ crawling संभव होती है
  • well-behaved bot
    • यह robots.txt के निर्देशों का पालन करता है और crawl-delay सेटिंग को भी पहचानता है

उपयोग और संदर्भ दस्तावेज़

  • यह endpoint model training data collection, RAG pipeline निर्माण, और site content research व monitoring के लिए उपयोगी है
  • उपयोगकर्ता कॉन्फ़िगरेशन के लिए crawl endpoint दस्तावेज़ देख सकते हैं
  • अगर अपनी साइट को crawling target बनाना है, तो robots.txt और sitemap best practices की समीक्षा करनी चाहिए

उपलब्ध प्लान

  • Workers Free तथा Paid प्लान दोनों में उपलब्ध

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.