11 पॉइंट द्वारा GN⁺ 2026-03-11 | 5 टिप्पणियां | WhatsApp पर शेयर करें
  • Cloudflare ने Browser Rendering के नए /crawl endpoint को open beta में पेश किया है, जो सिर्फ एक API कॉल के साथ पूरी वेबसाइट को crawl कर सकता है
  • शुरुआती URL सबमिट करने पर यह अपने-आप पेजों को खोजता है, headless browser से render करता है, और नतीजे HTML, Markdown, JSON फ़ॉर्मेट में लौटाता है
  • Workers AI आधारित structured JSON output, crawl depth, page count limit, wildcard pattern जैसे scope control फीचर के साथ incremental crawling, static mode जैसी कई क्षमताएँ देता है
  • यह robots.txt नियमों का पालन करता है और असामान्य ट्रैफ़िक रोकने के लिए crawl-delay को भी सपोर्ट करता है
  • इसे model training, RAG pipeline बनाने, और पूरे साइट-स्तर पर content research व monitoring में इस्तेमाल किया जा सकता है

/crawl endpoint का अवलोकन

  • Cloudflare की Browser Rendering सेवा में नया जोड़ा गया /crawl endpoint एक ही API कॉल के साथ पूरी वेबसाइट को एक्सप्लोर कर content इकट्ठा करने की सुविधा देता है
    • उपयोगकर्ता जब शुरुआती URL सबमिट करता है, तो सिस्टम अपने-आप लिंक फॉलो करता है, पेज render करता है और नतीजे लौटाता है
    • return फ़ॉर्मेट के तौर पर HTML, Markdown, structured JSON में से चुना जा सकता है
  • यह फीचर open beta में उपलब्ध है और Workers Free तथा Paid प्लान दोनों में इस्तेमाल किया जा सकता है
  • crawl जॉब asynchronous तरीके से चलती है
    • URL सबमिट करने पर job ID मिलता है, और बाद में प्रोसेस पूरा होने पर नतीजे देखे जा सकते हैं
    • पेज एक-एक करके प्रोसेस होते हैं, इसलिए पूरे हुए नतीजों को चरणबद्ध तरीके से देखा जा सकता है

प्रमुख फीचर

  • कई output फ़ॉर्मेट का सपोर्ट
    • HTML, Markdown, JSON जैसे अलग-अलग फ़ॉर्मेट में नतीजे लौटाए जाते हैं
    • JSON फ़ॉर्मेट Workers AI के ज़रिए structured data के रूप में दिया जाता है
  • crawl scope controls
    • crawl depth, page count limit, URL pattern include/exclude settings सेट किए जा सकते हैं
  • automatic page discovery
    • sitemap, page links, या दोनों के आधार पर URL अपने-आप खोजे जा सकते हैं
  • incremental crawling
    • modifiedSince और maxAge पैरामीटर का उपयोग करके बिना बदले हुए पेजों को स्किप किया जा सकता है, जिससे समय और लागत बचती है
  • static mode
    • render: false सेट करने पर browser चलाए बिना सिर्फ static HTML लाया जाता है, जिससे static साइटों की तेज़ crawling संभव होती है
  • well-behaved bot
    • यह robots.txt के निर्देशों का पालन करता है और crawl-delay सेटिंग को भी पहचानता है

उपयोग और संदर्भ दस्तावेज़

  • यह endpoint model training data collection, RAG pipeline निर्माण, और site content research व monitoring के लिए उपयोगी है
  • उपयोगकर्ता कॉन्फ़िगरेशन के लिए crawl endpoint दस्तावेज़ देख सकते हैं
  • अगर अपनी साइट को crawling target बनाना है, तो robots.txt और sitemap best practices की समीक्षा करनी चाहिए

उपलब्ध प्लान

  • Workers Free तथा Paid प्लान दोनों में उपलब्ध

5 टिप्पणियां

 
hmmhmmhm 2026-03-11

मैंने इसे हल्के तौर पर इस्तेमाल करके देखा, लेकिन लगता है कि यह bot blocking को बायपास नहीं कर पाता। अभी के लिए तो मैं apify या zyte को ही ज़्यादा पसंद करूँगा.. haha

 
xguru 2026-03-11

क्या यह Cloudflare की bot blocking feature को भी bypass कर देता है?
क्या ये तलवार भी बेच रहे हैं और ढाल भी??
कुछ अजीब लग रहा है हाह

 
eoeoe 2026-03-12

लगता है अब तो सबके लिए Monopoly शुरू हो गया है lol
किसी कार्ड को डिफेंड करने वाली, किसी क्षमता को nullify करने वाली, किसी special ability की....

 
cnaa97 2026-03-11

हाहाहा, कुछ तो मज़ेदार लग रहा है।

 
GN⁺ 2026-03-11
Hacker News टिप्पणियाँ
  • मेरे अनुभव में Cloudflare से सुरक्षित पेजों पर यह काम नहीं करता
    अफ़सोस की बात है कि यह अपनी ही समस्या बनाकर फिर उसका समाधान बेचने जैसा है

    • अगर Azure की bot protection ही पार हो जाए, तो शायद ठीक हो सकता है
  • यह हैरानी की बात है कि Cloudflare proxy इस्तेमाल करने वाली वेबसाइटों के पहले से scrape किए गए versions होस्ट नहीं करता
    उदाहरण के लिए https://www.example.com/cdn-cgi/cached-contents.json जैसी किसी form में दिया जा सकता था, क्योंकि content पहले से cache में है, इसलिए अलग scraping service या API से होकर जाने की ज़रूरत नहीं होनी चाहिए
    बेशक ऐसा न करने के कारण होंगे, लेकिन इसे default option के रूप में न देना फिर भी चौंकाता है

    • इस तरह के cache dump को public करना, मूल source की privacy और copyright assumptions को पूरी तरह तोड़ देता है
      access control लगाया जा सकता है, लेकिन तब वह आखिरकार ऐसा complex CDN API बन जाएगा जो किसी ने नहीं माँगा, और कानूनी समस्याएँ भी पैदा होंगी
      “सुविधाजनक JSON” से “AI scrapers को पूरी साइट सौंप देना” तक बस बहुत छोटा फ़ासला है
    • JSON conversion में CPU लगता है, और अगर result को store किया जाए तो cache space दोगुना बढ़ जाता है
      केवल request आने पर conversion करने से origin requests कम किए जा सकते हैं और cache efficiency भी बनी रहती है
      जब मैं CDN में काम करता था, तो cache hit rate बढ़ाने के लिए ‘second hit caching’ इस्तेमाल करता था — यानी cache में तभी store करना जब दूसरी request आए
    • यह बिल्कुल वही नहीं है, लेकिन Cloudflare पहले से मिलती-जुलती feature दे रहा है
      Markdown for Agents feature चालू करने पर, जब AI system text/markdown request करता है, तो HTML को real time में Markdown में convert कर देता है
    • असल में, मुमकिन है कि अंदर ही अंदर वे पहले से ही public content को cache-based तरीके से serve कर रहे हों
    • हालांकि यह तरीका साधारण साइटों पर चल सकता है, लेकिन SPA जैसी complex sites के लिए अभी भी browser rendering वाली scraping service की ज़रूरत पड़ेगी
  • Cloudflare का scraping defense बेचना और साथ ही scraping service भी बेचना कुछ माफिया जैसा लगता है
    यह इंटरनेट भर में उसके प्रभाव की वजह से संभव है

    • ऐसा नहीं है। official docs में समझाया गया है
    • मुफ्त DNS तो पूरे business का सिर्फ एक हिस्सा है, असली ताकत caching·routing·DDoS defense services में है
      DNS data collection और ‘अच्छी छवि’ के लिए है
    • उन्होंने सिर्फ scraping defense नहीं बेचा, बल्कि web-based DDoS defense बेचा है
    • लगता है Cloudflare publishers और AI कंपनियों के बीच broker बनना चाहता है
      ढाँचा ऐसा होगा कि publisher Cloudflare के पीछे होंगे, और AI कंपनियाँ अगर data चाहें तो Cloudflare के ज़रिए paid access लेंगी
      मुख्य customer आम users नहीं, बल्कि AI कंपनियाँ हैं
    • /crawl endpoint robots.txt का सम्मान करता है
      यानी crawling के लिए मना किए गए URL response में "status": "disallowed" के रूप में दिखते हैं
  • structured crawl endpoint expose करना robots.txt या sitemap की स्वाभाविक अगली कड़ी जैसा लगता है
    अगर और ज़्यादा साइटें ऐसे machine-readable entry points दें, तो indexing बहुत अधिक efficient हो जाएगी
    अभी crawlers बार-बार वही structure फिर से खोजते रहते हैं, जिससे काफ़ी बर्बादी होती है

    • अगर REST का लगातार इस्तेमाल हुआ होता, तो indexing में बर्बादी काफ़ी कम होती
      मैं APIs को human-centered design के साथ बनाना पसंद करता हूँ, और LLM providers उस पर optimization करें, यह बेहतर लगता है
    • असल में semantic HTML पहले से वही भूमिका निभा रहा है
      HTML और DOM मूल रूप से machines के पढ़ने के लिए बना structure हैं
      कुछ नया invent करने की जगह, मौजूदा tech का सही इस्तेमाल करना चाहिए
    • inefficient crawling से फ़ायदा सिर्फ anti-bot solution vendors को होता है
    • लेकिन ऐसा ढाँचा supply chain attacks को और बदतर बना सकता है
      इसका दुरुपयोग इस तरह हो सकता है कि इंसानों को एक normal page दिखे और bots को दूसरा
    • आखिरकार crawlers और इंसानों को अलग content दिखाना बुनियादी समस्याएँ पैदा करता है
  • इसे web archiving के लिए इस्तेमाल किया जा सकता था, इसलिए WARC format support न होना अफ़सोसजनक है
    यह पत्रकारों या शोधकर्ताओं के लिए उपयोगी होता

  • origin server अभी भी Cloudflare की Browser Rendering requests को detect और block कर सकता है
    CF-Worker header से इन्हें पहचाना जा सकता है, और WAF rules या middleware में filter किया जा सकता है
    लेकिन ये requests Cloudflare ASN 13335 से आती हैं और इनका bot score कम होता है, इसलिए simple score-based defenses काम नहीं करेंगी
    आखिरकार application-level rate limiting और behavior analysis ज़्यादा असरदार हैं
    एक structural conflict मौजूद है, लेकिन यह कुछ वैसा ही है जैसे search engines webmasters को tools देते हैं

    • वे robots.txt का पालन करते हैं, इसलिए वही सबसे आसान तरीका है
  • मैं सोच रहा था कि यह crawler bot-blocking logic के आगे चलता है या पीछे

    • आगे चलता है — official docs देखें
  • मैंने सोचा था कि अच्छा होता अगर मैं अपनी साइट का well-crawled version दे पाता
    अगर site admins को ऐसी सुविधा दी जाए, तो crawlers सिर्फ transfer cost देकर उसे access कर सकते थे
    शायद इसे ऐसे implement किया जा सकता है कि मेरी अपनी साइट पर crawl job चलाया जाए और फिर static. subdomain पर serve किया जाए

    • लेकिन मुझे ठीक से समझ नहीं आता कि उसका use case क्या होगा
      अगर साइट static है, तो बस उसे HTML में render करके host किया जा सकता है, और अगर dynamic है, तो snapshot का मतलब कितना होगा यह संदिग्ध है
      caching जोड़ना शायद बेहतर तरीका हो सकता है
  • ऐसा लगता है कि Cloudflare आजकल सारे cool features ले जा रहा है
    पता नहीं AWS क्या कर रहा है

  • यह feature वाकई प्रभावशाली है
    लगता है Cloudflare भविष्य की दिशा में पहले से बढ़ रहा है