39 पॉइंट द्वारा xguru 2022-08-15 | 6 टिप्पणियां | WhatsApp पर शेयर करें

HN के सवाल के जवाब

  • Playwright : ऐसे वेबपेज अब बहुत बढ़ गए हैं जिनमें JS execution की ज़रूरत होती है, इसलिए browser automation टूल सुविधाजनक हैं
  • Beautiful Soup : तरह-तरह के scraping apps बनाने के लिए आसान Python package
  • shell में cURL + pup(markup)/cskit(CSV)/jq(JSON)/psql(DB)
  • Browserflow : वेब ब्राउज़र-आधारित task automation टूल
  • curl-impersonate : वेबसाइट को browser की तरह fetch करने वाला fork version
  • Helium : ज़्यादा उपयोग में आसान Selenium-Python
  • undetected_chromedriver : CloudFlare bot check को पार करने वाला custom Selenium Chromedriver
  • estela : Kubernetes पर चलने वाला elastic web scraping cluster

6 टिप्पणियां

 
yangeok 2022-08-24

मैंने सुना है कि puppeteer टीम के ms में समाहित हो जाने के बाद वही सीधे playwright बन गया।

 
youth 2022-08-15

Playwright, Scrapy जैसे टूल्स डेवलपर कंपनियों की तरफ़ से अच्छी तरह मेंटेन किए जाते हैं, इसलिए वे अच्छे लगते हैं.
व्यक्तिगत रूप से, मैं scrapy-playwright प्लगइन का काफ़ी इस्तेमाल करता हूँ.

 
vwjdalsgkv 2022-08-15

लगता है Peppeteer दिख नहीं रहा, तो शायद ज़्यादातर लोग Playwright की ओर चले गए हैं।

 
xguru 2022-08-16

टिप्पणियों में भी जिन लोगों ने इसे वास्तव में इस्तेमाल किया है, वे ज़्यादातर कहते हैं कि Playwright अच्छा है।

 
jjpark78 2022-08-15

मेरा वोट Playwright को।

 
cometkim 2022-08-15

मैं अक्सर Cloudflare का HTMLRewriter इस्तेमाल करता हूँ