2022 में, सबसे बेहतरीन वेब स्क्रैपिंग टूल कौन-से हैं?
(news.ycombinator.com)HN के सवाल के जवाब
- Playwright : ऐसे वेबपेज अब बहुत बढ़ गए हैं जिनमें JS execution की ज़रूरत होती है, इसलिए browser automation टूल सुविधाजनक हैं
- Beautiful Soup : तरह-तरह के scraping apps बनाने के लिए आसान Python package
- shell में cURL + pup(markup)/cskit(CSV)/jq(JSON)/psql(DB)
- Browserflow : वेब ब्राउज़र-आधारित task automation टूल
- curl-impersonate : वेबसाइट को browser की तरह fetch करने वाला fork version
- Helium : ज़्यादा उपयोग में आसान Selenium-Python
- undetected_chromedriver : CloudFlare bot check को पार करने वाला custom Selenium Chromedriver
- estela : Kubernetes पर चलने वाला elastic web scraping cluster
6 टिप्पणियां
मैंने सुना है कि puppeteer टीम के ms में समाहित हो जाने के बाद वही सीधे playwright बन गया।
Playwright, Scrapy जैसे टूल्स डेवलपर कंपनियों की तरफ़ से अच्छी तरह मेंटेन किए जाते हैं, इसलिए वे अच्छे लगते हैं.
व्यक्तिगत रूप से, मैं scrapy-playwright प्लगइन का काफ़ी इस्तेमाल करता हूँ.
लगता है Peppeteer दिख नहीं रहा, तो शायद ज़्यादातर लोग Playwright की ओर चले गए हैं।
टिप्पणियों में भी जिन लोगों ने इसे वास्तव में इस्तेमाल किया है, वे ज़्यादातर कहते हैं कि Playwright अच्छा है।
मेरा वोट Playwright को।
मैं अक्सर Cloudflare का HTMLRewriter इस्तेमाल करता हूँ