2021 में web scraping की स्थिति

(mihaisplace.blog)

26 पॉइंट द्वारा xguru 2021-10-05 | 1 टिप्पणियां | WhatsApp पर शेयर करें

→ Python : Scrapy, Beautiful Soup, MechanicalSoup

→ JS : Cheerio, Puppeteer, Apify SDK

→ Java : Jaunt, jsoup

→ Ruby : Kimurai

→ PHP : Goutte

→ Scraper API : proxy rotation, CAPTCHA solving, anti-bot checks का समर्थन

→ Apify : community द्वारा विकसित हज़ारों plugins उपलब्ध

→ Parsehub : desktop app का उपयोग करने वाला point-and-click no-code tool

→ Diffbot : web से एकत्र किए गए company/retail/news/forum/event आदि के data से big data/machine learning आधारित data extraction का समर्थन

→ Octoparse : Parsehub की तरह point-and-click तरीका। IP rotation, regex tools से data cleaning, large-scale scraping आदि का समर्थन

→ ScrapingBee : complex features देने वाला no-coding tool

→ केवल एक IP connection का उपयोग करें

→ peak time के बजाय non-peak time में crawling करें

→ site के ToS का पालन करें

→ robots.txt के rules का पालन करें

→ अगर content को किसी दूसरे तरीके से दिखाने के लिए crawling कर रहे हैं, तो वह साधारण copy नहीं बल्कि एक unique solution होना चाहिए

→ GDPR / CCPA rules का पालन करें

1 टिप्पणियां

xguru 2021-10-05

नीचे दिए गए "Web scraping is now legal" लेख को भी देखें.

यह उस मामले का उदाहरण है जिसमें Linkedin ने analytics company HiQ की crawling रोकने का अनुरोध किया था, लेकिन अमेरिकी अदालत ने उसे खारिज कर दिया.