2021 में web scraping की स्थिति
(mihaisplace.blog)-
web scraping क्या है?
-
web scraping के लिए मुख्य framework कौन-से हैं?
→ Python : Scrapy, Beautiful Soup, MechanicalSoup
→ JS : Cheerio, Puppeteer, Apify SDK
→ Java : Jaunt, jsoup
→ Ruby : Kimurai
→ PHP : Goutte
- enterprise-स्तर के paid web scraping framework
→ Scraper API : proxy rotation, CAPTCHA solving, anti-bot checks का समर्थन
→ Apify : community द्वारा विकसित हज़ारों plugins उपलब्ध
→ Parsehub : desktop app का उपयोग करने वाला point-and-click no-code tool
→ Diffbot : web से एकत्र किए गए company/retail/news/forum/event आदि के data से big data/machine learning आधारित data extraction का समर्थन
→ Octoparse : Parsehub की तरह point-and-click तरीका। IP rotation, regex tools से data cleaning, large-scale scraping आदि का समर्थन
→ ScrapingBee : complex features देने वाला no-coding tool
-
Python web scraping उदाहरण : Beautiful Soup का उपयोग
-
JavaScript(Node.js) उदाहरण : Puppeteer से Google search
-
Web Scraping के Do's and Don'ts
→ केवल एक IP connection का उपयोग करें
→ peak time के बजाय non-peak time में crawling करें
→ site के ToS का पालन करें
→ robots.txt के rules का पालन करें
→ अगर content को किसी दूसरे तरीके से दिखाने के लिए crawling कर रहे हैं, तो वह साधारण copy नहीं बल्कि एक unique solution होना चाहिए
→ GDPR / CCPA rules का पालन करें
1 टिप्पणियां
नीचे दिए गए "Web scraping is now legal" लेख को भी देखें.
यह उस मामले का उदाहरण है जिसमें Linkedin ने analytics company HiQ की crawling रोकने का अनुरोध किया था, लेकिन अमेरिकी अदालत ने उसे खारिज कर दिया.
https://medium.com/@tjwaterman99/…