GoScrapy - Go-आधारित अल्ट्रा-फास्ट वेब स्क्रैपिंग फ्रेमवर्क
(github.com/tech-engine)- Python Scrapy की आर्किटेक्चर को Go भाषा की परफ़ॉर्मेंस का उपयोग करते हुए native रूप में लागू करने वाला हाई-परफ़ॉर्मेंस वेब स्क्रैपिंग फ्रेमवर्क
goscrapy startprojectकमांड की एक ही लाइन से project structure, Go module initialization, dependency resolution तक automatic scaffolding- Go के concurrency model पर आधारित high-throughput parallel scraping, retry, cookie management, और concurrency handling को framework अपने आप मैनेज करता है
- विफलता की स्थिति में exponential back-off लागू करने वाला automatic retry
- Spider → Engine → Scheduler → Worker → Middleware → HTTP Client तक जाने वाली स्पष्ट data-flow architecture
- Spider request को Engine को देता है, और Engine उसे Scheduler में schedule करता है
- Scheduler, Worker Queue से उपलब्ध worker सुनिश्चित करने के बाद काम को Worker तक भेजता है
- Worker, Executor को trigger करता है, और Executor, Middlewares से होकर HTTP Client तक request भेजता है
- response, उल्टे क्रम में Middlewares → Executor → Spider callback तक लौटता है
- Spider जब record yield करता है, तो Engine, PipelineManager के माध्यम से DB, CSV, file आदि में data export करता है
- CSV, JSON, MongoDB, Google Sheets, Firebase सहित कई export pipelines डिफ़ॉल्ट रूप से built-in
- Azure TLS, Dupefilter आदि built-in middleware उपलब्ध, और लगभग हर layer को replace या extend किया जा सकने वाला design
- chain किए जा सकने वाले CSS/XPath selectors के साथ flexible HTML parsing
settings.goमें middleware और pipeline को centralized configuration के साथ सेट करना, औरspider.goको केवल parsing logic पर केंद्रित रखने वाली साफ़-सुथरी संरचना- Google Maps scraper, Fingerprint Spoofing (bot detection bypass), TUI real-time monitoring जैसे production-oriented examples उपलब्ध
- वर्तमान में v0.x development stage में, स्थिर v1.0 की ओर Core API में लगातार सुधार जारी
- Business Source License (BSL) : commercial products में स्वतंत्र रूप से उपयोग संभव, लेकिन framework को स्वयं competitive service के रूप में resale करने पर प्रतिबंध
अभी कोई टिप्पणी नहीं है.