- AI-आधारित web scraping के लिए Python open source लाइब्रेरी
- LLM और direct graph logic का उपयोग करके websites, documents और XML files के लिए scraping pipelines बनाती है
- आप कौन-सी जानकारी निकालना चाहते हैं यह बताने पर लाइब्रेरी अपने आप काम करती है
- Ollama, OpenAI, Groq, Azure, Gemini आदि कई models का उपयोग संभव
- उपलब्ध nodes
- base node, HTML fetch node, Image_to_text node, Text-To-Speech node, internet search node
- conditional node : graph का अगला node तय करता है
- answer generation node : LLM का उपयोग करके प्रश्न का उत्तर बनाता है
- generate_scraper node : user input के अनुसार content से इच्छित जानकारी निकालता है
- Get_probable_tags node : content में इच्छित जानकारी वाले HTML tags खोजता है
- Parse node : HTML document से जानकारी निकालता है
- Rag node : बड़े documents से संबंधित जानकारी निकालता है
- Robots node : जांचता है कि robot access संभव है या नहीं
1 टिप्पणियां
CSR वेबऐप्स के मामले में लगा कि यह उन्हें ठीक से scrape नहीं कर पाता, इसलिए थोड़ी निराशा हुई.
लेकिन SSR के लिए यह काफ़ी संतोषजनक रहा.