20 पॉइंट द्वारा xguru 2024-05-10 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • AI-आधारित web scraping के लिए Python open source लाइब्रेरी
    • LLM और direct graph logic का उपयोग करके websites, documents और XML files के लिए scraping pipelines बनाती है
  • आप कौन-सी जानकारी निकालना चाहते हैं यह बताने पर लाइब्रेरी अपने आप काम करती है
  • Ollama, OpenAI, Groq, Azure, Gemini आदि कई models का उपयोग संभव
  • उपलब्ध nodes
    • base node, HTML fetch node, Image_to_text node, Text-To-Speech node, internet search node
    • conditional node : graph का अगला node तय करता है
    • answer generation node : LLM का उपयोग करके प्रश्न का उत्तर बनाता है
    • generate_scraper node : user input के अनुसार content से इच्छित जानकारी निकालता है
    • Get_probable_tags node : content में इच्छित जानकारी वाले HTML tags खोजता है
    • Parse node : HTML document से जानकारी निकालता है
    • Rag node : बड़े documents से संबंधित जानकारी निकालता है
    • Robots node : जांचता है कि robot access संभव है या नहीं

1 टिप्पणियां

 
ng0301 2024-05-13

CSR वेबऐप्स के मामले में लगा कि यह उन्हें ठीक से scrape नहीं कर पाता, इसलिए थोड़ी निराशा हुई.
लेकिन SSR के लिए यह काफ़ी संतोषजनक रहा.