• प्राकृतिक भाषा के एक वाक्य से लाइव वेब पर structured dataset बनाकर, तय किए गए अंतराल पर उसे अपने आप अपडेट करने वाला open source टूल
    • उदाहरण: "उन YC कंपनियों की सूची जो अभी engineers को hire कर रही हैं, साथ में उनकी funding stage, location, और public job openings की संख्या"
  • इनपुट वाक्य से schema अपने आप infer करता है - column नाम, type, primary key, और वेब पर कहाँ खोजना है, यह भी तय करता है
  • autonomous agents लाइव वेब की जाँच करते हैं, वास्तविक sources से मिलान करके verify करने के बाद duplicates हटाकर तालिका के रूप में लौटाते हैं
    • orchestrator agent जब entities खोजता है, तो sub-agents parallel में बंटकर हर entity की जाँच और verification करते हैं
  • परिणाम CSV / XLSX के रूप में डाउनलोड किए जा सकते हैं, और UI में explore भी किए जा सकते हैं
  • refresh interval (30 मिनट, 6 घंटे, 12 घंटे, दैनिक, साप्ताहिक) सेट करने पर agent तय शेड्यूल के अनुसार फिर से चलकर dataset को लगातार अपडेट करते रहते हैं
  • चाहे इंसान हो या AI agent, वेब के साथ हर interaction आखिरकार डेटा में बदलता है (price, company, hiring, research, availability, inventory आदि)
    • यह डेटा कई pages में बिखरा होता है, और मौजूदा scraping/search API/LeadGen tools जो नहीं कर पाते, उस तरह का category-cross data collection यह संभालता है
      — यानी search/extraction/schema design/deduplication/verification/cron jobs हर बार अलग से करने या उन्हें जोड़ने की जरूरत नहीं
  • terminal CLI से भी dataset बनाना और export करना संभव
    • bigset create "..." --rows 30 --wait --csv
  • लेकिन अभी यह experimental stage में है, इसलिए schema inference हमेशा पूरी तरह सटीक नहीं होता। केवल public data के लिए उपयुक्त
  • tech stack
    • frontend: Next.js 16, React 19, Tailwind 4
    • backend: Fastify, TypeScript (agent runner)
    • authentication: local auth (development), Clerk (cloud)
    • database: Convex (self-hosted)
    • data collection: TinyFish API (Search, Fetch, Browser)
    • AI orchestration: Mastra workflow + Vercel AI SDK + OpenRouter → Claude Sonnet (schema inference + populate agent)
    • table view: TanStack Table + react-window virtualization
    • export: CSV (built-in) + XLSX (SheetJS, dynamic import)
    • analytics: PostHog — events, session replay, error tracking (optional)
  • AGPL-3.0 license

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.