bigset - अगर आपके पास दुनिया का सारा डेटा हो तो?
(github.com/tinyfish-io)- प्राकृतिक भाषा के एक वाक्य से लाइव वेब पर structured dataset बनाकर, तय किए गए अंतराल पर उसे अपने आप अपडेट करने वाला open source टूल
- उदाहरण: "उन YC कंपनियों की सूची जो अभी engineers को hire कर रही हैं, साथ में उनकी funding stage, location, और public job openings की संख्या"
- इनपुट वाक्य से schema अपने आप infer करता है - column नाम, type, primary key, और वेब पर कहाँ खोजना है, यह भी तय करता है
- autonomous agents लाइव वेब की जाँच करते हैं, वास्तविक sources से मिलान करके verify करने के बाद duplicates हटाकर तालिका के रूप में लौटाते हैं
- orchestrator agent जब entities खोजता है, तो sub-agents parallel में बंटकर हर entity की जाँच और verification करते हैं
- परिणाम CSV / XLSX के रूप में डाउनलोड किए जा सकते हैं, और UI में explore भी किए जा सकते हैं
- refresh interval (30 मिनट, 6 घंटे, 12 घंटे, दैनिक, साप्ताहिक) सेट करने पर agent तय शेड्यूल के अनुसार फिर से चलकर dataset को लगातार अपडेट करते रहते हैं
- चाहे इंसान हो या AI agent, वेब के साथ हर interaction आखिरकार डेटा में बदलता है (price, company, hiring, research, availability, inventory आदि)
- यह डेटा कई pages में बिखरा होता है, और मौजूदा scraping/search API/LeadGen tools जो नहीं कर पाते, उस तरह का category-cross data collection यह संभालता है
— यानी search/extraction/schema design/deduplication/verification/cron jobs हर बार अलग से करने या उन्हें जोड़ने की जरूरत नहीं
- यह डेटा कई pages में बिखरा होता है, और मौजूदा scraping/search API/LeadGen tools जो नहीं कर पाते, उस तरह का category-cross data collection यह संभालता है
- terminal CLI से भी dataset बनाना और export करना संभव
bigset create "..." --rows 30 --wait --csv
- लेकिन अभी यह experimental stage में है, इसलिए schema inference हमेशा पूरी तरह सटीक नहीं होता। केवल public data के लिए उपयुक्त
- tech stack
- frontend: Next.js 16, React 19, Tailwind 4
- backend: Fastify, TypeScript (agent runner)
- authentication: local auth (development), Clerk (cloud)
- database: Convex (self-hosted)
- data collection: TinyFish API (Search, Fetch, Browser)
- AI orchestration: Mastra workflow + Vercel AI SDK + OpenRouter → Claude Sonnet (schema inference + populate agent)
- table view: TanStack Table + react-window virtualization
- export: CSV (built-in) + XLSX (SheetJS, dynamic import)
- analytics: PostHog — events, session replay, error tracking (optional)
- AGPL-3.0 license
अभी कोई टिप्पणी नहीं है.