Launch HN: Trellis – असंरचित डेटा के लिए AI-आधारित workflow

(news.ycombinator.com)

6 पॉइंट द्वारा GN⁺ 2024-08-15 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Trellis असंरचित डेटा के लिए एक AI-आधारित ETL (Extract, Transform, Load) टूल है
यह उपयोगकर्ता द्वारा प्राकृतिक भाषा में परिभाषित schema के अनुसार फोन कॉल, PDF और चैट सामग्री को संरचित SQL फ़ॉर्मेट में बदलता है
यह डेटा और operations टीमों को मैनुअल डेटा एंट्री को automate करने और जटिल डेटा को SQL queries के जरिए प्रोसेस करने में मदद करता है

Trellis के विकास की पृष्ठभूमि

Stanford AI लैब में मिलने के बाद, टीम ने कई बड़ी कंपनियों की डेटा टीमों के साथ काम करते हुए असंरचित डेटा की समस्या की पहचान की
एंटरप्राइज़ डेटा का 80% असंरचित होता है, और मौजूदा platforms से इसे संभालना कठिन है
उदाहरण के लिए, एक बड़े commercial bank के पास PDF और email में फंसे महत्वपूर्ण डेटा के कारण अपने credit risk model को बेहतर बनाने का रास्ता नहीं था
AI research के आधार पर, टीम ने ऐसा AI-आधारित ETL solution बनाया जो असंरचित डेटा को schema के अनुरूप tables में बदलता है

तकनीकी चुनौतियाँ

जटिल documents का support: लंबे documents को प्रोसेस करने के लिए LLM-आधारित map-reduce का उपयोग, और tables व layout extraction के लिए vision models का उपयोग
मॉडल routing: हर transformation के लिए सबसे उपयुक्त model चुनकर cost और speed को optimize करना
डेटा validation और schema guarantee: reference links और anomaly detection के जरिए accuracy सुनिश्चित करना

विभिन्न उपयोग के मामले

वित्तीय सेवाएँ: जटिल documents (bonds, credit ratings आदि) को संरचित फ़ॉर्मेट में प्रोसेस करके underwriting की गति बढ़ाना और loan processing को automate करना
customer support और back-office operations: अलग-अलग schema और ERP systems के बीच document mapping के जरिए onboarding की गति बढ़ाना और SOP compliance सुनिश्चित करना
डेटा preprocessing और data collection: ETL pipelines में डेटा preprocessing और RAG data collection की आवश्यकता

GN⁺ का सार

Trellis एक AI-आधारित ETL टूल है जो असंरचित डेटा को संरचित SQL फ़ॉर्मेट में बदलकर डेटा और operations टीमों के मैनुअल काम को automate करता है
यह जटिल document processing, model routing और data validation जैसी तकनीकी चुनौतियों को हल करता है
यह वित्तीय सेवाओं, customer support और data preprocessing सहित कई उद्योगों में उपयोगी हो सकता है
असंरचित डेटा प्रोसेसिंग में कठिनाई झेल रही कंपनियों के लिए यह खास तौर पर उपयोगी होगा
समान क्षमताओं वाले अन्य projects में Alteryx और Talend शामिल हैं

1 टिप्पणियां

GN⁺ 2024-08-15

Hacker News टिप्पणियाँ

एक open source Python पैकेज विकसित कर रहे हैं, जो मिलती-जुलती functionality देता है
- Enron email demo उदाहरण साझा किया
प्रमुख commercial banks PDF और email में फँसे data की समस्या हल नहीं कर पाए, इसलिए credit risk models में सुधार नहीं कर सके
- इस समस्या को हल करना बहुत बड़ा value create करता है
SoundTrace में इससे संबंधित प्रोजेक्ट पर काम किया था
- नए clients के PDF audiogram data को पूरी तरह extract करना पड़ता था
- pipeline के ज़रिए PDF पर OCR चलाकर text और tables निकाले, और फिर LLM से सीधे parse किया
- audiogram graphs को convnet में भेजा, और tables को programmatically parse किया
- results को Claude sonnet से verify किया, और mismatch होने पर manual review किया
- accuracy लगभग 100% तक पहुँच गई
Instabase में काम किया है, और PDF व document scans को process करने की क्षमता महत्वपूर्ण है
Trellis के launch पर बधाई, और edge cases लगभग 0% के करीब होने चाहिए
- यह हर organization को चाहिए होने वाली service है, और सफल होने पर बहुत सारे customers मिलेंगे
Roe AI से competition और उससे क्या अंतर है, यह पूछा
यह जानने की जिज्ञासा जताई कि data accuracy को कैसे verify किया गया
एक personal project में TypeChat, Zod, और Unstructured का उपयोग करके ऐसा ही काम कर रहे हैं
OpenAI function calling का उपयोग करके हज़ारों scanned documents से fields extract किए
- अलग-अलग input document formats में कुछ fields की recall अच्छी नहीं थी
- JSON schema के साथ प्रयोग करके सबसे अच्छी information extraction की
- लंबे documents के लिए तय करना पड़ता था कि पूरा document भेजें या सिर्फ relevant हिस्से
- OCR quality अच्छी नहीं थी
- non-technical users को बार-बार #2 करने लायक बनाना ही मुख्य innovation है
एक बड़ी समस्या अभी तक हल न होने के बावजूद launch पर बधाई
- बड़े problems और budget वाले customers सबसे ज़्यादा underserved हैं
- Palantir जैसी onboarding/integration के ज़रिए customer-specific solutions दिए जाते हैं
- 99%+ accuracy और human-in-the-loop प्रभावी है
- 95% से 99% तक का improvement बहुत बड़ा फर्क ला सकता है
- "AI-आधारित workflow" की जगह "99%+ accuracy extraction" पर ज़ोर देना चाहिए

Launch HN: Trellis – असंरचित डेटा के लिए AI-आधारित workflow

Trellis के विकास की पृष्ठभूमि

तकनीकी चुनौतियाँ

विभिन्न उपयोग के मामले

GN⁺ का सार

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News टिप्पणियाँ