Launch HN: Trellis – असंरचित डेटा के लिए AI-आधारित workflow
(news.ycombinator.com)- Trellis असंरचित डेटा के लिए एक AI-आधारित ETL (Extract, Transform, Load) टूल है
- यह उपयोगकर्ता द्वारा प्राकृतिक भाषा में परिभाषित schema के अनुसार फोन कॉल, PDF और चैट सामग्री को संरचित SQL फ़ॉर्मेट में बदलता है
- यह डेटा और operations टीमों को मैनुअल डेटा एंट्री को automate करने और जटिल डेटा को SQL queries के जरिए प्रोसेस करने में मदद करता है
Trellis के विकास की पृष्ठभूमि
- Stanford AI लैब में मिलने के बाद, टीम ने कई बड़ी कंपनियों की डेटा टीमों के साथ काम करते हुए असंरचित डेटा की समस्या की पहचान की
- एंटरप्राइज़ डेटा का 80% असंरचित होता है, और मौजूदा platforms से इसे संभालना कठिन है
- उदाहरण के लिए, एक बड़े commercial bank के पास PDF और email में फंसे महत्वपूर्ण डेटा के कारण अपने credit risk model को बेहतर बनाने का रास्ता नहीं था
- AI research के आधार पर, टीम ने ऐसा AI-आधारित ETL solution बनाया जो असंरचित डेटा को schema के अनुरूप tables में बदलता है
तकनीकी चुनौतियाँ
- जटिल documents का support: लंबे documents को प्रोसेस करने के लिए LLM-आधारित map-reduce का उपयोग, और tables व layout extraction के लिए vision models का उपयोग
- मॉडल routing: हर transformation के लिए सबसे उपयुक्त model चुनकर cost और speed को optimize करना
- डेटा validation और schema guarantee: reference links और anomaly detection के जरिए accuracy सुनिश्चित करना
विभिन्न उपयोग के मामले
- वित्तीय सेवाएँ: जटिल documents (bonds, credit ratings आदि) को संरचित फ़ॉर्मेट में प्रोसेस करके underwriting की गति बढ़ाना और loan processing को automate करना
- customer support और back-office operations: अलग-अलग schema और ERP systems के बीच document mapping के जरिए onboarding की गति बढ़ाना और SOP compliance सुनिश्चित करना
- डेटा preprocessing और data collection: ETL pipelines में डेटा preprocessing और RAG data collection की आवश्यकता
GN⁺ का सार
- Trellis एक AI-आधारित ETL टूल है जो असंरचित डेटा को संरचित SQL फ़ॉर्मेट में बदलकर डेटा और operations टीमों के मैनुअल काम को automate करता है
- यह जटिल document processing, model routing और data validation जैसी तकनीकी चुनौतियों को हल करता है
- यह वित्तीय सेवाओं, customer support और data preprocessing सहित कई उद्योगों में उपयोगी हो सकता है
- असंरचित डेटा प्रोसेसिंग में कठिनाई झेल रही कंपनियों के लिए यह खास तौर पर उपयोगी होगा
- समान क्षमताओं वाले अन्य projects में Alteryx और Talend शामिल हैं
1 टिप्पणियां
Hacker News टिप्पणियाँ
एक open source Python पैकेज विकसित कर रहे हैं, जो मिलती-जुलती functionality देता है
प्रमुख commercial banks PDF और email में फँसे data की समस्या हल नहीं कर पाए, इसलिए credit risk models में सुधार नहीं कर सके
SoundTrace में इससे संबंधित प्रोजेक्ट पर काम किया था
Instabase में काम किया है, और PDF व document scans को process करने की क्षमता महत्वपूर्ण है
Trellis के launch पर बधाई, और edge cases लगभग 0% के करीब होने चाहिए
Roe AI से competition और उससे क्या अंतर है, यह पूछा
यह जानने की जिज्ञासा जताई कि data accuracy को कैसे verify किया गया
एक personal project में TypeChat, Zod, और Unstructured का उपयोग करके ऐसा ही काम कर रहे हैं
OpenAI function calling का उपयोग करके हज़ारों scanned documents से fields extract किए
एक बड़ी समस्या अभी तक हल न होने के बावजूद launch पर बधाई