6 पॉइंट द्वारा GN⁺ 2024-08-15 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Trellis असंरचित डेटा के लिए एक AI-आधारित ETL (Extract, Transform, Load) टूल है
  • यह उपयोगकर्ता द्वारा प्राकृतिक भाषा में परिभाषित schema के अनुसार फोन कॉल, PDF और चैट सामग्री को संरचित SQL फ़ॉर्मेट में बदलता है
  • यह डेटा और operations टीमों को मैनुअल डेटा एंट्री को automate करने और जटिल डेटा को SQL queries के जरिए प्रोसेस करने में मदद करता है

Trellis के विकास की पृष्ठभूमि

  • Stanford AI लैब में मिलने के बाद, टीम ने कई बड़ी कंपनियों की डेटा टीमों के साथ काम करते हुए असंरचित डेटा की समस्या की पहचान की
  • एंटरप्राइज़ डेटा का 80% असंरचित होता है, और मौजूदा platforms से इसे संभालना कठिन है
  • उदाहरण के लिए, एक बड़े commercial bank के पास PDF और email में फंसे महत्वपूर्ण डेटा के कारण अपने credit risk model को बेहतर बनाने का रास्ता नहीं था
  • AI research के आधार पर, टीम ने ऐसा AI-आधारित ETL solution बनाया जो असंरचित डेटा को schema के अनुरूप tables में बदलता है

तकनीकी चुनौतियाँ

  • जटिल documents का support: लंबे documents को प्रोसेस करने के लिए LLM-आधारित map-reduce का उपयोग, और tables व layout extraction के लिए vision models का उपयोग
  • मॉडल routing: हर transformation के लिए सबसे उपयुक्त model चुनकर cost और speed को optimize करना
  • डेटा validation और schema guarantee: reference links और anomaly detection के जरिए accuracy सुनिश्चित करना

विभिन्न उपयोग के मामले

  • वित्तीय सेवाएँ: जटिल documents (bonds, credit ratings आदि) को संरचित फ़ॉर्मेट में प्रोसेस करके underwriting की गति बढ़ाना और loan processing को automate करना
  • customer support और back-office operations: अलग-अलग schema और ERP systems के बीच document mapping के जरिए onboarding की गति बढ़ाना और SOP compliance सुनिश्चित करना
  • डेटा preprocessing और data collection: ETL pipelines में डेटा preprocessing और RAG data collection की आवश्यकता

GN⁺ का सार

  • Trellis एक AI-आधारित ETL टूल है जो असंरचित डेटा को संरचित SQL फ़ॉर्मेट में बदलकर डेटा और operations टीमों के मैनुअल काम को automate करता है
  • यह जटिल document processing, model routing और data validation जैसी तकनीकी चुनौतियों को हल करता है
  • यह वित्तीय सेवाओं, customer support और data preprocessing सहित कई उद्योगों में उपयोगी हो सकता है
  • असंरचित डेटा प्रोसेसिंग में कठिनाई झेल रही कंपनियों के लिए यह खास तौर पर उपयोगी होगा
  • समान क्षमताओं वाले अन्य projects में Alteryx और Talend शामिल हैं

1 टिप्पणियां

 
GN⁺ 2024-08-15
Hacker News टिप्पणियाँ
  • एक open source Python पैकेज विकसित कर रहे हैं, जो मिलती-जुलती functionality देता है

    • Enron email demo उदाहरण साझा किया
  • प्रमुख commercial banks PDF और email में फँसे data की समस्या हल नहीं कर पाए, इसलिए credit risk models में सुधार नहीं कर सके

    • इस समस्या को हल करना बहुत बड़ा value create करता है
  • SoundTrace में इससे संबंधित प्रोजेक्ट पर काम किया था

    • नए clients के PDF audiogram data को पूरी तरह extract करना पड़ता था
    • pipeline के ज़रिए PDF पर OCR चलाकर text और tables निकाले, और फिर LLM से सीधे parse किया
    • audiogram graphs को convnet में भेजा, और tables को programmatically parse किया
    • results को Claude sonnet से verify किया, और mismatch होने पर manual review किया
    • accuracy लगभग 100% तक पहुँच गई
  • Instabase में काम किया है, और PDF व document scans को process करने की क्षमता महत्वपूर्ण है

  • Trellis के launch पर बधाई, और edge cases लगभग 0% के करीब होने चाहिए

    • यह हर organization को चाहिए होने वाली service है, और सफल होने पर बहुत सारे customers मिलेंगे
  • Roe AI से competition और उससे क्या अंतर है, यह पूछा

  • यह जानने की जिज्ञासा जताई कि data accuracy को कैसे verify किया गया

  • एक personal project में TypeChat, Zod, और Unstructured का उपयोग करके ऐसा ही काम कर रहे हैं

  • OpenAI function calling का उपयोग करके हज़ारों scanned documents से fields extract किए

    • अलग-अलग input document formats में कुछ fields की recall अच्छी नहीं थी
    • JSON schema के साथ प्रयोग करके सबसे अच्छी information extraction की
    • लंबे documents के लिए तय करना पड़ता था कि पूरा document भेजें या सिर्फ relevant हिस्से
    • OCR quality अच्छी नहीं थी
    • non-technical users को बार-बार #2 करने लायक बनाना ही मुख्य innovation है
  • एक बड़ी समस्या अभी तक हल न होने के बावजूद launch पर बधाई

    • बड़े problems और budget वाले customers सबसे ज़्यादा underserved हैं
    • Palantir जैसी onboarding/integration के ज़रिए customer-specific solutions दिए जाते हैं
    • 99%+ accuracy और human-in-the-loop प्रभावी है
    • 95% से 99% तक का improvement बहुत बड़ा फर्क ला सकता है
    • "AI-आधारित workflow" की जगह "99%+ accuracy extraction" पर ज़ोर देना चाहिए