• PDF table extraction के लिए Rust-आधारित open source engine
  • मौजूदा Python tools (Camelot, Tabula, pdfplumber) को OpenCV, Ghostscript, Java जैसी भारी runtime dependencies चाहिए होती हैं, जिससे serverless environments में memory constraints बड़े हो जाते हैं
  • TREX एक single binary के रूप में बिना external dependencies के चलता है, और ~30MB memory में Cloud Run/Lambda पर OOM के बिना चल सकता है
  • इसमें Lattice (grid line-आधारित) / Stream (coordinate inference) दो parsing strategies built-in हैं, और DL Router पेज-वार optimal strategy को अपने आप चुन सकता है
  • Deep learning-आधारित DL Router page features का विश्लेषण करके optimal parsing strategy (Lattice/Stream/Blend) अपने आप चुनता है। प्रोडक्शन के दौरान extraction failure events इकट्ठा करके और ONNX model को retrain करके सटीकता को लगातार बेहतर किया जा सकता है
  • Node.js में npm i @dreamyoungs/trex (CLI wrapper) या npm i @dreamyoungs/trex-node (NAPI-RS native binding) के साथ तुरंत इस्तेमाल किया जा सकता है
  • Docker REST API और Python bindings भी समर्थित हैं, तथा MIT / Apache-2.0 dual license उपलब्ध है

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.