TREX - Rust से बना PDF table extraction engine (deep learning से बेहतर सटीकता)

calmlake79 · 2026-02-28T23:52:42+09:00

PDF table extraction के लिए Rust-आधारित open source engine मौजूदा Python tools (Camelot, Tabula, pdfplumber) को OpenCV, Ghostscript, Java जैसी भारी runtime dependencies चाहिए होती हैं, जिससे serverless environments में memory constraints बड़े हो जाते हैं TREX एक single binary के रूप में बिना external dependencies के चलता है, और ~30MB memory में Cloud Run/Lambda पर OOM के बिना चल सकता है इसमें Lattice (grid line-आधारित) / Stream (coordinate inference) दो parsing strategies built-in हैं, और DL Router पेज-वार optimal strategy को अपने आप चुन सकता है Deep learning-आधारित DL Router page features का विश्लेषण करके optimal parsing strategy (Lattice/Stream/Blend) अपने आप चुनता है। प्रोडक्शन के दौरान extraction failure events इकट्ठा करके और ONNX model को retrain करके सटीकता को लगातार बेहतर किया जा सकता है Node.js में npm i @dreamyoungs/trex (CLI wrapper) या npm i @dreamyoungs/trex-node (NAPI-RS native binding) के साथ तुरंत इस्तेमाल किया जा सकता है Docker REST API और Python bindings भी समर्थित हैं, तथा MIT / Apache-2.0 dual license उपलब्ध है

(github.com/dreamyoungs)

10 पॉइंट द्वारा calmlake79 2026-02-28 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

PDF table extraction के लिए Rust-आधारित open source engine
मौजूदा Python tools (Camelot, Tabula, pdfplumber) को OpenCV, Ghostscript, Java जैसी भारी runtime dependencies चाहिए होती हैं, जिससे serverless environments में memory constraints बड़े हो जाते हैं
TREX एक single binary के रूप में बिना external dependencies के चलता है, और ~30MB memory में Cloud Run/Lambda पर OOM के बिना चल सकता है
इसमें Lattice (grid line-आधारित) / Stream (coordinate inference) दो parsing strategies built-in हैं, और DL Router पेज-वार optimal strategy को अपने आप चुन सकता है
Deep learning-आधारित DL Router page features का विश्लेषण करके optimal parsing strategy (Lattice/Stream/Blend) अपने आप चुनता है। प्रोडक्शन के दौरान extraction failure events इकट्ठा करके और ONNX model को retrain करके सटीकता को लगातार बेहतर किया जा सकता है
Node.js में npm i @dreamyoungs/trex (CLI wrapper) या npm i @dreamyoungs/trex-node (NAPI-RS native binding) के साथ तुरंत इस्तेमाल किया जा सकता है
Docker REST API और Python bindings भी समर्थित हैं, तथा MIT / Apache-2.0 dual license उपलब्ध है

TREX - Rust से बना PDF table extraction engine (deep learning से बेहतर सटीकता)

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.