Tuplex - समानांतर बिग डेटा प्रोसेसिंग फ्रेमवर्क
(github.com)- Apache Spark / Dask जैसा Python API प्रदान करता है, लेकिन
→ Python interpreter को कॉल नहीं करता
→ दिए गए pipeline और input dataset के लिए optimized LLVM bytecode जनरेट करता है
→ interpreter की तुलना में 5~91x तेज़
-
अंदरूनी तौर पर data-driven compilation और dual-mode processing पर आधारित है, इसलिए C++ में कोड किए गए optimized pipeline जैसी गति देता है
-
MacOS / Linux सपोर्ट
-
SIGMOD '21 में प्रस्तुत "Tuplex: Data Science in Python at Native Code Speed" शोध-पत्र
अभी कोई टिप्पणी नहीं है.