- Apache Parquet फ़ॉर्मैट को सीधे C environment में support करने के लिए विकसित production-grade pure C implementation लाइब्रेरी
- C11 standard पर लिखी गई, इसलिए C++ runtime या exception handling के बिना चलती है और external dependency के रूप में केवल zstd और zlib का उपयोग करती है
- embedded systems, IoT, microcontroller, legacy environment जैसे सीमित environments में data processing के लिए उपयुक्त
- binary size लगभग 200KB, जो Apache Arrow की तुलना में 50MB से अधिक छोटा और lightweight build है
- SIMD optimization (SSE4.2, AVX2, AVX-512, NEON, SVE) और runtime auto-detection के साथ विभिन्न architectures का समर्थन
- सभी physical types (BOOLEAN, INT32, DOUBLE आदि) और विभिन्न encoding तथा compression codecs (ZSTD, LZ4, SNAPPY, GZIP) का समर्थन
- Big-Endian systems (s390x, SPARC, PowerPC आदि) पर भी सही byte order processing का समर्थन
- Nullable columns, basic nested schema, CRC32 page validation, column statistics, memory-mapped I/O, OpenMP parallel reading जैसी production features शामिल
- streaming API के जरिए बड़े फ़ाइलों को पूरी तरह memory में load किए बिना process किया जा सकता है
- PyArrow के साथ पूरी तरह compatible, Python environment में परस्पर read/write support
- Apache Arrow की तुलना में
- ARM environment में write speed 1.5~5 गुना तेज, और read speed भी अधिकतम 1.3 गुना बेहतर
- x86 environment में read speed कुछ धीमी, लेकिन file size लगभग 1.4 गुना छोटा
- minimal dependencies, simplified build, और C-only environments के साथ integration इसकी मुख्य ताकत हैं
- complex nested types, encryption, multi-threaded ZSTD decompression का समर्थन नहीं
- PyArrow, DuckDB, fastparquet के साथ interoperability testing सत्यापित
- Spark, DuckDB में भी Carquet द्वारा बनाई गई फ़ाइलें सीधे पढ़ी जा सकती हैं
- Linux, macOS, Windows, POSIX systems का समर्थन
- MIT लाइसेंस
अभी कोई टिप्पणी नहीं है.