• Apache Parquet फ़ॉर्मैट को सीधे C environment में support करने के लिए विकसित production-grade pure C implementation लाइब्रेरी
  • C11 standard पर लिखी गई, इसलिए C++ runtime या exception handling के बिना चलती है और external dependency के रूप में केवल zstd और zlib का उपयोग करती है
  • embedded systems, IoT, microcontroller, legacy environment जैसे सीमित environments में data processing के लिए उपयुक्त
  • binary size लगभग 200KB, जो Apache Arrow की तुलना में 50MB से अधिक छोटा और lightweight build है
  • SIMD optimization (SSE4.2, AVX2, AVX-512, NEON, SVE) और runtime auto-detection के साथ विभिन्न architectures का समर्थन
  • सभी physical types (BOOLEAN, INT32, DOUBLE आदि) और विभिन्न encoding तथा compression codecs (ZSTD, LZ4, SNAPPY, GZIP) का समर्थन
  • Big-Endian systems (s390x, SPARC, PowerPC आदि) पर भी सही byte order processing का समर्थन
  • Nullable columns, basic nested schema, CRC32 page validation, column statistics, memory-mapped I/O, OpenMP parallel reading जैसी production features शामिल
  • streaming API के जरिए बड़े फ़ाइलों को पूरी तरह memory में load किए बिना process किया जा सकता है
  • PyArrow के साथ पूरी तरह compatible, Python environment में परस्पर read/write support
  • Apache Arrow की तुलना में
    • ARM environment में write speed 1.5~5 गुना तेज, और read speed भी अधिकतम 1.3 गुना बेहतर
    • x86 environment में read speed कुछ धीमी, लेकिन file size लगभग 1.4 गुना छोटा
    • minimal dependencies, simplified build, और C-only environments के साथ integration इसकी मुख्य ताकत हैं
    • complex nested types, encryption, multi-threaded ZSTD decompression का समर्थन नहीं
  • PyArrow, DuckDB, fastparquet के साथ interoperability testing सत्यापित
  • Spark, DuckDB में भी Carquet द्वारा बनाई गई फ़ाइलें सीधे पढ़ी जा सकती हैं
  • Linux, macOS, Windows, POSIX systems का समर्थन
  • MIT लाइसेंस

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.