- AI के लिए डिज़ाइन की गई आधुनिक Python data frame लाइब्रेरी
- असंरचित डेटा को datasets में संगठित करने और लोकल मशीन पर बड़े पैमाने पर wrangle करने के लिए बनाया गया
- AI models और API calls को abstract या छिपाए बिना postmodern data stack में इंटीग्रेट करता है
मुख्य विशेषताएँ
- Source of Truth स्टोरेज
- S3, GCP, Azure और लोकल file system में बिना डुप्लिकेट कॉपी के असंरचित डेटा प्रोसेस करता है
- multimodal डेटा सपोर्ट: image, video, text, PDF, JSON, CSV, parquet आदि
- files और metadata को स्थायी, version-managed और column-based datasets में एकीकृत करता है
- Python-अनुकूल data pipeline
- Python objects और object fields पर काम करता है
- SQL या Spark के बिना built-in parallelization और out-of-memory operations
- डेटा enrichment और processing
- लोकल AI models और LLM API का उपयोग करके metadata जनरेट करता है
- metadata के आधार पर filter, join, group कर सकता है; vector embeddings से search
- datasets को Pytorch या Tensorflow में भेजता है या वापस स्टोरेज में export करता है
- दक्षता
- parallelization, out-of-memory processing और data caching
- Python object fields पर vectorized operations: sum, count, average आदि
- optimized vector search
अभी कोई टिप्पणी नहीं है.