- टर्मिनल में बड़े CSV फ़ाइलों को तेज़ी और कुशलता से प्रोसेस करने वाला Rust-आधारित टूल
- विभिन्न डेटा मैनिपुलेशन फीचर्स के अलावा डिस्प्ले, विज़ुअलाइज़ेशन, विश्लेषण, वेब स्क्रैपिंग, टेक्स्ट प्रोसेसिंग, नेटवर्क विश्लेषण भी सपोर्ट करता है
- अंदरूनी तौर पर उच्च प्रदर्शन के लिए multithreading, expression language, parallel processing का उपयोग
- बेहद बड़े CSV (गीगाबाइट-स्तर) फ़ाइलों को भी बिना समस्या संभाल सकता है
- Python या Lua से कहीं तेज़ समर्पित expression language प्रदान करता है
- एकल कमांड chaining से जटिल डेटा फ़्लो लागू किए जा सकते हैं
- साधारण statistics से लेकर heatmap, histogram जैसी बुनियादी विज़ुअलाइज़ेशन तक संभव
- सामाजिक विज्ञान शोधकर्ताओं और वेब डेटा विश्लेषण के लिए उन्नत फीचर्स शामिल
- Linux, macOS, Windows सभी का समर्थन
.tsv, .psv, .ssv, .gz जैसे विभिन्न फ़ॉर्मैट का स्वतः पता लगाता है
मुख्य कमांड उदाहरण
-
एक्सप्लोरेशन
xan headers: कॉलम सूची दिखाना
xan view: टर्मिनल में टेबल के रूप में देखना
xan flatten: एक पंक्ति के सभी मान फैलाकर देखना
xan hist, xan plot, xan heatmap: विज़ुअलाइज़ेशन फीचर्स
-
फ़िल्टरिंग & खोज
xan search -s 키워드 파일.csv: किसी विशेष कीवर्ड वाली पंक्तियाँ ढूँढना
xan filter '조건식' 파일.csv: expression से पंक्तियाँ फ़िल्टर करना
-
रूपांतरण
xan select: कॉलम चुनना
xan map: expression से नया कॉलम बनाना
xan transform: मौजूदा कॉलम को expression से बदलना
-
aggregation और विश्लेषण
xan count: पंक्तियों की संख्या गिनना
xan frequency: frequency table बनाना
xan stats: descriptive statistics दिखाना
xan agg: user-defined aggregation
xan groupby: समूह-आधारित aggregation करना
-
sorting & deduplication
xan sort -s 컬럼: sort करना
xan dedup -s 컬럼: duplicate हटाना
-
संयोजन
xan join: key के आधार पर join
xan merge: sorted फ़ाइलों को merge करना
xan cat: पंक्तियों या कॉलम के आधार पर जोड़ना
-
expression language
xan map 'fmt("{} ({})", name, foundation_year)' key
xan filter 'batch > 1'
xan transform name 'split(name, ".") | first | upper'
- expression language CSV मैनिपुलेशन के लिए विशेषीकृत हल्का DSL है, और आधिकारिक दस्तावेज़ में चीटशीट, फ़ंक्शन सूची, aggregation फ़ंक्शन सूची देखी जा सकती है
-
विज़ुअलाइज़ेशन फीचर्स
xan hist: टेक्स्ट-आधारित histogram
xan plot: scatterplot/line chart
xan heatmap: correlation heatmap
xan view -p: टर्मिनल में पूरी टेबल दिखाना
उन्नत फीचर्स
- standard input/output pipeline का पूर्ण समर्थन
- gzip compressed फ़ाइलों का स्वतः प्रोसेसिंग
- scraping DSL अंतर्निहित (HTML → CSV रूपांतरण)
- lexicometry, fuzzy matching समर्थन:
tokenize, vocab, cluster
- network/matrix transformation:
network, matrix
1 टिप्पणियां
सोच रहा था कि इसे कैसे इस्तेमाल किया जा सकता है, लेकिन सिर्फ
sortयाdropका उपयोग करना भी काफ़ी उपयोगी रहेगा।