-
टाइम-श्रृंखला anomaly detection: 10 साल की समीक्षा
-
हाल ही में डेटा संग्रह तकनीकों के विकास और streaming data की वृद्धि के कारण टाइम-श्रृंखला analysis की आवश्यकता पर विशेष रूप से जोर बढ़ा है। इसी कारण, टाइम-श्रृंखला anomaly detection साइबर सुरक्षा, वित्तीय बाजार, कानून प्रवर्तन और healthcare जैसे विभिन्न क्षेत्रों में एक महत्वपूर्ण activity के रूप में स्थापित हुआ है।
-
पारंपरिक anomaly detection साहित्य आमतौर पर सांख्यिकीय मापों पर केंद्रित था, लेकिन पिछले कुछ वर्षों में बढ़े हुए machine learning algorithms ने टाइम-श्रृंखला anomaly detection research methodology के लिए अधिक structured और general गुणों की मांग की।
-
यह survey टाइम-श्रृंखला संदर्भ में process-centric वर्गीकरण पद्धति के जरिए मौजूदा anomaly detection solutions को समूहित और summarize करता है। साथ ही, यह anomaly detection methods का एक unique वर्गीकरण प्रदान करता है, literature का meta-analysis करता है और टाइम-श्रृंखला anomaly detection शोध के सामान्य रुझानों का व्यापक सार प्रस्तुत करता है.
-
1 टिप्पणियां
Hacker News टिप्पणी
UCR Matrix Profile समय-श्रृंखला विश्लेषण में बहुत efficient टूल है। यह motif और anomalies खोजने में पारंपरिक तरीकों की तरह window size और threshold को ट्यून करने की जरूरत नहीं डालता, और manufacturing sensor data से लेकर ECG analysis और earthquake detection तक कई क्षेत्रों में उपयोग हो सकता है।
Prometheus के offset फीचर का उपयोग करके मैंने weekly average को एक recording rule के रूप में सेट किया। ऐसा सिस्टम जो weekly periodicity के साथ बदलता है, उसमें किसी metric का average निकालकर उसे वर्तमान value से compare करके dynamic threshold सेट किया जाता है। Gitlab में इस approach पर detailed explanation उपलब्ध है।
यह पिछले कुछ वर्षों के काम को reflect नहीं करता। Granite TS नाम का एक time-series आधारित model ठीक काम करता है और anomaly model अगले N steps predict करके देखता है कि वास्तविक माप अपेक्षित value से कितना अलग है।
water-tech में IoT devices पानी के flow को monitor करते हैं, leak detect करते हैं और device-wise water consumption estimate करते हैं। leak detection यानी time-series anomaly पहचानना; मौसम के हिसाब से पाइप के तापमान बदलाव के कारण कई distributions की जरूरत पड़ सकती है।
performance tracking प्रोजेक्ट में मैंने anomaly detection ट्राई की थी, लेकिन कोई अच्छा open source या paid solution नहीं मिला। इस क्षेत्र में बहुत सारा opportunity है।
डेटा निर्माण की जटिलता, मापन systems की imperfections और malicious actors के interaction की वजह से anomalous व्यवहार होता है। ऐसे anomalous events collect किए हुए डेटा में outlier की तरह दिखते हैं।
मैं industrial machines के लिए time-series anomaly detection पर केंद्रित एक startup चला रहा हूँ और ऑफ़लाइन चलने वाला solution बना रहा हूँ। अगर आपको security-sensitive industrial software में रुचि है, तो संपर्क करें।
Eamonn Keogh की TSAD से संबंधित studies काफ़ी रोचक हैं।
SVM को क्यों "Distribution-Based" categorize किया गया, इसमें मैं उलझा हूँ। आमतौर पर यह model-free density estimation या model-based distribution estimate नहीं करता।
करीब 10 साल पहले, मास्टर्स के दौरान मैंने एक online failure prediction system बनाया था, जो exception आने से पहले detect करके प्रतिक्रिया दे सके। इस क्षेत्र में बहुत कुछ करने को था, लेकिन दोबारा इस पर काम न कर पाने का अफ़सोस है।