outlier detection for temporal data: a survey · outlierdetectionfortemporaldata:asurvey...

Outlier Detection for Temporal DATA: A Survey

Manish Gupta et al.

presented by 이종진

Seoul National University

[email protected]

July 06, 2018

1/50

Table of Contents

1. Introduction

2. 시계열 데이터에서의 이상점 탐지

3. 스트림 데이터에서의 이상점 탐지

4. Stream Data in Distributed Scenarios에서의 이상점 탐지

5. Spatio-Temporal Data에서의 이상점 탐지

6. Temporal Networks에서의 이상점 탐지

7. 시간 관련 데이터의 이상점 탐지 기법의 적용사례

2/50

Overview

I 통계학에서 지난 수십 년간 시계열의 이상점 탐지에 대한 연구가 꾸준히

이루어져왔다.

I 최근 하드웨어와 소프트웨어의 발달로 컴퓨터공학에서도 시간에 따른

이상점 탐지에 대해 많은 연구가 진행되고 있다.

I 다양한 종류의 시간 관련 데이터에 대해 이상점 탐지 연구가 진행되고 있다.

1. Data streams

2. Spatio-temporal data

3. Distributed streams

4. Temporal networks

5. Time series data

3/50

Overview

I 연구가 활발함에 따라, 시간에 따른 이상점 탐지에 대해 진행된 연구에 대한

체계적이고 자세하게 정리하는 것에 대한 필요성이 생겨났다.

I 이 논문에서는 시간 데이터의 이상점 탐지에 대해서 포괄적이면서

체계적으로 정리하고 있다.

→ 다양한 형태의 시간 관련 데이터에 대해서 이상점의 정의, 탐지 기술,

특정 정의와 기술이 적용되는 시나리오를 제시.

4/50

1. Introduction

I 시간 관련 데이터에서 이상점 분석 문제는 여러 측면에 따라 분류할 수 있다.I 이 분야는 매우 풍부해서 시간 관련 데이터를 어떤 특정 범주로 한정지을 순

없으며 다양한 범주들의 조합으로 나타난다.1. 시계열 vs 고차원 데이터 : 시계열에서는 시간의 연속성이 가장 중요하고 시간의

작은 창을 잘 선정하여 분석을 한다. 반면에 고차원 데이터는 시간적특성에 크게

의존하지 않고 일반적인 고차원 이상점 분석 기법과 크게 다르지 않은 기법을

이용하여 분석을 한다.

2. 점 vs 창 : 시간 데이터에서 비정상적인 점을 찾는 것을 목표로 하느냐,

비정상정인 변화의 패턴을 찾는 것을 목표로 하느냐에 따라 분류 된다.

3. 데이터 타입에 따른 분류 : 연속형, 이산형, 고차원 스트림 혹은 네트워크

데이터에 따라 다른 분석 기법이 필요하다.

4. 지도 vs 비지도 : 과거의 비정상 예시가 이용가는한지의 여부에 따라 분류된다.

이 분류는 시간 데이터에만 국한되는 것이 아니라 다른 형태의 데이터 이상점

탐지에도 해당되는 내용이다.

I 이 논문은 총 162개의 논문에서의 이상점 탐지방법에 대해 정리하고 있으며,

이상점 탐지방법을 데이터의 다양한 측면에 따라 다양한 종류의 시나리오를

따라 정리해놓았다. 5/50

2. 시계열 데이터에서의 이상점 탐지

I 시계열 데이터베이스안에서 이상 시계열 및 이상패턴 탐지

I 단일 시계열안에서 이상패턴 및 이상점 탐지

6/50

2.1 시계열 데이터베이스안에서 이상 시계열 및 이상패턴 탐지

I 각 시계열의 이상 점수(Anomal Score) 계산을 통해 이상 시계열 탐지

I 이상 점수를 계산하는 방법에 따라 두 가지 유형으로 나뉨

– Direct Detection of Outlier Time Series.

1. Unsupervised Discriminative Approaches

2. Unsupervised Parametric Approaches

3. Unsupervised OLAP Approaches

4. Supervised Approaches

– Window-Based Detection of Outlier Time Series

1. Normal Pattern Database Approach

2. Negative and Mixed Pattern Database Approaches

– Outlier Subsequences in Test Time Series

7/50

D1. Unsupervised Discriminative Approaches

I 판별함수는 두 시계열 간의 유사도를 측정하는 유사도 함수의 종류와 군집화

방법에 따라 달라진다.

I 유사도 함수 : Simple match count based sequence similiarity, Normalized

length of the longest common subsequence(LCS)

→ "ABCDGH" and "AEDFHR", length of LCS = 3("ADH"), Normalized

length = 3√6∗6

I 군집화 방법 : k-평균, EM, phased k-평균, 동적 군집화, k-대표, 단일

연결법, 주성분분석을 이용한 고차원 시계열의 군집화, one-class SVM, 자기

조직화 지도(self-organizing maps).

I 이상 점수는 test 시계열과 가장 가까운 군집의 평균값 혹은 중심값 까지의

거리로 정의

I 어떤 시계열의 이상 점수가 정해진 기준보다 낮으면 이상 시계열로 판별

8/50

D2. Unsupervised Parametric Approaches

I 시계열을 생성하는 모형을 모수적 모형으로 추정

I 이상 점수는 각 시계열이 생성될 확률값

I 유명한 모형으로는 유한 상태 기계(FSA), 마르코프 모형, 은닉 마르코프모형.

– 유한 상태 기계 : 크기가 l인 부분 시계열들을 이용하여, 모형을 적합시키고, test

시계열에서 가능한 모든 크기 l의 부분 시계열을 이용하여 모형에 넣어본다.

FSA가 더 이상 밖으로 향하지 않는 상태에 도달하면 이상 시계열로 판단.

– 마르코프 모형

– 은닉 마르코프 모형 : 은닉상태와 전이 확률은 시간적 의존성을 혼합 성분으로

모형화, 설명력이 높다는 것과 이론적 기반이 잘 되어 있다는 것이 장점.

9/50

D3. Unsupervised OLAP Based Approach

I OLAP : OnLin Analytical Processing(온라인 분석 처리)

I 온라인 분석 처리는 의사결정 지원 시스템 중 하나로, 사용자가 데이터들을

여러 기준을 선택적으로 이용하여 다차원 데이터 분석을 할 수 있도록

도와준다.

I 데이터베이스에 있는 시계열들이 각각 고차원 특성들과 관련이 있을 때,

OLAP cube를 이용하여 재 표현 가능하다.

I 시계열의 추세, 추세의 크기 등 이 기대값과 현저히 차이가 날 때, 이상

시계열로 판별

10/50

D4. Supervised Approaches

I position system call features with RIPPER Classifer(규칙 기반 분류모형)

I subsequences of positive and negative strings of behavior feature with

string match classifier

I 인공신경망

I Elman network

I motion features with SVMs

I bag of system calls with decision tree, Naive Bayes, SVMs.

I Sliding window subsequence features with SVMs, rule based classifer,

HMMs.

11/50

W1. Normal Pattern Database Approach

I 정상 시계열은 크기가 w이면서 겹치는 부분 시계열(창)으로 나눈 후, 데이터

베이스로 저장한다.

I Test 시계열 또한 크기가 w인 부분 시계열로 나눈 후, 데이터 베이스와

비교했을 때, 데이터 베이스에 없는 부분 시계열이 많이 나온다면 이상

시계열로 판단한다.

I soft mismatch score를 도입하여 완전히 동일한 부분 수열이 없을 때도

얼마나 유사한지 여부에 따라 점수를 주는 방법도 있다.

I 정상 데이터 베이스를 만들때, 인접한 부분 시계열 사이의 관계를

이용하기도 한다.

12/50

W2. Negative and Mixed Pattern Database Approaches

I 이상 시계열의 데이터 베이스 또한 만드는 방법.

I 정상 시계열의 크기가 w인 모든 가능한 부분수열을 정상 데이터 베이스로

저장한다.

I 정상 데이터 베이스에 있지 않은 크기가 w인 수열을 detectors 혹은 negative

subsequences로 간주한다.

I Test 시계열에 어떤 detector가 존재한다면 이상 시계열로 판단한다.

I Detecter는 랜덤하게 생성할 수 있고, 특정 상황에 대한 지식을 이용하여

정상시계열에 없을 것이라고 판단되는 부분 시계열을 이용할 수 있다.

13/50

S1. Outlier Subsequences in a Test Time Series

I 이상 패턴(이상 부분 시계열)을 찾아내는 방법이다.

I Test 시계열의 이상 패턴(p)의 이상점수는 test 시계열에서 패턴p의 빈도와

데이터 베이스에서의 패턴p의 평균 빈도의 차이로 정의된다.

I 빈도 역시 soft match version을 이용해 구하기도 한다.(부분수열의 빈도,

Permutation of p의 빈도)

I TARZAN alogorithm, Interolated Markov Models(IMM)

14/50

2.2 단일 시계열에서의 이상점, 이상패턴 탐지

I 단일 시계열에서 이상점을 탐지하는 방법과 이상패턴을 탐지하는 방법을

소개하고 있다.

– 이상점 탐지

1. Prediction Models

2. Profile Similarity based Approaches

3. Deviants

– 이상패턴 탐지

15/50

P1. Prediction Models

I 특정 점에 대한 이상점수는 예측모형의 예측값과의 차이로 계산된다.I 예측 값

– 크기가 2k인 window의 평균(t-k에서 t+k까지 평균)

– 군집화하여 시점 t에서의 값이 속하는 군집의 평균

– 회귀모형을 이용

– Single-layer linear network predictor(or AR 모형)을 이용(많은 논문들이)

– Multilayer perceptron predictor, Support Vector Regression을 이용

I 다양한 예측모형 이용

– Non-Gaussian 시계열 데이터에 Mixture transition distribution(MTD)을 제안

– Additive outliers, innovation outliers, level shifts, 다변량 시계열 자료에

temporary changes를 탐지하기 위 vector ARIMA를 제안

– Individual points, multiple outliers를 re-weighted maximum likelihood

estimates, Gibbs sampling, block interpolation을 이용한 예측모형으로 탐지

I 예측모형의 추정방법과 이상점의 형태에 따라 다양한 예측모형이 존재한다.

I 다변량 시계열에서 이상점 탐지는 사영방향을 잘 선택해야만 이루어졌다는

논문도 있다.

16/50

P2. Profile Similarity based Approaches

I (정상)기준 자료를 유지하면서 새로운 시점에서의 자료가 들어왔을 때,

비교를 통해 이상여부를 판단.

I Tiresias system

– 참고 (정상)기준 자료와 분산벡터를 유지

– 새로운 시점에서의 자료가 들어 왔을 때, (정상)기준 자료료와 분산벡터를

이용하여 이상점수를 계산

– 여기서 (정상)기준 자료는 과거의 자료에서 자료의 형태를 크게 변환시키는

불연속점 등을 제거한 것

I 인공신경망을 이용해 (정상)기준 자료를 유지하면서 그 자료를 토대로 다음

예측을 하는 모형도 있다.

17/50

P3. Deviants

I Deviants: 어떤 P라는 점을 제거한 결과, 훨씬 더 간결한 시계열이 되었다면,

P라는 점을 deviant라고 한다.

I "Information-theoretic models exploare the space-deviation tradeoff by

fixing the deviation, rather than fixing the space, as in conventional

models."

I 한 점을 제거하고 시간을 n개의 bucket으로 묶어 히스토그램화 시켰을 때,

가장 작은 오차가 나게 하는 점을 찾는 것이 목표, 이 점이 deviant

I Dynamic programming mechanisum을 이용해 devian 찾은 논문이 있다.

I 또, 다른 논문은 관찰을 통해 어떤 bucket이든 최적의 k개의 deviants들은

항상 l개의 가장 큰 값과 k-l개의 가장 작은 최적의 값으로 구성되는 것을

확인하였고, 그것을 이용해 dynamic programming based solution을

추정하는 방법을 제시하였다.

18/50

S1. 이상패턴

I 주어진 시계열 T의 크기가 n이고 l시점에서 시작하는 부분 수열 D에 대해,

D가 가장 인접한 non-self match의 거리가 가장 큰 값을 가진다면 부분수열

D를 T의 discord(이상패턴)이라 정의 (non-self match : 시작점간의 거리가

n이상인 관계)

I 모든 크기가 n인 부분수열과 그것과 non-self match인 부분수열간의 거리를

다 구한 후 Top-k pruning을 통해 이상패턴을 탐지할 수 있다.

I Pruning 방법

– Heuristic reordering of candidate subsequences

– Locality sensitive hashing

– Harr wavelet and augmented tries

I 거리는 대부분 Euclidean distance를 이용하였고, Compression based

Dissimilarity Measure(CDM)을 사용한 논문도 있었다.

19/50

I 시간 간격이 일정하지 않게 측정된 시계열 자료에서 이상패턴을 탐지하고

하는 논문도 있었다.

– 패턴은 두 개의 연속한 점을 가지는 부분 수열로 정의

– 같은 기울기와 길이를 가지는 패턴의 개수가 적을 때, 이상패턴으로 판단

– multi-scale의 이상 패턴을 탐지하기 위해, Haar transformation을 이용

I a lead window와 a lag window를 인접하게 정하고, lead window에 의해

생기는 부분수열이 lag window에서 생기는 부분수열과 유사도가 낮으면

이상패턴으로 판단

20/50

스트림 데이터

I 정적인 데이터와 달리 스트림 데이터는 길이가 고정되어 있지 않다.

I 스트림은 시계열 데이터일 수도 있고 고차원 데이터일 수도 있다.

– Evolving Prediction Models

1. Online Sequential Discounting

2. Dynamic Cluster Maintenance

3. Dynamic Bayesian Networks

– Distance-Based Outliers for Sliding Windows

– Distance-Based Global Outliers

– Distance-Based Loacl Outliers

– Outliers in High-Dimensional Data Streams

21/50

3.1 Evolving Prediction Models

I 고차원 데이터 스트림 s에서 이상점 찾기 위해 evolving prediction models을

이용한다.

I Evolving prediction models은 데이터의 정상 추세를 따라가기 위해, 새로운

데이터가 들어오면 모형의 모수를 업데이트하는 방법이다.

22/50

E1. Online Sequential Discounting

I SmartSifter– Online discounting learning algorithm을 이용하여 점진적으로 probabilistic

mixture model을 학습시킨다.

– Drift를 설명하기 위해 decay factor를 도입하였다.

– 점증적인 업데이트와 일시적인 decay가 다면 일반적인 고차원 데이터의 이상점

탐지에도 이용된다.

– 범주형 변수에 대해서는 Sequentially Discounting Laplace Estimation(SDLE)

알고리즘을 제안.

– 연속형 변수에 대해서는 independent model과 time series model을 이용한다.

– independent model은 모수 모형일 경우엔 Gaussian mixure

model(Sequentially Discounting EM 알고리즘을 이용해 학습)을 비모수

모형일 경우엔 kernel mixture model(Sequentially Discounting Prototype

Updating 알고리즘을 이용해 학습)을 이용한다.

– Time series model일때는 AR모형(Sequentially Discounting AR알고리즘을

이용하여 학습)을 이용한다.

– Hellinger score나 logarithmic loss를 이상점수로 정의하여 이상여부를

판단한다.

23/50

E2. Dynamic Cluster Maintenance

I Oneling discounting 방법을 쓰지 않은 것들 중 많은 경우가 dynamically

maintained cluster models을 이용하여 스트림 데이터의 이상점을 탐지했다.

I 예를 들어 normalized length of the longest subsequence(LCS)가 dynamic

clustering를 위해 유사성을 측정하는 함수로 사용 되었고, 텍스트 관련

자료에서도, 이상점을 찾기위해 온라인 군집화 방법이 제안되었다.

24/50

E3. Dynamic Bayesian Networks

I 모형의 모수를 업데이트하는 것이 충분하지 않을 수도 있다.

I 한 논문은 dynamic Bayesian networks로 Bayesian networks with networktopology를 제안했다.

– 모형이 시간이 지남에 따라 새로운 상태변수를 추가하면서 진화한다.

– 이상점을 탐지하기 위해 Bayesian credible interval(BCI)와 maximum a

posteriori measurment status(MAP-ms)라는 두가지 방법을 이용

– BCI는 HMM 모형을 이용하고, 데이터의 측정치가 p% BCI밖에 떨어지면

이상점으로 분류

– MAP-ms는 2-layered DBN을 이용하고 은닉상태의 maximum a posteriori

estimate을 이용하여 데이터의 이상여부를 판단한다.

25/50

3.2 Distance-Based Outliers for Sliding Windows

I 예측모형을 이용하여 이상점을 찾는 것이 아니라 거리에 기반을 둔 이상점

탐지방법

I o가 DB(k,R) distance outlier라는 것은 o로부터 거리가 R만큼 떨어진 점이

k개 미만이라는 것을 의미한다.

I global하게 정의될 수 있고, 현재의 slide window안에서 국소적으로 정의 될

수 있다.

26/50

D1. Distance-Based Global Outliers

I stream이 진행되는 동안 outlier의 여부는 바뀐다.

I safe-inlier와 succeding neighbors

I k=3일 때, o9는 safe-inlier와 o11는 아니다.

27/50

D1. Distance-Based Global Outliers

I Indexed Stream Buffer(ISB)이라 불리는 새로운 자료 구조를 이용하여distance outlier를 계산하는 Exact algorithm을 제시

– Safe inlier에 대한 heuristic한 조건에서 수렴하는 Approximate algorithm을

제시

I 모든 neighbor relationships을 저장하는 것은 비효율적이며, abstracted

neighbors relationships은 저장하는 것을 제안

28/50

D2. Distance-Base Local Outliers

I Local Outlier Factor(LOF)는 주어진 데이터에 대해 주변 neighbor에 대해서

local deviation을 측정하여 이상점을 탐지하는 알고리즘

I 원래 정적인 데이터에 맞는 방법으로 스트림데이터에 맞게 incremental LOF

로 변형

I (a) periodic LOF, (b)supervised LOF, (c)iterated LOF

I 더 나은 접근을 제시하는 논문도 있었다.

I 데이터셋 안의 내장된 data record에 대해 incremental LOF를 이용해 LOF값을

구하고, 즉시 내재된 data record가 이상점인지 판단하는 방법.

29/50

3.3 Outliers in High-Dimensional Data Streams

I Stream Projected Outlier deTector(SPOT)을 고차원 스트림 데이터에서

이상점 탐지를 위한 방법을 제시.

30/50

I Distributed setting에서는 이상점 탐지의 어려움이 존재한다.

– Resourse constraints: 컴퓨터의 성능, 메모리

– High communication cost

– Large-scale deployment : 기존의 이상점 탐지 방법을 바로 적용할 수 없다.

– Distributed Temporal Data.

1. Sharing Local Outliers and Other Data Points

2. Sharing Local Outliers Only

3. Sharing Local Outliers and Data Distributions

– Distributed Sensor Data Streams With Spatial Considerations.

31/50

Distributed Temporal Data

I Distributed stream setting에서 데이터들은 다양한 노드(혹은 센서)에

퍼져있다.

I 각 센서에서 들어오는 데이터들을 이용하여 distance based outlies(based on

global data)를 찾는 것이 목표이다.

32/50

DT1. Sharing Local Outliers and Other Data Points

I Global top-K outliers를 계산하고자 한다.

I 각 센서에서 가지고 있는 데이터와 다른 센서에서 받은 정보를 이용해 top-K

outliers를 계산한다.

I 센서들끼리, 각 센서의 이상점과 그 support를 주고 받는다.

33/50

DT2. Sharing Local Outliers Only

I 모든 센서에서 많은 데이터를 주고 받는 것은 계산적으로 비효율적이다.

I 이상점만 주고 받는 방법이 제안되었다.

I 모든 센서에서 이상점이라고 판단된 이상점만 global outlier로 가정한다.

I global computaion이 없으므로 approximation algorithm이다.

34/50

DT3. Sharing Local Outliers and Data Distributinos

I Local outlier와 함께 데이터의 분포도 같이 공유되는 방법이다.

I Sensor network가 계층관계를 가진다.

I Kernel density estimator를 이용하여 센서의 데이터 분포를 추정하고 이를

이용해 이상점을 찾는다.

I Local model과 outlier를 parent nodes에 보내면서 global outlier를 계산한다.

I Density based method로 Multi Granularity Deviation Factor(MDEF)

metric을 제안한 논문도 있다.(비모수적 방법)

I Hierarchical architerctiure를 제안한 논문도 있다.

35/50

4.2 Distributed Sensor Data Streams with Spatial Considerations

I 센서의 위치가 중요할 때가 있다.

I 센서의 위치(x,y)와 스트림 데이터가 주어졌을 때, 이상 센서 혹은 이상

지역을 찾고자 한다.

I 군집화, 시간에 따른 이상점 탐지, 공간적 다양성 배제, 공간에 따른 이상점

탐지의 순서로 이루어진다.

I 어떤 에너지원 근처에서 더 강한 에너지가 관측되는 것을 이상 센서로

탐지하는 것을 막기 위함이다.I 마지막 단계에서 variogram method를 이용한 논문이 있다.

I 센서들간의 공간적 다양성을 보여주고, 이를 이용해 데이터의 다수와 많이

떨어져있는 것을 이상점으로 판단한다.I 이상점이 시간과 공간에 대해, uncorrelated 되어잇다는 가정이 필요하다.I α-stable distribution으로 모형화 가능하다

I 센서의 위치를 이용하는 다른 방법으로 특정 거리 r 안의 neighbor를

고려하는 방법도 있다.

I 이상센서가 발견되고 나서 polygonal outlier regions을 계산하는 모형을

제안한 논문도 있다. 36/50

5. Spatio-Temporal Data에서의 이상점 탐지

I 몇몇 연구들은 오직 시간적인 근접성만을 이용해 이상점을 찾고, 또 다른

연구들은 공간적 근접성만을 이용해 이상점을 찾는다.

I 두 가지 모두 고려하여 이상점을 찾고자 한다.

– Techniques for ST-Outlier Detection

– Tracking of ST-Outliers– Trajectory Outliers

1. Distance Between Trajectories

2. Direction and Density of Trajectories

3. Historical Similarity

4. Trajectory Motifs

37/50

Techniques for ST-Outlier Detection

I 대부분의 방법은 공간에 따른 이상점을 먼저 찾고, temporal neighborhood

를 고려한다.

I 공간에 따른 이상점을 찾는 방법은 다양하다.I Density-based ST-Outler detection mechanism을 제안

– modifed DBSCAN clustering algorithnm을 이용해 clustering을 한다.

– spatial neighbors를 이용해 잠재적 이상점을 탐지한다.

– 이제 temporal neighbors를 고려해서 ST-Outlier인지 확인한다.

I 다음과 같은 네 가지 단계로 접근을 제안

– (1) clustering

– (2) aggregation : 공간적인 scale을 줄인 후 clustering 해본다.

– (3) comparison : 두 가지 scale을 비교하여 잠재적 이상점을 추려낸다. (1)에

있지만 (2)에 없는 것은 이상점일 확률이 높다.

– (4) verification : 시간적인 특성까지 고려해서 ST-Outlier를 찾아낸다.

I Voronoi diagram을 이용해 spatial clusters를 형성하는 방법을 제안한

논문도 있다.

38/50

Tracking of ST-Outliers

I ST-Outliers들이 시간과 공간에 따라 변화가 없을 때 사용하는 방법들

I Outstretch라는 ST-Outliers detection algorithm을 제안한 논문이 있다.

I 다양한 시간에 걸쳐 top-K spatial outlier로 판단되는 이상 패턴을 발견하는

알고리즘이다.

I a wavelet fuzzy classification approach를 제안한 논문이 있다.

I 기상 데이터에서 region outiers를 찾고 추적하기 위한 방법I wavelet transform을 적용하여 원래의 데이터에는 숨겨져있는 패턴을 찾는다.I edge detection을 이용해 outlier regions의 경계를 찾는다.I outlier regions의 중심을 이용해 region outlier의 움직임을 잡아내고 추적한다.

39/50

Trajectory Outliers

I A set of tracjectories가 주어졌을 때, anomalous tracjectories를 찾는 방법.

40/50

T1. Distance Between Trajectories

I TRAjectory Outlier Detection(TRAOD) algorithm은 제안한 논문이 있다.

– (1) Partitioning Phase, (2) Detection Phase

– 2-level partitoining이란 방법으로 여러개의 partitions으로 나눈다.(trajectory

간의 거리는 perpendicular distance, parallel distance, angle distance의

가중합으로 정의)

– 충분한 개수의 similar neighbors가 없으면 이상 trajectory로 판단한다.

41/50

T2. Direction and Density of Trajectories

I 방향과 밀도의 관점에서 두 가지 이상 trajectories를 고려한 논문이 있다.

I Summarized direction과 Trajectory의 밀도 분포가 격자별로 충분히 많은

historical trajectory data로부터 얻어진다.

I Trajetory의 방향이 기존에 요약된 trajectory의 방향과 다르면 이상

trajectory로 판단한다.

I Trajectory가 지나가는 격자에서 기존 밀도 분포와 비교해서 이상점수가

계산되고 이를 이용해 이상여부 판단한다.

42/50

Historical Similarity

I 이전의 방법들은 공간적 연속성을 이용하여 이상점을 탐지

I 시간에 따른 이상점을 찾기 위해서, 데이터들 간의 historical similarity trend에 초점을 맞춘 논문이 있다.

– 각 시점마다 road segments간의 유사성을 확인한다.

– Historical simiilarity values가 temporal neighborhood vector에 저장되고, 이

vector의 급격한 변화가 이상점으로 판단된다.

43/50

Trajectory Motifs

I a motion-classifer for trajectory outlier detecion을 제안한 논문이 있다.

– (a) motif라 불리는 물체의 움직임에 관한 특성들을 trajectory에서 뽑아낸다.

– (b) 물체 움직임에서 이상을 탐지하기 위해 motifs를 이용해 trajectory를

군집화를 한다.

– (c) 새로운 물체가 들어오면 고차원의 feature space를 이용해 이상여부를

판단한다.

44/50

6. Temporal Networks에서의 이상점 탐지

I 이상 Graph를 탐지하는 방법.

– Graph Similarity-Based Outlier Detection Algorithms

– Online Graph Outlier Detection Algorithms

– Community-Based Outlier Detection Algorithms

45/50

6.1 Graph Similarity-Based Outlier Detection Algorithms

I A series of graph snapshots이 주어졌을 때, 이상 graph snapshots을 찾는

방법.

I 다양한 graph distance metrics을 이용하여 인접한 시점의 graph간의 비교를

통해 network changes에 대한 시계열 자료를 만들 수 있다.

I 이렇게 얻은 시계열 데이터를 univariate ARMA을 이용해 모형화하고,

이상점을 찾을 수 있다.I G와 H, 두 그래프 간의 거리르 계산하기 위한 distance/similarity measure들:

– Weight Distance, MCS Weight Distance, MCS Edge Distance, MCS Vertex

Distance

– Graph Edit Distance, Median Graph Edit Distance, Modality Distance,

Diameter Distance

– Entropy Distance, Spectral Distance, Umeyama Graph Distance

– Vector Similarity, Spearman’s correlation coefficient, Sequence similiarity,

– Signature similiarity, Vertex/edge overlap(VEO), Vertex Ranking(VR)

46/50

6.2 Online Graph Outlier Detection Algorithms

I 이상 graph snapshot 혹은 outlier localized region을 찾는 방법이다.

I 이전의 방법은 고정된 길이의 시계열 graph에 적용하는 방법이였다.

I Eigenvector-based method를 제안한 논문이 있다.

– 시점 t에서 graph weight matrix의 주성분 벡터를 u(t)라 하자.

– U(t) = [u(t),u(t-1), ... u(1)]의 left singular vector가 "typical pattern"

– "typical pattern"과의 각도가 유사정도를 의미한다.

– 이 논문의 저자는 이 각도의 threshold값을 실시간 알고리즘으로 계산하는

방법을 제시

I 또 다른 논문은 구조적 연결성 모형을 이용해 graph의 스트림에서 outlier를탐지하는 방법을 제시

– unusual bridging edge를 포함하고 있는 graph를 이상 graph 판단

47/50

6.3 Community-Based Outlier Detection Algorithm

I anomalous temporal commnity changes를 찾는 것이 목표

I 네트워크의 두 snapshots이 주어졌을 때, communities에서 차이가 존재한다.

I 대부분의 경우 주요한 community distribution change trends를 따라 변화가

발생하지만, 일부의 경우 그렇지 않다.

I 그 일부를 Evolutionary Community Outliers라 한다.

I Usual transition trends를 파악해야하는데, 이를 위한 핵심이 바로 두 graph

간의 공통 communities를 계산하는 것이다.

I 그 계산에 ECOutlies가 섞여있으면 공통 communities 계산에 어려움을

겪는다.

I 이상점 탐지와 community matching을 동시에 하는 방법들이 많은 논문에서

제안되었다.

I Integrated formulation이 community matching후에 이상 변화를 찾는

것보다 훨씬 효과적이다.

48/50

6.3 Community-Based Outlier Detection Algorithm

I 어떤 논문은 다수의 snapshots이 주어진 일반적인 상황에서 이상을탐지하는 연구를 했다.

– 그 이상점을 Community Trend Outliers라고 한다.

– CEOutlier는 anomalous community transition을 잘 잡아내고, CTOuliers는

anomalous community changes across multiple time snapshots을 잘

잡아낸다.

49/50

7. 시간 관련 데이터의 이상점 탐지 기법의 적용사례

I 다양한 시간 관련 데이터에 대한 이상점 탐지 기법 논문이 있다.

– Enviromental Sensor Data

– Industrial Sensor Data

– Surveillance and Trajectory Data

– Computer Networks Data

– Biological Data

– Astronomy Data

– Web Data

– Information Network Data

– Economics Time Series Data

50/50

outlier detection for temporal data: a survey · outlierdetectionfortemporaldata:asurvey...

Documents