머신러닝기반의 anomaly detection ( k사사례중심파일유통 영업가족 이탈...

14
머신러닝 기반의 Anomaly Detection ( K사 사례 중심 ) 애자일소다 컨설팅사업본부 곽동헌 수석 2018. 04. 26.

Upload: others

Post on 25-Jan-2020

5 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 머신러닝기반의 Anomaly Detection ( K사사례중심파일유통 영업가족 이탈 개인정보 파일명 데이터유형 정형데이터 비정형데이터 분석 관점/목적

머신러닝 기반의 Anomaly Detection

( K사 사례 중심 )

애자일소다 컨설팅사업본부 곽동헌 수석

2018. 04. 26.

Page 2: 머신러닝기반의 Anomaly Detection ( K사사례중심파일유통 영업가족 이탈 개인정보 파일명 데이터유형 정형데이터 비정형데이터 분석 관점/목적

1

Anomaly Detection

• Anomaly Detection (also outlier detection) is the identification of items, events or observations which do not conform to an expected pattern or other items in a dataset.

• 전체 사용자 행위 中, 극소수가 실질적인 의심 행위에 해당

출처 : Cisco 2017 Cybersecurity Report

Figure : Identifying User Behavior Patterns with Automation

“Advanced analytics을 이용하여

이상치(Anomalies)에 대한 사전 탐지 必要”

Page 3: 머신러닝기반의 Anomaly Detection ( K사사례중심파일유통 영업가족 이탈 개인정보 파일명 데이터유형 정형데이터 비정형데이터 분석 관점/목적

2

Knowledge Discovery & Management Process

• 이상징후를 탐지하기 위한 지식은 어떻게 도출해야 하는가?

Data Target Data Preprocessed Data Transformed Data Patterns/Models Knowledge

SYSTEM(Data기반)

Service

학습된메타 모델 생성

서비스 개발

DB 저장 /모델 API 개발

Business Rule

통계, ML 등

HUMAN(노하우,사례,

기준집등 기반)

Data 분석, 항목도출, 룰 모델링 관련 분석/설계/개발 진행

BRMS

ETL, OLAP, etc

비용IT/현업

사용자 편의성개발생산성 유지보수성능

Selection PreProcessing Transformations Data MiningInterpretation

Evaluation

Page 4: 머신러닝기반의 Anomaly Detection ( K사사례중심파일유통 영업가족 이탈 개인정보 파일명 데이터유형 정형데이터 비정형데이터 분석 관점/목적

3

K사 VOC

• Voice Of Customer

분석영역

관리/운영영역

✓모델링 수행 역량

▪ 분석 주제별 적합한 알고리즘 탐색 및 선택 능력

▪ 기 운영 모델에 대한 변경 및 추가 적용 알고리즘 검토

▪ 경험, 노하우, 알고리즘에 대한 개념 이해 등

✓개발 역량

▪ 분석용 프로그램 언어(R) 이해 [문법, 자료구조, 패키지 등]

▪ R을 활용한 알고리즘 구현

✓비즈니스 관점

▪ 변경 또는 추가 적용된 모델링 결과에 대한 모니터링 및

비즈니스 검증

✓시스템 관점

▪ 개발된 모델의 관리, 협업, 운영 시스템 적용

Page 5: 머신러닝기반의 Anomaly Detection ( K사사례중심파일유통 영업가족 이탈 개인정보 파일명 데이터유형 정형데이터 비정형데이터 분석 관점/목적

4

K사 구축 목표• 분석업무정의 -> 분석 모형생성, 검증 -> 결과 모니터링 등 일련의 과정을 담당자가 직접 수행

가능하도록 Self-Service 분석 체계 구축

개인정보 조회 패턴

비지니스 분석 & 모델링

임계치 예측 모델

영업가족 이탈예측 모델

Multiple Regression

업무 이상 예측 모델

Random Forest

GBM

Logistic Regression

군집 / 분류

K-Means

EDA (추이,분포,비교) Visualization( R-package )

상관 관계 분석2Depth SAR

Association Rules

분석 업무 확대(TBD)

지식 운영/관리 시스템 (Monitoring)

Decision Tree

운영 & 관리

분석 모델링 방법 및 알고리즘 고도화(분석 방법 도출, 신규 알고리즘 적용 등)

지속적 분석 역량 강화(분석트랜드, 교육, 분석과제수행 등)

모델 관리 (Maintenance)

분석 모델별 R코드 모듈화

담당자 개별 R 교육

모델 자동 갱신 적용

●●●

+ +

영업가족 이탈

개인정보 파일 유통

개인정보 파일명 vs 보유량

APP 비정상 접근

●●●

●●●

Page 6: 머신러닝기반의 Anomaly Detection ( K사사례중심파일유통 영업가족 이탈 개인정보 파일명 데이터유형 정형데이터 비정형데이터 분석 관점/목적

5

K사 구축 Framework

• 이상징후 탐지 Framework

EDA(전체 추이 분석,

특정 목적에 맞는 분석 등)

EDA(개인추이분석)

유형

AnomalyPattern

illogic

Self-patternchange

Extreme case

Comparativeness

Serviceduplication

Non-existence

Overflow

Entity eligibility

SuspiciousEntities

Suspicious Relationship

비즈니스개인정보

조회개인정보파일유통

영업가족이탈

개인정보파일명

●●●

정형 데이터 비정형 데이터데이터 유형

분석관점/목적/학습방법

&분석 모델

이상행위 패턴 도출 모델

조회 행위수 예측 모델

이탈 예측 모델

순차 패턴 분석 모델

비정형 Text 분석 모델

EDA (전체/개인 추이 분석)

● ● ●

권한(Authorities)

상황(Contextual)

관계(Relationship)

●●●

지도학습

비지도학습

운영&

관리 비즈니스검증

모니터링소명

프로세스지식갱신

●●●

임계치(Threshold)

모델에 의해 선정된이상징후 대상자

Page 7: 머신러닝기반의 Anomaly Detection ( K사사례중심파일유통 영업가족 이탈 개인정보 파일명 데이터유형 정형데이터 비정형데이터 분석 관점/목적

6

[접근방법-1]-> 군집-> 클러스터 정의 및 레이블링-> 분류-> 유의미한 이상행위 패턴 도출

K사 모델링 사례

• 모델링 사례 1 : 개인정보조회 이상행위 사전 탐지기존 시나리오 고도화를 위한

패턴 도출업무 이상행위 예측 과다 조회 행위수 예측

분석 목적

군집 모델 분류 모델

군집 및 분류를 통한이상행위 패턴도출

EDA (전체 추이 분석)

모델링

업무 이상행위 대상자 예측 ->대상자 선정 및 개인추이 분석

예측 모델

EDA (개인 추이 분석)

개인정보 과다조회 대상자 예측 ->대상자 선정 및 개인추이 분석

예측 모델

EDA (개인 추이 분석)

[접근방법-1]-> 조회행위수 예측

[접근방법-2]-> 학습변수 추가

[접근방법-3]-> 예측변수 추가

-> 조회행위수, 조회고객수

[접근방법-4]-> 조회행위수, 조회고객수 예측-> 분석 관점별 예측 모델링 (N개)

분석 모델

[접근방법-1]-> 직책 예측

[접근방법-2]-> 직책 및 과다조회 대상자 예측

[접근방법-3]-> 직책의 업무 이상 대상자 예측-> 비교 대상군 선정 후 모델링 (N개)

Page 8: 머신러닝기반의 Anomaly Detection ( K사사례중심파일유통 영업가족 이탈 개인정보 파일명 데이터유형 정형데이터 비정형데이터 분석 관점/목적

7

K사 모델링 사례

• 모델링 사례 2 : 영업가족이탈 시 개인정보유출 사전 탐지

이탈자 선정

시나리오 기반 이탈 예측 [ 기존 방법 ] 모델 기반 이탈 예측 [ 신규 적용 ]

✓ 전체 데이터 중 이탈자를 10%로 선정✓ 해당 무

예측 방법

데이터

예측 결과

장단점

✓ 알고리즘 성능 비교

▪ 3가지 알고리즘으로 모델링하여 비교 평가

✓ 성능이 제일 좋은 알고리즘으로 모델링 후 Daily 예측

✓ 기초 통계, 경험, 노하우, 사례 등을 기반으로시나리오 구성

▪ Ex) 3개월 전 대비 실적 300% 증대 & 근무일수 30% 감소

✓ 영업가족 행위를 잘 설명하는 수백 여개의항목으로 구성

✓ 3개월 전 대비 실적비율, 근무일수감소율 등시나리오에서 사용되는 조건 항목

✓ 모델의 정확도 (AUC) : 90% 이상

✓ TEST 데이터에 대한 모델의 이탈 예측률 : 60% 이상

✓ 시나리오 기반 이탈 예측률

▪ 실제 이탈자 중 10~20% 예측

✓ 장점

▪ 대용량 데이터 처리 시 계산 능력이 좋음

▪ 개인, 세그 등에 대한 패턴을 반영하여 예측

✓ 단점

▪ 모델은 데이터의 양질에 의존적이며, 오탐가능성이 존재

✓ 장점

▪ 직관적이며 설명력 좋음

▪ 신규 시나리오 반영 용이

✓ 단점

▪ 발생 가능한 모든 상황에 대한 시나리오구성이 어려움

Page 9: 머신러닝기반의 Anomaly Detection ( K사사례중심파일유통 영업가족 이탈 개인정보 파일명 데이터유형 정형데이터 비정형데이터 분석 관점/목적

8

K사 모델링 사례

• 모델링 사례 3 : 개인정보 파일유통 분석을 통한 이상행위 사전 탐지 (개인정보를 유출할 수 있는행위의 패턴을 도출하기 위해 보안매체 트랜잭션 로그를 이용하여 선후 관계를 고려한 순차 패턴분석 수행 )

내부메일

직후 사용

(1) 직전 사건(보안매체 사용)이 발생 시, 직후 사건이발생할 연관 관계 분석

. A B 에 대한 확률을 모두 계산

(2) 비정상 행위로 의심되는 패턴의 보안 중요도 분석

순차 패턴 분석

보안매체 사용 및 순차 패턴 분석

의심되는 순차 패턴의 보안 중요도 분석

□ 비정상 행위로 의심되는 패턴의 트랜잭션

데이터 분석

비정상(직전) -> 비정상(직후) , 정상(직전) ->

비정상(직후) , 비정상(직전) -> 정상(직후) 행위

패턴에 대한 이상징후 대상 개인 추이 분석

□ 보안 매체 사용 현황 분석

□ 직전, 직후에 사용하는 보안매체의 순차 패턴

분석

비정상 행위로 의심되는 패턴 분석

외부메일

팩스

외부반출

원본저장

망분리반출

출력

USB

Page 10: 머신러닝기반의 Anomaly Detection ( K사사례중심파일유통 영업가족 이탈 개인정보 파일명 데이터유형 정형데이터 비정형데이터 분석 관점/목적

9

K사 분석 사례

• 과거 데이터 분석 사례 1 : 전체 추이 분석을 통한 특이 케이스 도출

[ 1분 동안 화면 조회율이 적은 추이를 보이는 직원 ]

-> 주말에 5분 동안 특정 화면의 조회량 급증

[ 최근1달 요일별 화면 조회(1분) 추이 TOP 4 ]

Page 11: 머신러닝기반의 Anomaly Detection ( K사사례중심파일유통 영업가족 이탈 개인정보 파일명 데이터유형 정형데이터 비정형데이터 분석 관점/목적

10

K사 분석 사례

• 과거 데이터 분석 사례 2 : 모델링을 통한 이상징후 대상자 선정 후 개인 추이 분석

[ 타인PC 접속하여 화면 조회수 급증 : 개인추이 분석 ]

[ 개인정보 과다조회 대상자 추이 ]

[ 평상 시 조회량보다 조회수 급증 : 개인추이 분석 ]

Page 12: 머신러닝기반의 Anomaly Detection ( K사사례중심파일유통 영업가족 이탈 개인정보 파일명 데이터유형 정형데이터 비정형데이터 분석 관점/목적

11

How to use ML ?

• Means & One of Various Approaches

신뢰, 배려

소통

지식 공유

변화(프로세스,신기술 등)에 대한 공감대 형성

비젼 수립 및 추진 의지에 대한 확신

지식 도출을 위한 수단으로 활용

Not Change ! More Advanced !Machine running can not replace a person.

The final decision maker is a person and machine learning is the means for optimal decision making.

Page 13: 머신러닝기반의 Anomaly Detection ( K사사례중심파일유통 영업가족 이탈 개인정보 파일명 데이터유형 정형데이터 비정형데이터 분석 관점/목적

12

The best way to solve the problem

• 모든 문제 영역에 적합한 萬能 Algorithm? -> NO

• A person who makes good use of the experience and system

✓ 경험

✓ 규정

✓ 사례

✓ 노하우

✓ 기초통계

✓ 비즈니스 검증

✓ ETC

✓ 빅데이터

✓ 분석 환경

✓ 모델링 수행 경험

✓ 알고리즘 이해도

✓ 모델 개발 역량

✓ 비즈니스 검증

✓ ETC

Page 14: 머신러닝기반의 Anomaly Detection ( K사사례중심파일유통 영업가족 이탈 개인정보 파일명 데이터유형 정형데이터 비정형데이터 분석 관점/목적

감사합니다.