빅데이터품질, 머신러닝을적용한자동화 도구로해결...임상정보(un-labeled...

27
빅데이터 품질, 머신러닝을 적용한 자동화 도구로 해결 빅데이터 품질, 머신러닝을 적용한 자동화 도구로 해결 위세아이텍 황덕열

Upload: others

Post on 09-Mar-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 빅데이터품질, 머신러닝을적용한자동화 도구로해결...임상정보(Un-Labeled Data) 이상값탐지 임상정보정상값범위(Label) 결과비교및알고리즘

빅데이터 품질, 머신러닝을 적용한 자동화도구로 해결

빅데이터 품질, 머신러닝을 적용한 자동화도구로 해결

위세아이텍 황덕열

Page 2: 빅데이터품질, 머신러닝을적용한자동화 도구로해결...임상정보(Un-Labeled Data) 이상값탐지 임상정보정상값범위(Label) 결과비교및알고리즘
Page 3: 빅데이터품질, 머신러닝을적용한자동화 도구로해결...임상정보(Un-Labeled Data) 이상값탐지 임상정보정상값범위(Label) 결과비교및알고리즘
Page 4: 빅데이터품질, 머신러닝을적용한자동화 도구로해결...임상정보(Un-Labeled Data) 이상값탐지 임상정보정상값범위(Label) 결과비교및알고리즘
Page 5: 빅데이터품질, 머신러닝을적용한자동화 도구로해결...임상정보(Un-Labeled Data) 이상값탐지 임상정보정상값범위(Label) 결과비교및알고리즘

빅데이터품질 지표

및평가 방법

빅데이터 품질평가 도구

ü 한국데이터진흥원『데이터품질관리 성숙 모형』기술표준 제정·배포,데이터품질인증 제도 실시

ü 행정안전부 『공공기관의데이터베이스 품질 관리 지침』배포

ü 정형데이터 품질진단과데이터거버넌스 구축에 초점

ü 금융·공공분야 대규모 사이트위주로 도입

개선분석측정정의

• 전문가 개입 • RDB만 지원• SQL 기반

• 담당자 수작업

데이터품질관리

LifeCycle

현황 문제점

Page 6: 빅데이터품질, 머신러닝을적용한자동화 도구로해결...임상정보(Un-Labeled Data) 이상값탐지 임상정보정상값범위(Label) 결과비교및알고리즘

심사 영역 심사 항목 심사 내용

도 메 인

번호 번호 관련 데이터의 패턴 및 체크비트 심사

금액 금액 관련 데이터의 허용범위 심사

명칭 명칭 관련 데이터의 패턴 심사

수량 수량 관련 데이터의 허용범위 심사

분류 분류 관련 데이터의 표준정의 값 심사

날짜 날짜 관련 데이터의 허용범위 및 유효값 심사

비율 비율(%) 관련 데이터의 허용범위 심사

내용 내용 관련 데이터의 적용언어 패턴 심사

코드 코드 관련 데이터의 코드값 심사

키(key) 키(key) 관련 데이터의 참조무결성 심사

공통 데이터 표준 준수여부 심사

업 무 규칙 업무규칙 데이터의 업무규칙 준수여부 심사

인증 등급 평가 기준

Platinum Class 정합률 99.97% / 5.0 시그마 이상

Gold Class 정합률 97.70% / 3.5 시그마 이상

Silver Class 정합률 95.51% / 3.2 시그마 이상

Page 7: 빅데이터품질, 머신러닝을적용한자동화 도구로해결...임상정보(Un-Labeled Data) 이상값탐지 임상정보정상값범위(Label) 결과비교및알고리즘
Page 8: 빅데이터품질, 머신러닝을적용한자동화 도구로해결...임상정보(Un-Labeled Data) 이상값탐지 임상정보정상값범위(Label) 결과비교및알고리즘

Exam

ple

s fo

r Big

Dat

a Q

ual

ity

Ass

essm

ent

Spai

n , C

hin

a, U

NEC

E, Ita

ly

Accuracy

Completeness

Consistency

Credibility

Currentness

Accessibility

Compliance

Confidentiality

Efficiency

Precision

Traceability

Understandability

Availability

Portability

Recoverability

Others

ßIn

heren

t

ßSy

stem

Dep

enden

t

Qual

ity

of

Dat

a -

ISO

800

0, 2

5012

, 19

1XX

Quality Characteristic Structure of BDQ characteristics

Credibility

Accuracy

Completeness

Consistency

Impact factor of BDQ

Data ValueData Value

StructureStructure

StandardStandard

Maturity(Organization,

Process, System)

Maturity(Organization,

Process, System)

Confidentiality Confidentiality

Clarity Clarity

AvailabilityAvailability

Structural

standardization

Accessibility

Structural

standardization

manageability manageability

Currentness

Non Value

Common & Mandatory Characteristics

빅데이터 특성 고려(개인정보, 비정형, 외부데이터, 산업별 특수성 등)

Future BDQ

Credibility

1

2

3

4

5

6

7

8

9

10

11

12

Derived Characteristics

Page 9: 빅데이터품질, 머신러닝을적용한자동화 도구로해결...임상정보(Un-Labeled Data) 이상값탐지 임상정보정상값범위(Label) 결과비교및알고리즘
Page 10: 빅데이터품질, 머신러닝을적용한자동화 도구로해결...임상정보(Un-Labeled Data) 이상값탐지 임상정보정상값범위(Label) 결과비교및알고리즘
Page 11: 빅데이터품질, 머신러닝을적용한자동화 도구로해결...임상정보(Un-Labeled Data) 이상값탐지 임상정보정상값범위(Label) 결과비교및알고리즘

(날짜, 코드) 데이터 규칙 적용

날짜

코드

4/32, 20170300

성별코드 : M, F, Z, 0

문서, 비정형

산업별업무규칙 관리

축적/피드백

• 텍스트 전처리• 사전 기반 분석• 자연어 기반 분석• 기계학습 기반 분석(분류, 군집화)

정상값

(수치) 이상값 탐지 : 아웃라이어

몸무게 130kg

몸무게 130kg 연령 4살

Ø 단일 항목 탐지

이상값

이상값

Ø 복수 항목 탐지

몸무게 300kg

(텍스트) 오류, 중복 탐지

Text Data Clustering

인공지능 알고리즘

전처리

진단

개선

평가

Page 12: 빅데이터품질, 머신러닝을적용한자동화 도구로해결...임상정보(Un-Labeled Data) 이상값탐지 임상정보정상값범위(Label) 결과비교및알고리즘

구분 진단 항목 머신러닝 기법

컬럼분석

컬럼프로파일링 탐색적분석, 도메인 자동 판별

관계분석 텍스트 매칭

중복분석 텍스트 클러스터링

코드분석 텍스트 매칭

날짜분석 텍스트 매칭

범위분석 이상값 탐지

업무규칙 사용자정의 업무규칙 진단 이상값 탐지, 사용자정의 이상값 탐지

Page 13: 빅데이터품질, 머신러닝을적용한자동화 도구로해결...임상정보(Un-Labeled Data) 이상값탐지 임상정보정상값범위(Label) 결과비교및알고리즘
Page 14: 빅데이터품질, 머신러닝을적용한자동화 도구로해결...임상정보(Un-Labeled Data) 이상값탐지 임상정보정상값범위(Label) 결과비교및알고리즘

학습데이터

모델 학습

도메인자동판별 모델

신규데이터

학습데이터

Page 15: 빅데이터품질, 머신러닝을적용한자동화 도구로해결...임상정보(Un-Labeled Data) 이상값탐지 임상정보정상값범위(Label) 결과비교및알고리즘
Page 16: 빅데이터품질, 머신러닝을적용한자동화 도구로해결...임상정보(Un-Labeled Data) 이상값탐지 임상정보정상값범위(Label) 결과비교및알고리즘

학습데이터

통계/마이닝기법

Supervised Learning

이상값탐지모델

신규데이터

Page 17: 빅데이터품질, 머신러닝을적용한자동화 도구로해결...임상정보(Un-Labeled Data) 이상값탐지 임상정보정상값범위(Label) 결과비교및알고리즘

Ø 단변량 탐지

Ø 다변량 탐지 Ø 사용자정의

Ø 데이터 매칭

Ø 데이터 중복

Page 18: 빅데이터품질, 머신러닝을적용한자동화 도구로해결...임상정보(Un-Labeled Data) 이상값탐지 임상정보정상값범위(Label) 결과비교및알고리즘

임상정보(Un-Labeled Data)

이상값탐지

임상정보 정상값 범위(Label)

결과 비교 및 알고리즘검증

- 정확도- 정밀도- 재현율

학습 및 단변량, 다변량 이상값 예측

나이이상치

맥박(회/분) 혈압(mmHb) 호흡수(회/분)

12개월 이하

50회 이하300회 이

수축기 200 이상이완기 20 이하

20회 이하200회 이상

6세 이하 수축기 200 이상이완기 30 이하

10회 이하200회 이상

12세 이하5회 이하

200회 이상12세 이상수축기 200 이상이완기 40 이하

Page 19: 빅데이터품질, 머신러닝을적용한자동화 도구로해결...임상정보(Un-Labeled Data) 이상값탐지 임상정보정상값범위(Label) 결과비교및알고리즘
Page 20: 빅데이터품질, 머신러닝을적용한자동화 도구로해결...임상정보(Un-Labeled Data) 이상값탐지 임상정보정상값범위(Label) 결과비교및알고리즘

항목 구간 건수 정확도

맥박 전체 4,465,380 94.22%

이완기혈압

1세이하 164,311 96.09%

2~12세 224,522 98.18%

12세이상 3,956,934 99.25%

소계 4,345,767 99.08%

수축기혈압

1세이하 164,387 99.01%

2~12세 225,010 95.32%

12세이상 3,968,259 98.92%

소계 4,357,656 98.74%

호흡수

1세이하 183,070 98.85%

2~6세이하 164,999 88.42%

6세이상 3,830,633 85.51%

소계 4,178,702 86.21%

단변량합계 12,882,125 94.79%

정확도(Accuracy) = (a + d) / (a + b + c + d)정밀도(Precision) = a / (a + d)재현율(Recall) = a / (a + b)F1 Score = 2PR / (P + R)

항목 정밀도 재현율 F1-Score

맥박 99.20% 94.93% 97.02%

이완기 혈압 99.76% 99.31% 99.53%

수축기혈압 100.00% 98.74% 99.36%

호흡수 99.98% 86.21% 92.59%

단변량 합계 99.91% 94.85% 97.32%

Page 21: 빅데이터품질, 머신러닝을적용한자동화 도구로해결...임상정보(Un-Labeled Data) 이상값탐지 임상정보정상값범위(Label) 결과비교및알고리즘
Page 22: 빅데이터품질, 머신러닝을적용한자동화 도구로해결...임상정보(Un-Labeled Data) 이상값탐지 임상정보정상값범위(Label) 결과비교및알고리즘

구분 구간 건수 정확도 정밀도 재현율 F1-Score

다변량(맥박, 혈압, 호흡)

1세이하 115,057 98.39% 99.50% 98.87% 99.19%

2~6세 119,735 98.31% 99.44% 98.86% 99.15%

7~12세 55,298 98.41% 99.58% 98.81% 99.20%

12세이상 3,399,713 93.73% 98.61% 94.98% 96.77%

다변량 합계 3,689,803 94.10% 98.69% 95.29% 96.96%

Page 23: 빅데이터품질, 머신러닝을적용한자동화 도구로해결...임상정보(Un-Labeled Data) 이상값탐지 임상정보정상값범위(Label) 결과비교및알고리즘
Page 24: 빅데이터품질, 머신러닝을적용한자동화 도구로해결...임상정보(Un-Labeled Data) 이상값탐지 임상정보정상값범위(Label) 결과비교및알고리즘

테이블 데이터 분석건수

진단검사결과텍스트결과(소변검사)

86,908건

검사결과 추천 검사결과 추천

LT.YELLOWLT.YELLOW

Dark bloodyDark bloody

LT. YELLOW Dark Bloody

YellowYellow

LT. RED LT. RED

YELLOW DK. BROWN

DK. BROWNDark Yellow

Dark YellowDK.BROWN

DK. YELLOW DK. Brown

Dark yellow Dark brown

BROWNBROWN

Dark Brown

Brown DK. RED DK. RED

OrangeOrange

LT. ORANGE LT. ORANGE

ORANGE Cloudy Cloudy

BLOODYBLOODY

GreenGreen

Bloody GREEN

BLoody Colorless Colorless

Straw Straw Other Other

AmberAmber

Hazy Hazy

AMBER Mixed Bloody Mixed Bloody

RedRed

Clear Clear

RED BLACK BLACK

DK. ORANGEDK. ORANGE

Unable Unable

DK.ORANGE

Page 25: 빅데이터품질, 머신러닝을적용한자동화 도구로해결...임상정보(Un-Labeled Data) 이상값탐지 임상정보정상값범위(Label) 결과비교및알고리즘
Page 26: 빅데이터품질, 머신러닝을적용한자동화 도구로해결...임상정보(Un-Labeled Data) 이상값탐지 임상정보정상값범위(Label) 결과비교및알고리즘
Page 27: 빅데이터품질, 머신러닝을적용한자동화 도구로해결...임상정보(Un-Labeled Data) 이상값탐지 임상정보정상값범위(Label) 결과비교및알고리즘

질의응답

감사합니다.