빅데이터품질, 머신러닝을적용한자동화 도구로해결...임상정보(un-labeled...
TRANSCRIPT
빅데이터 품질, 머신러닝을 적용한 자동화도구로 해결
빅데이터 품질, 머신러닝을 적용한 자동화도구로 해결
위세아이텍 황덕열
빅데이터품질 지표
및평가 방법
빅데이터 품질평가 도구
ü 한국데이터진흥원『데이터품질관리 성숙 모형』기술표준 제정·배포,데이터품질인증 제도 실시
ü 행정안전부 『공공기관의데이터베이스 품질 관리 지침』배포
ü 정형데이터 품질진단과데이터거버넌스 구축에 초점
ü 금융·공공분야 대규모 사이트위주로 도입
개선분석측정정의
• 전문가 개입 • RDB만 지원• SQL 기반
• 담당자 수작업
데이터품질관리
LifeCycle
현황 문제점
심사 영역 심사 항목 심사 내용
도 메 인
번호 번호 관련 데이터의 패턴 및 체크비트 심사
금액 금액 관련 데이터의 허용범위 심사
명칭 명칭 관련 데이터의 패턴 심사
수량 수량 관련 데이터의 허용범위 심사
분류 분류 관련 데이터의 표준정의 값 심사
날짜 날짜 관련 데이터의 허용범위 및 유효값 심사
비율 비율(%) 관련 데이터의 허용범위 심사
내용 내용 관련 데이터의 적용언어 패턴 심사
코드 코드 관련 데이터의 코드값 심사
키(key) 키(key) 관련 데이터의 참조무결성 심사
공통 데이터 표준 준수여부 심사
업 무 규칙 업무규칙 데이터의 업무규칙 준수여부 심사
인증 등급 평가 기준
Platinum Class 정합률 99.97% / 5.0 시그마 이상
Gold Class 정합률 97.70% / 3.5 시그마 이상
Silver Class 정합률 95.51% / 3.2 시그마 이상
Exam
ple
s fo
r Big
Dat
a Q
ual
ity
Ass
essm
ent
Spai
n , C
hin
a, U
NEC
E, Ita
ly
Accuracy
Completeness
Consistency
Credibility
Currentness
Accessibility
Compliance
Confidentiality
Efficiency
Precision
Traceability
Understandability
Availability
Portability
Recoverability
Others
ßIn
heren
t
ßSy
stem
Dep
enden
t
Qual
ity
of
Dat
a -
ISO
800
0, 2
5012
, 19
1XX
Quality Characteristic Structure of BDQ characteristics
Credibility
Accuracy
Completeness
Consistency
Impact factor of BDQ
Data ValueData Value
StructureStructure
StandardStandard
Maturity(Organization,
Process, System)
Maturity(Organization,
Process, System)
Confidentiality Confidentiality
Clarity Clarity
AvailabilityAvailability
Structural
standardization
Accessibility
Structural
standardization
manageability manageability
Currentness
Non Value
Common & Mandatory Characteristics
빅데이터 특성 고려(개인정보, 비정형, 외부데이터, 산업별 특수성 등)
Future BDQ
Credibility
1
2
3
4
5
6
7
8
9
10
11
12
Derived Characteristics
(날짜, 코드) 데이터 규칙 적용
날짜
코드
4/32, 20170300
성별코드 : M, F, Z, 0
문서, 비정형
산업별업무규칙 관리
축적/피드백
• 텍스트 전처리• 사전 기반 분석• 자연어 기반 분석• 기계학습 기반 분석(분류, 군집화)
정상값
(수치) 이상값 탐지 : 아웃라이어
몸무게 130kg
몸무게 130kg 연령 4살
Ø 단일 항목 탐지
이상값
이상값
Ø 복수 항목 탐지
몸무게 300kg
(텍스트) 오류, 중복 탐지
Text Data Clustering
인공지능 알고리즘
전처리
진단
개선
평가
구분 진단 항목 머신러닝 기법
컬럼분석
컬럼프로파일링 탐색적분석, 도메인 자동 판별
관계분석 텍스트 매칭
중복분석 텍스트 클러스터링
코드분석 텍스트 매칭
날짜분석 텍스트 매칭
범위분석 이상값 탐지
업무규칙 사용자정의 업무규칙 진단 이상값 탐지, 사용자정의 이상값 탐지
학습데이터
모델 학습
도메인자동판별 모델
신규데이터
학습데이터
학습데이터
통계/마이닝기법
Supervised Learning
이상값탐지모델
신규데이터
Ø 단변량 탐지
Ø 다변량 탐지 Ø 사용자정의
Ø 데이터 매칭
Ø 데이터 중복
임상정보(Un-Labeled Data)
이상값탐지
임상정보 정상값 범위(Label)
결과 비교 및 알고리즘검증
- 정확도- 정밀도- 재현율
학습 및 단변량, 다변량 이상값 예측
나이이상치
맥박(회/분) 혈압(mmHb) 호흡수(회/분)
12개월 이하
50회 이하300회 이
상
수축기 200 이상이완기 20 이하
20회 이하200회 이상
6세 이하 수축기 200 이상이완기 30 이하
10회 이하200회 이상
12세 이하5회 이하
200회 이상12세 이상수축기 200 이상이완기 40 이하
항목 구간 건수 정확도
맥박 전체 4,465,380 94.22%
이완기혈압
1세이하 164,311 96.09%
2~12세 224,522 98.18%
12세이상 3,956,934 99.25%
소계 4,345,767 99.08%
수축기혈압
1세이하 164,387 99.01%
2~12세 225,010 95.32%
12세이상 3,968,259 98.92%
소계 4,357,656 98.74%
호흡수
1세이하 183,070 98.85%
2~6세이하 164,999 88.42%
6세이상 3,830,633 85.51%
소계 4,178,702 86.21%
단변량합계 12,882,125 94.79%
정확도(Accuracy) = (a + d) / (a + b + c + d)정밀도(Precision) = a / (a + d)재현율(Recall) = a / (a + b)F1 Score = 2PR / (P + R)
항목 정밀도 재현율 F1-Score
맥박 99.20% 94.93% 97.02%
이완기 혈압 99.76% 99.31% 99.53%
수축기혈압 100.00% 98.74% 99.36%
호흡수 99.98% 86.21% 92.59%
단변량 합계 99.91% 94.85% 97.32%
구분 구간 건수 정확도 정밀도 재현율 F1-Score
다변량(맥박, 혈압, 호흡)
1세이하 115,057 98.39% 99.50% 98.87% 99.19%
2~6세 119,735 98.31% 99.44% 98.86% 99.15%
7~12세 55,298 98.41% 99.58% 98.81% 99.20%
12세이상 3,399,713 93.73% 98.61% 94.98% 96.77%
다변량 합계 3,689,803 94.10% 98.69% 95.29% 96.96%
테이블 데이터 분석건수
진단검사결과텍스트결과(소변검사)
86,908건
검사결과 추천 검사결과 추천
LT.YELLOWLT.YELLOW
Dark bloodyDark bloody
LT. YELLOW Dark Bloody
YellowYellow
LT. RED LT. RED
YELLOW DK. BROWN
DK. BROWNDark Yellow
Dark YellowDK.BROWN
DK. YELLOW DK. Brown
Dark yellow Dark brown
BROWNBROWN
Dark Brown
Brown DK. RED DK. RED
OrangeOrange
LT. ORANGE LT. ORANGE
ORANGE Cloudy Cloudy
BLOODYBLOODY
GreenGreen
Bloody GREEN
BLoody Colorless Colorless
Straw Straw Other Other
AmberAmber
Hazy Hazy
AMBER Mixed Bloody Mixed Bloody
RedRed
Clear Clear
RED BLACK BLACK
DK. ORANGEDK. ORANGE
Unable Unable
DK.ORANGE
질의응답
감사합니다.