빅데이터프로젝트가이드라인 -...

23
2015.06 조완섭 충북대학교 경영정보학과 대학원 비즈니스데이터융합학과 [email protected] 043-261-3258 010-2487-3691 빅데이터 프로젝트 가이드라인 자료는 “빅데이터 업무절차 기술활용 매뉴얼 (Ver 1.0), NIA, 2014.03”을 참고하여 정리한 것임 제 6장

Upload: others

Post on 18-Aug-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 빅데이터프로젝트가이드라인 - KOCWcontents.kocw.net/KOCW/document/2015/chungbuk/chowanseop/... · 2016. 9. 9. · 2015.06 조완섭 충북대학교경영정보학과 대학원비즈니스데이터융합학과

2015.06조완섭충북대학교 경영정보학과대학원 비즈니스데이터융합학과

[email protected]

빅데이터 프로젝트 가이드라인

• 본 자료는 “빅데이터 업무절차 및 기술활용 매뉴얼 (Ver 1.0), NIA, 2014.03”을 참고하여 정리한 것임

제 6장

Page 2: 빅데이터프로젝트가이드라인 - KOCWcontents.kocw.net/KOCW/document/2015/chungbuk/chowanseop/... · 2016. 9. 9. · 2015.06 조완섭 충북대학교경영정보학과 대학원비즈니스데이터융합학과

목차

배경 및 개요

데이터 수집

데이터 저장관리

보안관리

품질관리

데이터 분석

– 가시화

분석결과의 활용과 서비스

2015-07-23 Wan-Sup Cho ([email protected]) 2

Page 3: 빅데이터프로젝트가이드라인 - KOCWcontents.kocw.net/KOCW/document/2015/chungbuk/chowanseop/... · 2016. 9. 9. · 2015.06 조완섭 충북대학교경영정보학과 대학원비즈니스데이터융합학과

3. 데이터 보안관리

정의

– 데이터 유출 방지와 안전한 사용을 보장함

– 빅데이터에 포함된 개인정보 처리 등 필요한 조치 수행

– 데이터 수집, 저장, 분석활용 등 전체과정에 관련된 사항

– 기술과 함께 법제도 및 지침서 활용

업무절차

2015-07-23 Wan-Sup Cho ([email protected]) 3

보안관리기능요건도출

보안관리기능요건적용

- 발생 가능한 보안 침해 가능성 확인- 개인정보 처리 확인

관련 법제도, 지침서, 도구 등을 활용하여 데이터 보안관리 조치

Page 4: 빅데이터프로젝트가이드라인 - KOCWcontents.kocw.net/KOCW/document/2015/chungbuk/chowanseop/... · 2016. 9. 9. · 2015.06 조완섭 충북대학교경영정보학과 대학원비즈니스데이터융합학과

3. 데이터 보안관리

보안관리 활용기술

– 사용자 인증, 접근제어, 암호화 등 다양한 기술 활용

2015-07-23 Wan-Sup Cho ([email protected]) 4

(통신, 장치, 데이터, 프로그램 등 다양한 개체에 대한 접근제한 설정)

(보안등급기반) (계정기반-Grant/Revork) (역할할당/역할권한부여/권한부여)

Page 5: 빅데이터프로젝트가이드라인 - KOCWcontents.kocw.net/KOCW/document/2015/chungbuk/chowanseop/... · 2016. 9. 9. · 2015.06 조완섭 충북대학교경영정보학과 대학원비즈니스데이터융합학과

3. 데이터 보안관리

2015-07-23 Wan-Sup Cho ([email protected]) 5

Page 6: 빅데이터프로젝트가이드라인 - KOCWcontents.kocw.net/KOCW/document/2015/chungbuk/chowanseop/... · 2016. 9. 9. · 2015.06 조완섭 충북대학교경영정보학과 대학원비즈니스데이터융합학과

3. 데이터 보안관리

수집단계

– 데이터 생성 주체로부터 사전동의를 받은 데이터만 수집

– 수집된 데이터에 대한 접근통제 적용• 필요하면 웹로봇에 수집해가는 행위를 원천 차단하는 기술 적용

저장단계

– 암호화 및 접근권한 설정 권장

– 개인정보 포함여부를 검사하여 암호화 조치

분석 및 활용단계

– 개인정보는 비식별화 등의 조치를 취한 후 분석에 활용

2015-07-23 Wan-Sup Cho ([email protected]) 6

** 참고자료- DB 보안의 이해 http://www.dbguide.net/- 개인정보 암호화 조치 안내서 (행정안전부, 2012.10)

Page 7: 빅데이터프로젝트가이드라인 - KOCWcontents.kocw.net/KOCW/document/2015/chungbuk/chowanseop/... · 2016. 9. 9. · 2015.06 조완섭 충북대학교경영정보학과 대학원비즈니스데이터융합학과

3. 데이터 보안관리 - 비식별화

개인정보 비식별화 조치방안 (예시)

– 개인을 식별할 수 있는 필드 (키워드) 도출• 쉽게 개인을 식별할 수 있는 정보 (이름, 전화, 주소, 생년월일 등)

• 고유식별번호 (주민번호, 운전면허, 외국인등록번호, 여권번호 등)

• 생체정보 (지문, 홍체, DNA 정보 등)

• 기관, 단체 등의 이용자 계정 (등록번호, 계좌번호, 이메일 주소 등)

– 비식별화 조치 수행• 문서 파일을 키워드 단위로 분할

• 키워드 기반의 패턴 매칭으로 개인정보 검사 및 식별

– 주민번호, 여권번호, 의료보험번호 등

– 데이터가 메쉬업 되어도 문제가 없도록 해야 함

2015-07-23 Wan-Sup Cho ([email protected]) 7

나이지리아 국적 + 억만장자 + 2012년 한국방문 => 추정가능

Page 8: 빅데이터프로젝트가이드라인 - KOCWcontents.kocw.net/KOCW/document/2015/chungbuk/chowanseop/... · 2016. 9. 9. · 2015.06 조완섭 충북대학교경영정보학과 대학원비즈니스데이터융합학과

3. 데이터 보안관리 – 비식별화 기법

2015-07-23 Wan-Sup Cho ([email protected]) 8

가능한자동 필터링 기법을적용하여자동 비식별화 수행

Page 9: 빅데이터프로젝트가이드라인 - KOCWcontents.kocw.net/KOCW/document/2015/chungbuk/chowanseop/... · 2016. 9. 9. · 2015.06 조완섭 충북대학교경영정보학과 대학원비즈니스데이터융합학과

3. 데이터 보안관리 - 비식별화

조직의 비식별화 규정 (권고)

– 데이터 검증• 개인정보 비식별화 여부 등을 검증할 수 있는 시스템을 보유 권고

– 데이터 인증• 개인정보가 정상적으로 처리된 데이터는 사후관리를 위해 인증표

기 권고

– 사후 모니터링• 관리가 필요한 데이터의 경우 목적에 맞게 데이터가 활용되고 폐

기되는 단계까지 사후 모니터링 권고

2015-07-23 Wan-Sup Cho ([email protected]) 9

Page 10: 빅데이터프로젝트가이드라인 - KOCWcontents.kocw.net/KOCW/document/2015/chungbuk/chowanseop/... · 2016. 9. 9. · 2015.06 조완섭 충북대학교경영정보학과 대학원비즈니스데이터융합학과

3. 보안 및 개인정보 - 관련기술

데이터 보안관리 및 개인정보 처리 관련 기술과 활용에서 고려사항

– 데이터 보안기술의 활용시 고려사항

– 개인정보 처리기술 활용시 고려사항

– Page 42 ~ 44 참고

2015-07-23 Wan-Sup Cho ([email protected]) 10

Page 11: 빅데이터프로젝트가이드라인 - KOCWcontents.kocw.net/KOCW/document/2015/chungbuk/chowanseop/... · 2016. 9. 9. · 2015.06 조완섭 충북대학교경영정보학과 대학원비즈니스데이터융합학과

4. 빅데이터 품질관리

각 기관은 데이터 품질관리 체계 수립을 통하여 데이터의 정확성, 완전성, 적시성, 일관성을 유지해야 함

2015-07-23 Wan-Sup Cho ([email protected]) 11

Page 12: 빅데이터프로젝트가이드라인 - KOCWcontents.kocw.net/KOCW/document/2015/chungbuk/chowanseop/... · 2016. 9. 9. · 2015.06 조완섭 충북대학교경영정보학과 대학원비즈니스데이터융합학과

4. 빅데이터 품질관리

단계별 품질관리 점검사항

2015-07-23 Wan-Sup Cho ([email protected]) 12

빅데이터의 용도에 따라품질수준이 다르게

제정되어야 함<= 추세 파악이 목적이라면 품질 수준은 다소 낮게, 재난안전, 의료 등에서는

품질수준을 높게

Page 13: 빅데이터프로젝트가이드라인 - KOCWcontents.kocw.net/KOCW/document/2015/chungbuk/chowanseop/... · 2016. 9. 9. · 2015.06 조완섭 충북대학교경영정보학과 대학원비즈니스데이터융합학과

4. 빅데이터 품질관리

데이터 품질 확보방안

– ETL 도구 혹은 DBMS 기능을 활용하여 데이터 품질 제고를 자동화할 수 있음• 참고문헌 : A Taxonomy of Dirty Data (Data Mining and

Knowledge Discovery, Jan. 2003)

– 데이터 정제 도구 활용• Look-up tables (referential data)

• Rule-based cleansing

• Patterns

2015-07-23 Wan-Sup Cho ([email protected]) 13

Page 14: 빅데이터프로젝트가이드라인 - KOCWcontents.kocw.net/KOCW/document/2015/chungbuk/chowanseop/... · 2016. 9. 9. · 2015.06 조완섭 충북대학교경영정보학과 대학원비즈니스데이터융합학과

4. 빅데이터 품질관리

2015-07-23 Wan-Sup Cho ([email protected]) 14

Data Cleansing with an ETL Tool

Page 15: 빅데이터프로젝트가이드라인 - KOCWcontents.kocw.net/KOCW/document/2015/chungbuk/chowanseop/... · 2016. 9. 9. · 2015.06 조완섭 충북대학교경영정보학과 대학원비즈니스데이터융합학과

5. 데이터 분석

정의– 수집 및 저장된 빅데이터로부터 다양한 분석을 통해 유용한 통찰력을

발견하는 과정

– 다차원분석, 통계분석, 데이터 마이닝, 텍스트 마이닝, 소셜분석 등

업무절차

2015-07-23 Wan-Sup Cho ([email protected]) 15

분석계획의 수립

분석환경 구축과분석수행

분석 서비스 운영

- 분석목적 정의, 분석 시스템 환경과 방법론 등세부 분석계획 수립

- 분석 시스템과 환경의 구축- 비용, 전문가 확보 등을 고려하여 자체 분석과

외부 분석 서비스 활용을 선택함

- 자체 분석의 경우 전문가 확보, 지속적인 교육훈련으로 분석의 질을 제고

- 외부 시스템을 이용하는 경우 분석결과에 대한품질, 보안 등에 대한 SLA 협약 권고

Page 16: 빅데이터프로젝트가이드라인 - KOCWcontents.kocw.net/KOCW/document/2015/chungbuk/chowanseop/... · 2016. 9. 9. · 2015.06 조완섭 충북대학교경영정보학과 대학원비즈니스데이터융합학과

2015-07-23 Wan-Sup Cho ([email protected]) 16

분석기술 소개

Page 17: 빅데이터프로젝트가이드라인 - KOCWcontents.kocw.net/KOCW/document/2015/chungbuk/chowanseop/... · 2016. 9. 9. · 2015.06 조완섭 충북대학교경영정보학과 대학원비즈니스데이터융합학과

2015-07-23 Wan-Sup Cho ([email protected]) 17

Page 18: 빅데이터프로젝트가이드라인 - KOCWcontents.kocw.net/KOCW/document/2015/chungbuk/chowanseop/... · 2016. 9. 9. · 2015.06 조완섭 충북대학교경영정보학과 대학원비즈니스데이터융합학과

5. 데이터 분석

다차원 분석

2015-07-23 Wan-Sup Cho ([email protected]) 18

- Africa의 매출액은 ?- Africa의 1분기 매출액은 ? - Africa의 1분기 sea route 매출액? ….

Page 19: 빅데이터프로젝트가이드라인 - KOCWcontents.kocw.net/KOCW/document/2015/chungbuk/chowanseop/... · 2016. 9. 9. · 2015.06 조완섭 충북대학교경영정보학과 대학원비즈니스데이터융합학과

5. 데이터 분석

분석환경 구축

2015-07-23 Wan-Sup Cho ([email protected]) 19

조직 내부에 분석전문가 확보 및 지속적인 교육과 훈련필요; 보안담당

자 지정

데이터 분석결과에 대한 품질, 데이터 운영관련 보안사항등에 관한 SLA (Service Level Agreement) 협약 권고

Page 20: 빅데이터프로젝트가이드라인 - KOCWcontents.kocw.net/KOCW/document/2015/chungbuk/chowanseop/... · 2016. 9. 9. · 2015.06 조완섭 충북대학교경영정보학과 대학원비즈니스데이터융합학과

5. 데이터 분석

분석 플랫폼 구축과 운영

– HW 구축• 빅데이터 수용 용량 및 분석작업에 대한 부하 등을 감안하여 HW

인프라 구축

• 수집 데이터 저장 서버, 데이터 처리서버(하둡기반 분석, 정형데이터 분석 DW 등), 기타 보안, 통신장비 등 구축

– SW 구축• 분석에 필요한 수집, 저장, 관리, 분석, 사용자 환경 등 관련 SW

2015-07-23 Wan-Sup Cho ([email protected]) 20

Page 21: 빅데이터프로젝트가이드라인 - KOCWcontents.kocw.net/KOCW/document/2015/chungbuk/chowanseop/... · 2016. 9. 9. · 2015.06 조완섭 충북대학교경영정보학과 대학원비즈니스데이터융합학과

2015-07-23 Wan-Sup Cho ([email protected]) 21

Page 22: 빅데이터프로젝트가이드라인 - KOCWcontents.kocw.net/KOCW/document/2015/chungbuk/chowanseop/... · 2016. 9. 9. · 2015.06 조완섭 충북대학교경영정보학과 대학원비즈니스데이터융합학과

5. 데이터 분석 - 플랫폼

2015-07-23 Wan-Sup Cho ([email protected]) 22

Page 23: 빅데이터프로젝트가이드라인 - KOCWcontents.kocw.net/KOCW/document/2015/chungbuk/chowanseop/... · 2016. 9. 9. · 2015.06 조완섭 충북대학교경영정보학과 대학원비즈니스데이터융합학과

5. 데이터 분석 – 데이터 수명주기

Data Life Cycle

2015-07-23 Wan-Sup Cho ([email protected]) 23

StreamData

HadoopDataSources

Mining자연어 처리

Visualization

직관적 의사결정 지원

MapReduceHive