빅데이터로보는사회hosting02.snu.ac.kr/~snucss/wp-content/uploads/2016/04/%e1%84%87%e1%85... ·...

57
1 강의 김 용대 교수 서울대학교 통계학과 빅데이터로 보는 사회 (빅데이터의 이해와 활용)

Upload: vudieu

Post on 29-Aug-2019

215 views

Category:

Documents


0 download

TRANSCRIPT

1

강의 김 용대 교수

서울대학교 통계학과

빅데이터로보는 사회(빅데이터의이해와활용)

2

1. What is Big data?

3

빅데이터란?

데이터베이스의 규모에 초점을 맞춘 정의(McKinsey, 2011)

• 일반적인 데이터베이스 SW가 저장, 관리, 분석할 수 있는 범위를 초과하는

규모의 데이터

데이터베이스가 아닌 업무수행에 초점을 맞춘 정의

(International Data corporation(IDC), 2011)

• 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 초고속

수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처

4

소셜 미디어나 위치 정보 데이터 등은 자료의 양이 크다

데이터의 형태가 비구조화 되어 있다(이미지, 음성)

데이터가 빠르게 생산된다

Volume

Variety

Velocity

☞ http://www-01.ibm.com/software/data/bigdata/

빅데이터란?

5

Large Data era Big Data era

데이터의 원천

데이터의 형태

데이터의 취합

분석방법

분석환경

vs.

Internal External

Nearly Structured Unstructured

Well organized Nearly unorganized

Modeling and

Optimizationin back-office

Visualization and

Exploratory analysisin war room

DW+Server Distributed process+Cloud

Large data vs Big data

6

데이터의 원천

데이터의 형태

데이터의 취합

분석방법

분석환경

분산처리 기반의데이터 가공 및 컴퓨팅 기술

Datacification techniques

통계엔진을 활용한 분석 자동화

Data Visualization

Big Data era

Social + External

Unstructured

Nearly unorganized

Visualization and

Exploratory analysisin war room

Distributed process+Cloud

IT Tech. of Big Data era

Core IT Technologies of Big Data era

7

2. Why Big data? Why now?

빅데이터의출현배경

9

빅데이터의출현배경

10

스마트폰, 태블릿 등으로 대변되는 모바일 장치의 확산

<출처 : http://seagulls.kr/smart/3397>

빅데이터의출현배경

11

트위터, 페이스북 등의 소셜 미디어의 성장

빅데이터의출현배경

<출처 : cafe.naver.com/logoseasng/2202640>

12

Radio Frequency Identification(RFID)와 같은 정보를감지하는 센서 장비의 이용 확대

<출처 : http://www.karus.or.kr>

빅데이터의출현배경

13

Global Positioning System(GPS) 장치 보급 확산

<출처: http://www.tegmento.org/gpsylon/screenshots.html>

빅데이터의출현배경

14

Internet 이용 증가(Naver, Google 등)

<출처: http://www.weidmanconsulting.com/wcj/webmetrics.asp>

빅데이터의출현배경

15

Bioinformatics의 발전

빅데이터의출현배경

<출처: http://mippi.ornl.gov/areas/bioinfo.shtml >

16

메모리 비용 하락

<출처:

http://www.saama.com/blog/bid/78289/Why-

large-enterprises-and-EDW-owners-suddenly-

care-about-BigData>

빅데이터의출현배경

17

정보를 저장, 관리하는 클라우드 컴퓨팅 기술의 확산

<출처:http://yoonka.tistory.com/16>

빅데이터의출현배경

18

하둡 파일시스템(HDFS)

– 쉽고 싸게 사용할수 있는 분산파일시스템

빅데이터의출현배경

19

데이터로부터 얼마나 많은 부가가치를 얻을 수 있나?

– 과학 기술 경쟁이 치열

– 첨단의 과학기술이 사용자의 요구를 충족시켰을 때부가가치 창출(아마존 마케팅, 애플 등)

– 미래 사용자의 필요 예측이 매우 중요

– 빅데이터 분석으로 미래 사용자의 필요 예측 가능

빅데이터분석의중요성

20

자료 분석으로부터 새롭게 얻을 수 있는 지식의 양

𝛿매우 작은새로운 지식의 양

빅데이터분석의중요성

21

P(Choose Shampoo A)=? P(Choose Shampoo B)=?

빅데이터분석의중요성

22

P(A|A)=0.51

P(B|B)=0.5

시장점유율P(A)=0.505

P(B)=0.495

빅데이터분석의중요성

23

P(A|A)=0.99

P(B|B)=0.98

시장점유율P(A)=0.667

P(B)=0.333

빅데이터분석의중요성

24

P(A|A)=0.999

P(B|B)=0.990

시장점유율P(A)=0.909

P(B)=0.091

빅데이터분석의중요성

25

빅데이터분석의중요성

성공사례:

실패사례:

26

Data warehousing era(1990년대 중반~2000년대 중반)

유통사상품구매 정보

유통사 외상품/서비스구매 정보

고객 접촉 정보(Ex. 콜센터, 리서치 정보 등)

고객 Demo 정보

교통 정보

빅데이터의시대적흐름

27

Data convergence era(2000년대 중반~2010년대 중반)

Data의 통합 관리를 통한소비자의 입체적 이해

빅데이터의시대적흐름

28

Big data era(2010년대 중반 이후)

빅데이터의시대적흐름

29

Data is power!

빅데이터의시대적흐름

Big data era(2010년대 중반 이후)

이종 데이터 간의 결합 Cloud Computing 데이터 마켓의 출현

30

3. How does Big data work?

31

<자료출처 : McKinsey, 2011>

빅데이터활용분야

32

자동차 산업을 선도하는 Data!

기업의빅데이터활용

33

유통업을 선도하는 Data!

기업의빅데이터활용

34

Data를통한의류시장의혁신!

기업의빅데이터활용

35

미국 국세청, 탈세 방지 시스템 통한 국가 재정 강화

• 탈세 및 사기로 인한 국가의 재정 위기 가능성 증가

<출처 : Big Data 글로벌 10대 선진 사례 (NIA, 2012)>

공공분야에서의빅데이터활용

36

일본, 센서데이터를 활용한 지능형 교통안내 시스템

– GPS로부터 자동차의 주행 스피드를 계산하여 교통 정보 수집• 일본 노무라연구소는 스마트폰형 내비게이션 서비스를 활용하여 2011년 일본대지진시 도로교통 체증 피해 최소화

• 교통 체증 감소 효과 및 구조차량을 위한 피해지의 실제 도로 교통 상황 안내

• 일본 전역 지정도시의 택시 약 11,000여 대와 데이터 제공에 동의한사용자로부터 실시간으로 교통정보 수집

• 수집된 교통정보를 바탕으로 실시간으로 최적의 교통 안내 서비스 제공

<출처 : Big Data 글로벌 10대 선진 사례 (NIA, 2012)>

공공분야에서의빅데이터활용

37

구글, 검색어 분석을 통한 독감예보 서비스 제공– 구글 홈페이지에서 독감, 인플루엔자 등 독감과 관련된 검색어쿼리의 빈도를 조사, ‘구글 독감 동향(Google Flu Trends)’이라는독감 확산 조기 경보체계 마련• 미국 질병통제 예방센터의 데이터와 비교 결과, 검색 빈도 및 실제독감증세를 보인 환자 숫자 사이에 매우 밀접한 상관관계가 있는 것을 확인

공공분야에서의빅데이터활용

38

Billion Prices Project @ MIT

인터넷 쇼핑회사의 상품가격을 분석하여 실시간 물가지수 산출

공공부분에서의빅데이터활용

39

4. Examples of Big data projects

40

SNS를이용한연예인지수개발

41

탐색적 분석화면검색 조건설정부가분석 옵션

클릭

Radian 6

42

토픽의 설정토픽내 검색 키워드의 설정

"드라마 결혼의 여신"

43

Brand: 결혼의 여신Competitors: 개그콘서트 + 스캔들

Brand : 32.2%

Competitors: 67. 8%

소셜네트워크내 1달간검색량

44

소셜네트워크내 1달간검색량의추이

competitors

brand

45

남상미

이태란

김지훈

Brand 내점유율비교

46

이태란 + 패션 (원피스) vs 남상미 + 패션 (원피스)

이태란

남상미

47

Sources

News

Blog

Twitter

Facebook

Forum

etc

Facebook

Forum

Etc

Twitter

Blog

News

Source 분석

48

빅데이터기반재난/안전지수개발

산업재해와 관련한 기업환경의 변화

언론에 노출되는 산업재해의 빈도 증가.

산업 재해로 인한 유형적 손실 뿐만 아니라, 기업이미지를 포함한 무형자산에도 장기적 영향을 미침.

현재 기술의 취약성

정기 점검, 공정 신설, 공정 변경시 혹은 정성적 방법에 의해필요하다고 생각되는 시점에서 위험성 평가가 이루어짐.

특정 시점, 특정 사업장의 산업재해 위험 수준을 정량적 방법을 통해지속적으로 모니터링 할 수 있는 모형이 없음.

49

빅데이터기반재난/안전지수개발

아차 사고 데이터베이스

하인리히 재해발생법칙에 의하면 불안전한 상태와 행동이 사고를발생시키므로 그러한 유해/위험요인을 관리할 때 사고발생 빈도를 줄일수 있음.

현재 사고와 관련한 유해/위험요인의 측정지표인 '아차사고데이터베이스'가 구축이 되어 위험 평가모형 개발의 기반이 마련되고있음.

아차사고를 통해 얻어진 유해/위험요인과 산업재해의 발생 빈도 및강도를 모형화하고자 함.

50

아차사고 정보

플랜트명 등록번호업무구분

발생일자 작업유형 사고유형 날씨 개요 원인 예방대책

무주양수발전처B00000006

6발전운영

2009-10-28

전기 감전 맑음

1. 상황체험자 한국에머슨 하청업체 화랑FA 강인규외 2명은2009년 10월28일 오후2시경 제1,2호기주제어설비 교체공사의 일환으로 중앙제어실 판넬 철거 작업관련으로 기존 제어전원 케이블철거 작업중 380V 전원 차단 미확인으로 인하여 감전될 뻔한 아차사고사례임

원인1. 관리감독 소홀2. 작업에 따른 안전수칙미 준수3. 반복 작업에 의한 안전불감증

1. 안전교육 및 관리감독 철저2. 작업 전 위험예지훈련 실시의 생활화를 통한 안전사고 예방3. 작업전 관련 차단기전원차단 확인 철저

무주양수발전처B00000006

7발전운영

2009-10-02

토목/건축

추락 맑음

1. 상황체험자 한국에머슨 하청업체 미소공간 임한수는 2009년 10월 02일 오후4시경 제1,2호기 주제어설비 교체공사의 일환으로 중앙제어실 인테리어 공사작업중천정 에어덕트 설치 작업중안전모 미착용상태에서 사다리 전도로 인하여 추락 추락사고를당할번한아차사고 사례임

2. 원인가. 관리감독 소홀나. 고소 작업에 따른 안

전수칙 미 준수다. 반복 작업에 의한 안

전모 미착용등 안전 불감증

2. 원인가. 관리감독 철저나. 고소 작업에 따른

안전수칙 철저 준수다. 반복 작업에 의한

안전모 착용등 안전보호구 착용 철저

아차사고정보

빅데이터기반재난/안전지수개발

51

아차사고 정보 분석

취배수관로 안전난간대 일부구간 미설치로 인해 낙하 사고 발생

송전접속부 절연부 점검

#3호기 Steam Blowing시 현장소음에 의한 순간 청력상실

취배수관, 안전난간, 구간, 미설치, 낙하, 사고, 발생

송전, 접속, 절연부, 점검

Steam, Blowing, 현장소음, 청력상실

아차사고 정보 형태소분석

Text Mining

빅데이터기반재난/안전지수개발

52

위험성 평가표관리번호 RA-삼운발1-006-운전-I

위 험 성 평 가 표

[4M-Risk Assesment]

평가자부서명 발전운영1팀

평가대상

공정․활동명ATO업무

팀 장 공완식

평균 위험도평가 전 개선 후

최근 평가일 '13. 05. 15 3.2 3.2

작업내용 평가구분위험요인

(재해 형태)

현재 상태

개선대책

요구사항

코드번호

개선 후 상태

안전조치위험도

빈도 강도위험

도빈도 강도 위험도

발전기보조계통

점검(K)

수소누설(질식) 수소누설 감지기 설치 1 2 2 1 2 2

모터의 절연(감전) 양호 1 2 2 1 2 2

폭발성 가스(폭발) 고압가스 관리요령 교육 1 3 3 1 3 3

작업장 바닥상태

(전도,충돌)정리정돈 1 2 2 1 2 2

작업장 소음상태

(청력상실)귀마개 착용 의무화 2 3 6 2 3 6

건물 내 분진 마스크 착용 의무화 2 3 6 2 3 6

육체적 건강상태(충돌)근무 시작 전 발전차장

점검2 1 2 2 1 2

정신적 건강상태 악화

(오작동, 상태변화

인지부족, 시간차에 따른

스트레스)

근무 시작전 발전차장

점검3 2 6 3 2 6

안전표시판

부착 여부

마스크 및 귀마개 착용

표시판 부착1 1 1 1 1 1

안전수칙숙지 숙지 1 2 2 1 2 2

작업절차숙지작업절차 숙지전까지

숙련자와 동행1 3 3 1 3 3

위험요인정보

Input

output

sample

빅데이터기반재난/안전지수개발

53

위험요인 분석

전기보조계통 점검 모터의 절연(감전)

압축공기 계통 점검 작업장 소음상태 (청력상실)

전기보조계통, 점검, 모터, 절연, 감전

압축공기, 계통, 점검, 작업장, 소음, 청력상실

위험성평가 - 위험요인 형태소분석

순환수 계통 점검 Intake 일부구간 안전난간 미설치 -소포제주입Tank 옆 (추락)

순환수, 계통, 점검, Intake, 구간, 안전난간, 미설치, 소포제,

Tank, 추락

Text Mining

빅데이터기반재난/안전지수개발

54

아차사고 정보와 위험요인 정보의 연관성 측정

전기보조계통, 점검, 모터,절연, 감전

압축공기, 계통, 점검, 작업장, 소음, 청력상실

위험요인정보형태소분석

순환수, 계통, 점검, Intake, 구간, 안전난간, 미설치, 소포제,

Tank, 추락

취배수관, 안전난간, 구간, 미설치, 낙하, 사고, 발생

송전, 접속, 절연부, 점검

Steam, Blowing, 현장소음, 청력상실

아차사고정보형태소분석

빅데이터기반재난/안전지수개발

55

아차사고 정보와 위험요인 정보의 연관성 측정

취배수관, 안전난간, 구간, 낙하, 사고, 발생, 순환수, 계통, 점검, Intake, 구간, 미설치, 소포제, Tank

송전, 접속, 전기보조계통, 점검, 모터, 절연, 감전

Steam, Blowing, 압축공기, 계통, 점검, 작업장, 소음, 청력상실

Jaccard Coefficient

0.214

0.285

0.250

빅데이터기반재난/안전지수개발

56

Jaccard coefficient time series plot

sample

빅데이터기반재난/안전지수개발

57

감사합니다.Q&A