빅데이터 데이터사이언스 예측분석 머신러닝...

24
빅데이터 , 데이터 사이언스 , 예측분석 , 머신러닝 , 인공지능 ?

Upload: others

Post on 02-Sep-2019

1 views

Category:

Documents


0 download

TRANSCRIPT

빅데이터,데이터사이언스,예측분석,머신러닝,인공지능?

빅데이터?원래부터 개념 모호한 말.

빅데이터 가치는 보통사람으로하여금 이제 “데이터 크기” 에압도되어 지레 겁먹지 않고

“problem”을 생각해 볼 수 있는용기를 준 것

3

이수업에서필요한교양

수학 : 미적분, 선형대수학, 확률과정

통계학 : 조금만Study of the collection, organization, analysis, interpretation and presentation of data. It deals with all aspects of data including the planning of data collection in terms of the design of surveys and experiments.When analyzing data, it is possible to use one of two statistics methodologies: descriptive or inferential statistics.

?? 그럼 데이터를 다루는 모든 분야(물리학, 천문학, 공학, 사회/경제학/인문학/의학)가 다 통계학의 서브클래스인가? 전혀!

기계학습(머신러닝)

인공지능의한분야로경험을통한학습을하여스스로

자신을발전시키려는시스템/알고리즘을연구개발

시각, 청각, 후각, 텍스트, 전자기파, 디지털신호등모든

양식의데이터활용

똑똑한검색엔진, 스팸필터, 로봇진단/수술, 자율적으로

운전하는자동차/비행기등스마트함이필요한곳에적용

빅데이터분석, 데이터사이언스등고급데이터분석에서

핵심기술/알고리즘으로쓰임

인공지능

Data mining

(the analysis step of the "Knowledge Discovery in Databases" process, or KDD), an interdisciplinary subfield of computer science, is the computational process of discovering patternsin large data sets involving methods at the intersection of artificial intelligence, machine learning, statistics, and database systems. The overall goal of the data mining process is to extract information from a data set and transform it into an understandable structure for further use

데이터에서 정보를 추출하는 컴퓨터 처리

예측분석 (Predictive Analytics)

Predictive analytics encompasses a variety of statistical techniques from modeling, machine learning, and data mining that analyze current and historical facts to make predictionsabout future, or otherwise unknown, events

데이터사이언스

데이터에서의미있는지식이나통찰얻기

데이터를생성한프로세스이해하기

데이터에서추출한가치로상품만들기

주로 통계학에서 출발한 사람들이 이 낱말을 사용

그럴 듯하게 들리는 모양

소화불량 일으키는 말

http://www.oralytics.com/2012/06/data-science-is-multidisciplinary.html

- 이것들을 다 알아야?- 수박 겉 햝기?

• 데이터 사이언스는 원래 개념없는 말이라, 개념없이 써도 된다

• 예측분석, 데이터마이닝, 데이터 사이언스 구별없이 써도 된다

• 이것들은 ‘사람’이 실행해서 사람에게 보고하는 것이 일반적

결론은,

반면,

인공지능은 자동화가 목표일 경우가 일반적

도구 :R or Python?

12

통계도구?

빅데이터분석도구?

통계, 빅데이터, 시각화공개소프트웨어프로그래밍언어?

R은바이오쪽에서거대함 (genomics, proteomics 등), 그리고또

모두맞는얘기

R?

13

In-Memory Computing

Interactive mode language

객체지향프로그래밍언어

함수형프로그래밍언어

Package 기반 (현재 7000+)

강력한시각화

최신이론, 알고리즘, 방법론적용

Reproducible 연구개발

거의모든파일형식및프로그래밍언어와연동

R 의특징

14

Big R for Big Data?

사실, 기술적으로 R과 빅데이터는 잘 맞지 않음 (특히 실시간)

- R은 굼뜨다 (나아질 여지가 있다. 그러나 스트리밍은 X)

- SW 기술 관점에서 부족한 것이 많다

- 레코드수가 백만개까지는 OK, 10억까지는 할 수는 있지만, 그 이상은 X

- R은 범용 프로그램이 아니기에 이를 사용해서는 SW 상품 못 만든다?

- R의 내부 구현은 빅데이터 플랫폼 구조와 궁합이 안 맞다

R은 사용자가 R앞에 앉아 리포트나 논문을 작성하는데 적당하다

그렇지만, 통하는 것도 있다

- 우린 오픈소스다

- 우린 프로다

- 기존 구조를 바꾸고 싶다

- 구글, 페이스북, 아마존, 야후내부에서 R을 사용하기에 인상이 좋다

서로 노력해 같이 갈 수 있는 방법을 만들어보자

출처 : http://alstatr.blogspot.kr/2013/11/r-mapping-super-typhoon-yolanda-haiyan.html

R 시각화

2016 학기에는 Python으로

데이터 분석/사이언스 프로세스 : CRISP-DM

시작:•내가풀어야하는것은? •과제의구체적목표는?•이해당사자들이원하는것은?

어떤정보가필요하지? 이데이터는무엇을의미하나?

모델을만들어보니내가풀어야할것의실마리가보이나?

모델이풀어야할문제를해결하나?

모델을현장에적용하고좋은결과내기를기도!

데이터 분석과제의 이해당사자

이해당사자 역할

프로젝트스폰서프로젝트발주, 비즈니스적효용대변, 과제결과에책임

고객사용자적효용대변, 도메인지식을갖추고있음

데이터사이언티스트데이터분석과제의아키텍트, 분석과제의실행,다른이해당사자들과소통, 이해관계중재

데이터엔지니어데이터사이언티스트와협조하여데이터수집, 저장, 관리

운용부서과제결과를배치/배포, 데이터분석인프라관리

모든 이해당사자들의 의견이 중요. 그 중에도 프로젝트 스폰서가 제일

목표치 설정과 기대치 관리가 프로젝트 성공에 매우 중요

기대치 설정 & 관리

데이터 예측 분석이 “요술방망이”가 아님을 전달

데이터 사이언티스트가 현업보다 현업에 대한 통찰이 (정상적인 경우) 더 클 수가

없음을 전달

구체적, 검증가능한 목표를 잡는다. But, 여러 이유로 이 것이 불가능하면?

빅데이터에도 “Garbage In, Garbage Out”

“투자한 만큼 결과를 얻는다”? 모든 IT 분야 중 데이터분석 과제만큼 이 문구가

많이 틀리는 경우가 없음을 전달

말이 안되면 “빠져나오기”를 준비. 없던 정보가 갑자기 생기는 경우도, 데이터가

스스로 똑똑해지는 경우도 없고, 데이터 분석 과제가 의지 싸움이 아님을 기억한다

Good Luck

왜 빅데이터 프로젝트가 실패하는지? 성공하려면?

실무부서와 IT부서가 겉돈다 -> 빅데이터를 진짜 잘 쓰는 곳들을 생각해 보라.

자기들 본업을 향상시키려는 과정에서 빅데이터가 나왔다. 아무리 생각해 보아도

빅데이터가 쓰일 만한 비즈니스 케이스가 없으면 괜히 고민하지 말고 그만두라

빅데이터는 하둡, 맵리듀스, NoSql -> “빅데이터”에서 “빅”을 떼고 생각해보라.

그리고 하둡, 맵리듀스, NoSql로 해야만 하는 것 아니거든. 맵리듀스, NoSql 이

앞으로도 대세일 것이라 생각하나? 가능한가? 조그맣게, 쉽게 접근해라

하둡은 무료잖아. 유지관리가 그리 힘들겠어? -> 하둡, 분산처리가 쉽지 않거든. 한

번에 돈 왕창 쓸 생각말고, 조금씩 배워가면서 돈 써라. PoC, 본 프로젝트, 그리고는

사용도 안하는 시스템 만들지 말고, 점차로 조금씩 발전해가는 시스템을 만들어라

“투자한 만큼 결과를 얻는다” -> 모든 IT 분야 중 BI 데이터분석만큼 이 말이 안

맞는 경우가 없다. 멍청함에는 밑바닥이 없다.

http://www.r-project.org/

http://www.rstudio.com/

무료 R 서적

www.burns-stat.com/documents/books/the-r-inferno/

http://www.cookbook-r.com/ : 온라인 R 교재

http://www-bcf.usc.edu/~gareth/ISL/ : 기계학습을 R로기술

cran.r-project.org/doc/contrib/Verzani-SimpleR.pdf

www.maths.bath.ac.uk/~jjf23/book/

http://pluto.huji.ac.il/~msby/StatThink/index.html

https://github.com/jmstanto/data-science-r

일반Analytics/ML/DM www.kdnuggets.com

www.datasciencecentral.com

www.webscience.org

www.dmoz.org/Computers/Software/Databases/Data_Mining

www.kaggle.com

www.kdnuggets.com/courses/index.html & www.kdnuggets.com/education/online.html

en.wikibooks.org/wiki/Data_Science:_An_Introduction

www.coursera.org/category/stats & www.coursera.org/category/cs-ai

http://videolectures.net/Top/Computer_Science/Machine_Learning/#

R 관련 www.r-project.org/

www.r-bloggers.com/

http://www.statmethods.net/

http://www.bioconductor.org/help/

Google search : “The art of R programming” OR “R statistics” OR “R tutorial”

Web Resources

Python Resources

http://www.kdnuggets.com/2016/04/datacamp-learning-python-data-analysis-data-science.html

http://do1.dr-chuck.com/pythonlearn/EN_us/pythonlearn.pdf

https://www.continuum.io/downloads

http://pandas.pydata.org/

http://scikit-learn.org/stable/

https://github.com/rasbt/python-machine-learning-book/blob/master/docs/references.md