오픈사이언스와 연구데이터

83
오픈 사이언스와 연구데이터 2017. 4. 13 과학데이터전략연구실 김선태

Upload: suntae-kim

Post on 13-Apr-2017

58 views

Category:

Education


2 download

TRANSCRIPT

Page 1: 오픈사이언스와 연구데이터

오픈 사이언스와 연구데이터

2017. 4. 13

과학데이터전략연구실

김선태

Page 2: 오픈사이언스와 연구데이터

오픈 사이언스와 빅데이터 2

Page 3: 오픈사이언스와 연구데이터

목 차

• 과학

• 오픈 사이언스

• 빅데이터

• 연구 데이터

• 과학 데이터

• 데이터 과학

• 데이터 과학자

오픈 사이언스와 빅데이터 3

Page 4: 오픈사이언스와 연구데이터

4오픈 사이언스와 빅데이터

Page 5: 오픈사이언스와 연구데이터

Data 구분

Source : https://en.wikipedia.org/wiki/Data

Observational data captured in real-

time, usually irreplaceable. For example, sensor data,

survey data, sample data, neurological images.

Experimental data from lab equipment,

often reproducible, but can be expensive. For example,

gene sequences, chromatograms, toroid magnetic field

data.

Simulation data generated from test

models where model and metadata are more important

than output data. For example, climate models,

economic models.

Derived or compiled data is

reproducible but expensive. For example, text and data

mining, compiled database, 3D models.

Reference or canonical a

(static or organic) conglomeration or collection of

smaller (peer-reviewed) datasets, most probably

published and curated. For example, gene sequence

databanks, chemical structures, or spatial data portals. Source : http://www.bu.edu/datamanagement/background/whatisdata/

Raw Data (Unprocessed Data)

Processed Data

Result Data

Scientific Data ⊂ Research Data

Qualitative DataQuantitative Data

First Engilish use -1640s

"transmittable and storable computer information“ – 1946

"data processing“ - 1954

데이터 처리 단계, 데이터 도메인, 데이터 생산 방식에 의한 데이터 구분

5오픈 사이언스와 빅데이터

Page 6: 오픈사이언스와 연구데이터

출처: http://bit.ly/2o7pDzM

오픈 사이언스와 빅데이터 6

Page 7: 오픈사이언스와 연구데이터

출처: http://bit.ly/2p8dy0W

오픈 사이언스와 빅데이터 7

Page 8: 오픈사이언스와 연구데이터

출처: http://bit.ly/2opPVOR

출처: http://bit.ly/2o7rG6N

• 그 수를 헤아릴 수 없고• 번식력이 빠르고• 그 형태가 다양하고

오픈 사이언스와 빅데이터 8

Page 9: 오픈사이언스와 연구데이터

Data science (출처: https://en.wikipedia.org/wiki/Data_science)

9오픈 사이언스와 빅데이터

Page 10: 오픈사이언스와 연구데이터

오픈 사이언스와 빅데이터 10

출처: http://bit.ly/2o7HXc6

출처: http://bit.ly/2nGp83v

Page 11: 오픈사이언스와 연구데이터

SCIENCE

Page 12: 오픈사이언스와 연구데이터

출처: http://bit.ly/2oZp7YL

오픈 사이언스와 빅데이터 12

Page 13: 오픈사이언스와 연구데이터

과학(科學, Science)

• 禾 + 斗 = 科

• 보편적 진리나 법칙의 발견을 목적으로 그원리를 연구하여 하나의 체계를 세우는 학문

• 대상 영역에 따라: 자연과학(좁은의미), 사회과학, 인문과학, 형식 과학(수학,논리학 포함), 인문과학(철학포함)

• 순수과학, 응용과학

오픈 사이언스와 빅데이터 13

Page 14: 오픈사이언스와 연구데이터

과학의 분류

• 자연과학: 인간에 의해 나타나지 않은 모든 자연 현상 연구

• 사회과학: 인간들의 행동과 그들이 이루는 사회를 과학적인 방법으로 연구

• 인문과학: 인간과 인간의 문화에 관심을 갖거나 인간의 가치와인간만이 지닌 자기 표현 능력을 바르게 이해하기 위한 과학적인 연구

• 순수과학: 자연을 탐구하여 그것의 작동 원리를 체계화시키는연구

• 응용과학: 순수과학 연구의 결과를 통해 인류의 필요를 충족시키려는 연구 [1]

오픈 사이언스와 빅데이터 14

Page 15: 오픈사이언스와 연구데이터

과학의 3가지 분류

출처: http://bit.ly/2oxchju

1. 새로운 사실을 이끌어 낼 수 있는 방법론과 그때의 사고 흐름

2. 관찰을 바탕으로 특정 규칙을 끄집어내는 것

3. 그 규칙을 바탕으로 새로운 기술을 발명하는 것 [2]

규칙이란 끊임없는 의심과 반박을당하고 다시 설명되어야 할 사실에불과 (과학의 불확실성)

좋은 규칙과 더 좋은 규칙명확하고 정밀한 규칙일수록 반박당하기 쉬움 (지구,태양 109배)

오픈 사이언스와 빅데이터 15

Page 16: 오픈사이언스와 연구데이터

과학의 특징

출처: http://bit.ly/2p3YC4d

규칙의 예외 발견>> 반박 [2]

예외 발생 시규칙은 더욱 간단해짐

ex. 케플러가 행성이 타원으로 돈다고 주장sw개발

오픈 사이언스와 빅데이터 16

Page 17: 오픈사이언스와 연구데이터

OPEN

Page 18: 오픈사이언스와 연구데이터

오픈 사이언스와 빅데이터 18

Page 19: 오픈사이언스와 연구데이터

Why Open (1/2)

• 정보격차의 해소• 순수한 지식의 공유 (교육분야)• 에코시스템 (기업입장)• 경영의 패러다임이 바뀔 정도로 기업의 생존과도

연결이 되는 이슈(업계)• 오픈을 하면 좋고 하지 않으면 나쁘다, 즉 개방자

체가 윤리적판단의 기준이 되고 있기 때문에, 기업의 입장에서는 open is power ! 오픈이 기업이 할수 있는 선택의 결과로서 판단이 되는 것은 곤란

• open이 또 하나의 이데올로기가 될 수 있다는 새로운 시각 [3]

오픈 사이언스와 빅데이터 19

Page 20: 오픈사이언스와 연구데이터

Why Open (2/2)

• '세바시'의 구범준PD : '별자리'. 눈에 띄지 않는 별들도 우리에게밝은 빛을 송출하고 있으며 이들을 보이게 하려면 별자리를 만들면되고 그러기 위한 필요충분조건은 open이라고 생각했던 것이다. CBS는 보이지 않는 별, 이므로.(1) 사원들을 이것을 교육해라 (2) 지식복지에 대한 스폰서 요청

• KT : 아이디어팝/ IT CEO포럼/ 특허양도/ 등 open을 하고 있는 사례들이 있고, 이와 비슷한 것들을 이미 대기업이 하고는 있지만, 넘어야할 장애물이 있다고 한다.그것은 바로 NIH신드롬(Not Invented Here: 외부의 아이디어나 지식 ,기술을 거부)과 NST(Not Sold There: 내부 아이디어를 사외에서 사업화하는 것을 거부) [3]

• 언즉행, 언즉필, 언즉손[4]

오픈 사이언스와 빅데이터 20

Page 21: 오픈사이언스와 연구데이터

OPEN SCIENCE

Page 22: 오픈사이언스와 연구데이터

출처: http://bit.ly/2pazrtF오픈 사이언스와 빅데이터 22

Page 23: 오픈사이언스와 연구데이터

Open Science Taxonomy

오픈 사이언스와 빅데이터 23

Page 24: 오픈사이언스와 연구데이터

Open Science principles

24

(그림출처: https://en.wikipedia.org/wiki/Open_science)

오픈 사이언스와 빅데이터

Page 25: 오픈사이언스와 연구데이터

OS 핵심 컴포넌트

• Open Access

• Open Source

• Open Data

• Open Reproducible Research

오픈 사이언스와 빅데이터 25

Page 26: 오픈사이언스와 연구데이터

OS 핵심 요소 (1/4)

Open access • refers to online, peer-reviewed scholarly outputs, which are free to read, with limited or

no copyright and licensing restrictions.

• 동료평가된 연구결과물을 저작권이나 라이선스 제한 없이 자유롭게 이용하는 Open Access

• The first official recognition of open access dates back to 2002, when the Budapest Open Access Initiative defined open access not only as a term, but also as a strategy that could induce an increase in the amount of free of cost, accessible and reusable

research outputs.

• 학술지 구독료 절감. 재사용 가능한 연구결과물에 대한 접근 허용

• Since then, the open scholarly communications agenda has grown and currently more terms are embedded in it such as open data, open source and open reproducible research. [6]

26오픈 사이언스와 빅데이터

Page 27: 오픈사이언스와 연구데이터

OS 핵심 요소 (2/4)

Open data • deals with the online publication of the

research data gathered during a research

project and made available for access and re-use. [9]

27

주요 선진국은공공자금이 투입된 연구 결과물의 체계적인 관리와 재사용을 보장하기 위해서연구 데이터(research data) 관리

이러한 저변 노력이 오픈 데이터와 오픈 사이언스 운동을 활성화 시킬 것

오픈 사이언스와 빅데이터

Page 28: 오픈사이언스와 연구데이터

OS 핵심 요소 (3/4)

Open source means software that

• can be accessed online for free,

– with a source code license

• that allows its use,

• creation of derivatives and

• distribution. [10]

28오픈 사이언스와 빅데이터

Page 29: 오픈사이언스와 연구데이터

OS 핵심 요소 (4/4)

• Open reproducible research is the act of practicing OS to enable the independent reproducibility of the research results. [8]

계산과학공학을 위해, 꼭 필요한 것은 무엇입니까?

공학, 의료영상, 자연과학 및 산업분야에서 제기되는 문제를수리모델링-시뮬레이션-시각화과정을 통하여예측/분석, 사용자에게 효율적인 프로그램 개발, 산업화에 이르기까지다단계 연구를 종합적으로 수행 [5]

29오픈 사이언스와 빅데이터

Page 30: 오픈사이언스와 연구데이터

OS 요소들의 원칙과 동향

OS shares the same underlying principles: • transparency,

• universal accessibility and

• reusability of the scientific information disseminated via online tools [7]

계산과학공학 관련 데이터로의 접근을 어떻게 제공할 것인가?

The fact that OS is inclusive of these four terms demonstrates a universal trend that • calls for a shift in the researchers’behaviour towards open content and for

the adoption of a wide range of open practices and strategies that relate to the whole research life cycle. [6]

30오픈 사이언스와 빅데이터

Page 31: 오픈사이언스와 연구데이터

OS 효과

OS allows

• the reproduction of the research findings,

• enables transparency in the research methodology,

• increases the researcher's societal impact and

• saves money and time both for researchers and research institutions. [6]

31오픈 사이언스와 빅데이터

Page 32: 오픈사이언스와 연구데이터

OS 사례 (1/3)

• 운영주체 : Center for Open Science (COS) 개발, 유지• 예산지원 : federal agencies, private foundations, and commercial entities

• 저장공간 : 개인 연구자별 5GB 제공• Project >> components >> files• 컴포넌트 = sub-project• 컴포넌트 자체의 privacy and sharing settings• 컴포넌트 인용을 위한 식별자• 컴포넌트 위키 및 add-ons• 프로젝트 등록 없이 컴포넌트 등록 가능

32오픈 사이언스와 빅데이터

Page 33: 오픈사이언스와 연구데이터

OS 사례 (2/3)

Identifiers: DOI 10.17605/OSF.IO/RKFQ4 | ARK c7605/osf.io/rkfq4

Source: https://osf.io/rkfq4/

33오픈 사이언스와 빅데이터

Page 34: 오픈사이언스와 연구데이터

OS 사례(3/3)

출처: https://cos.io/our-products/open-science-framework/

오픈 사이언스와 빅데이터 34

Page 35: 오픈사이언스와 연구데이터

계산과학공학과 OS

OS is a relatively new and complex concept and

its adoption will require a shift in the researchers' behaviour regarding the conduction of research and information sharing and will demand the adoption of new practices.

• 연구 수행과 정보공유에 있어 SHIFT

• 새로운 실천 필요

Many researchers are today not aware of all the components that comprise OS and have not been trained to practise OS. [6]

무엇을 훈련시킬 것인가? 누가 훈련 시킬 것인가?

35오픈 사이언스와 빅데이터

Page 36: 오픈사이언스와 연구데이터

Big Data

Page 37: 오픈사이언스와 연구데이터

출처: http://bit.ly/2p7ZWmF 오픈 사이언스와 빅데이터 37

Page 38: 오픈사이언스와 연구데이터

오픈 사이언스와 빅데이터 38

Page 39: 오픈사이언스와 연구데이터

오픈 사이언스와 빅데이터 39

Page 40: 오픈사이언스와 연구데이터

측우기 기록과 빅데이터

오픈 사이언스와 빅데이터 40

Page 41: 오픈사이언스와 연구데이터

February 2001 Doug Laney, an analyst with the Meta Group, publishes a research note titled “3D Data Management: Controlling Data Volume, Velocity, and Variety.” A decade later, the “3Vs” have become the generally-accepted three defining dimensions of big data, although the term itself does not appear in Laney’s note. (출처: Gil Press. 2013. A Very Short History Of Big Data)

오픈 사이언스와 빅데이터 41

Page 42: 오픈사이언스와 연구데이터

42오픈 사이언스와 빅데이터

Page 43: 오픈사이언스와 연구데이터

빅데이터는 어떻게 만들어 지는가? (1/5)

오픈 사이언스와 빅데이터 43

Page 44: 오픈사이언스와 연구데이터

빅데이터는 어떻게 만들어 지는가? (2/5)

오픈 사이언스와 빅데이터 44

Page 45: 오픈사이언스와 연구데이터

빅데이터는 어떻게 만들어 지는가? (3/5)

오픈 사이언스와 빅데이터 45

Page 46: 오픈사이언스와 연구데이터

빅데이터는 어떻게 만들어 지는가? (4/5)

오픈 사이언스와 빅데이터 46

거대강입자가속기(LHC) 제임스 웹 망원경

미국 중력파 검출장치 ‘LIGO’

Page 47: 오픈사이언스와 연구데이터

빅데이터는 어떻게 만들어 지는가? (5/5)

오픈 사이언스와 빅데이터 47

Page 48: 오픈사이언스와 연구데이터

빅데이터 유래• 이미 우리는 약 70년 전부터 “정보 폭발 (a term first used in 1941, according to the Oxford English

Dictionary)” 이란 용어 사용

• October 1997 Michael Cox and David Ellsworth publish “Application-controlled demand paging for out-of-core visualization” in the Proceedings of the IEEE 8th conference on Visualization. They start the article with “Visualization provides an interesting challenge for computer systems: data sets are generally quite large, taxing the capacities of main memory, local disk, and even remote disk. We call this the problem of big data. It is the first article in the ACM digital library to use the term “big data.”

• November 2000 Francis X. Diebold presents to the Eighth World Congress of the Econometric Society a paper titled

• “Big Data Dynamic Factor Models for Macroeconomic Measurement and Forecasting” in which he states “Recently, much good science, whether physical, biological, or social, has been forced to confront—and has often benefited from—the “Big Data” phenomenon. They also that in 1986, 99.2% of all storage capacity was analog, but in 2007, 94% of storage capacity was digital, a complete reversal of roles (in 2002, digital information storage surpassed non-digital for the first time).

• February 2010 Kenneth Cukier “Data, data everywhere.”“…the world contains an unimaginably vast amount of digital information which is getting ever vaster more rapidly… The effect is being felt everywhere, from business to science, from governments to the arts.

Scientists and computer engineers have coined a new term for the phenomenon: ‘big data.’”

오픈 사이언스와 빅데이터 48

Page 49: 오픈사이언스와 연구데이터

Big Data vs. Difficult Data

오픈 사이언스와 빅데이터 49

Page 50: 오픈사이언스와 연구데이터

Big Data, Research Data

50

연구가 시작되어연구가 끝날 때 까지생산되는 모든 데이터

오픈 사이언스와 빅데이터

Page 51: 오픈사이언스와 연구데이터

Research DataScientific Data

Page 52: 오픈사이언스와 연구데이터

오픈 사이언스와 빅데이터 52

Page 53: 오픈사이언스와 연구데이터

연구데이터의 종류

53오픈 사이언스와 빅데이터

Page 54: 오픈사이언스와 연구데이터

연구 데이터 정의 (1/2)

Datacite.org• Research Content = Research Objects, Research Data ⊂ Research Objects

• Research Objects ∃ Workflows, Research Data ∄Workflows

• Research Objects ∃Standards, Research Data ∄Standards

• Research Data ∃Dataset

Queensland univ• { facts, observations, images, computer program results, recordings, measurements, experiences } ⊂ Research Data

from Queensland univ.

Melbourne univ• { facts, observations or experiences, laboratory notebooks; field notebooks; primary research data (including research

data in hardcopy or in computer readable form); questionnaires; audiotapes; videotapes; models; photographs; films; test responses } ⊂ Research data from Melbourne univ.

• { slides; artefacts; specimens; samples } ⊂ Research collections from Melbourne univ.

• {electronic mail as well as paper-based correspondence); project files; grant applications; ethics applications; authorship agreements; technical reports; research reports; laboratory notebooks or research journals; master lists; signed consent forms; and information sheets for research participants } ⊂ Research records from Melbourne univ.

Griffith Univ.• 설문조사, 녹음 자료는 연구 데이터 인가?

• primary materials’ vs ‘research data’

Observational

Experimental

Simulation

Derived or compiled

Reference or canonical

Source : http://www.bu.edu/datamanagement/background/whatisdata/

54오픈 사이언스와 빅데이터

Page 55: 오픈사이언스와 연구데이터

연구 데이터 정의 (2/2)

• administrative data Administrative data consists of records of payrolls, student enrolments, research assessment, and so on. Some administrative data relates to research projects and may need to be treated as research data. However, for the most part it is treated independently within the institution in terms of data management policies, procedures and strategies.

• teaching data Teaching data comprises courseware and other resources which are part of the teaching function of a university. Again, this may be of interest to a research project, but it is usually managed independently.

• research publications Research publications can be regarded as data, but for the most part these are well taken care of outside the institution, by publishers and the like. Even when held within the institution, either on open access or for research reporting purposes, these tend to be managed separately from other research data. Source : http://www.bu.edu/datamanagement/background/whatisdata/

55오픈 사이언스와 빅데이터

Page 56: 오픈사이언스와 연구데이터

연구 데이터 사례

• Text or Word documents, spreadsheets

• Laboratory notebooks, field notebooks, diaries

• Questionnaires, transcripts, codebooks

• Audiotapes, videotapes

• Photographs, films

• Test responses

• Slides, artifacts, specimens, samples

• Collection of digital objects acquired and generated during the process of research

• Data files

• Database contents including video, audio, text, images

• Models, algorithms, scripts

• Contents of an application such as input, output, log files for analysis software, simulation software, schemas

• Methodologies and workflows

• Standard operating procedures and protocols [12]

Primary Data

Secondary Data

Processed Data

Research Records

Source : http://www.bu.edu/datamanagement/background/whatisdata/

Research Records : Correspondence including electronic mail and paper-based correspondence /Project files / Grant applications / Ethics applications / Technical reports / Research reports / Master lists Signed consent forms

56오픈 사이언스와 빅데이터

Page 57: 오픈사이언스와 연구데이터

연구 데이터, 공공 데이터, 과학 데이터

• Factual records, which may take the form of numbers, symbols, text, images or sounds, used as primary

sources for research, and that are commonly accepted in the research community as necessary to validate research findings. Source : http://www.ands.org.au/guides/what-is-research-data

• Another way of approaching a definition of research data is to ask the question 'what needs to be kept to validate the results of research?' This

may provide a different response, and allows the researcher, rather than the institution, to focus what needs to be

kept in case research findings are questioned.Source : http://www.bu.edu/datamanagement/background/whatisdata/

연구 데이터• Factual records used for validating research findings• 연구 과정에서 수집, 생산된 데이터• 연구 내용 검증에 사용될 수 있는 데이터 (Validating research findings)• 연구 내용 재현에 꼭 필요한 데이터 (Reproducible science)

공공 데이터• 공공재원을 사용하여 수행된 연구 및 조사 활동을 통해 수집, 생산된 데이터

과학 데이터• 과학 활동을 통해 수집, 생산 된 데이터로서 공공재원으로 진행된 연구를 통해 생산된 데이터는 공공 데

이터로 분류할 수 있음

57오픈 사이언스와 빅데이터

Page 58: 오픈사이언스와 연구데이터

과학 데이터 정의

• Cheng(2006)은 과학데이터는 과학기술 활동의 결과로서관측(Observation), 감시(Monitoring), 조사(Investigation), 실험(Experiment), 연구 분석(Research Analysis), 계산(Computation) 등의 활동을 통해 생성된 데이터

• OECD(2006)의 경우, 데이터는 과학 연구수행을 위한 주요한 원천으로 사용하는 사실적인 기록(숫 자, 문자정보, 이미지 및 소리)으로 정의

• CCSDS(2002)는 과학데이터는 전달, 해석 및 가공에 적합하 도록 형식을 갖춘, 재해석이 가능한 정보의 표현

Consultative committee on Space Data Systems

Source : Cheng, Jinpei. 2006. Strategies for Preservation of and Open Access to Scientific Data in China: Summary of a Workshop

58오픈 사이언스와 빅데이터

Page 59: 오픈사이언스와 연구데이터

과학 데이터 정의 및 사례

과학 데이터 정의

• 연구자의 연구 활동 과정 중 생성되는 다양한 유형의 사실적 기록을 의미한다. 즉, 연구활동을 통하여 생산 된 연구활동의 기록물로서 관측, 감시, 조사, 실험, 분석, 계산등의 과정을 통하여 생산된 문자, 이미지, 오디오, 동영상등의 아날로그 및 디지털 형식을 포괄하는 데이터

과학 데이터 사례

• 실험데이터, 통계데이터, 단백질 구조이미지, 생물의 표본 자료, 천문학의 분광관측(spectral survey) 자료 등

Source: 김선태(2011), 「과학데이터 보존 및 활용모델에 관한 연구」http://scholar.ndsl.kr/schArticleDetail.do?cn=JAKO201013351026193

59오픈 사이언스와 빅데이터

Page 60: 오픈사이언스와 연구데이터

과학 데이터 유형

• 연구분야 및 연구방법, 관측장비, 실험장비, 분석방법 등에 따라 다양

• 주로 수치정보, 공간정보, 도표정보, 문서 등의 형태• 지구관측 및 환경 분야의 데이터는 주 로 관측데이터

로서 공간 및 수치정보와 이미지 정보• 사회과학 분야의 데이터는 주로 설문조사를 통한 통계

데이터 형태• 컴퓨터과학 분야 의 데이터는 주로 도표 또는 수치정

• 소량의 통계데이터 부터 가속기를 통해 매년 16 Petabytes씩 생산되는 대용량 미립자 충돌 데이터까지규모와 형태 적인 측면에서 매우 다양한 특징

60오픈 사이언스와 빅데이터

Page 61: 오픈사이언스와 연구데이터

과학 데이터 특징

• 데이터의 형식에 있어서 매우 다양하 다는 것이다. 위에서 언급되었듯이 과학데이터는 문서형 식을 취하

는 아날로그 정보형식에서 부터 컴퓨터 파일, 이미지 등의 다양한 디지털 정보 형식을 포괄하여 모든 유형의 형식으로 존재

• 과학데이터는 특정한 현상을 설명하기 위하여 재가공이 가능하다는 것이다. 일반적으로 과학데이터는 최종의 결과물을 추출하기 위 한 기초데이터(Raw Data)로서 기능 수행. 따라서 연구자들은 연구행 위 및 활

동에 대한 최종 결과물을 생산하기 위하여 연구 과정에서 생산된 다양한 기초데이터를 활용

• 과학데이터는 자연과학, 공학 등의 분야뿐만이 아니라 사회과학 등에서 생산되는 다양한 통계데이터 까지를 포괄

• 데이터 형식의 다양성으로 인하여 관리의 어려움이 존재한다는 것이다. 즉, 아날로 그 및 디지털 형식으로 존재함으로 해서

단순히 데이터 베이스에 저장하는 것이 아닌 체계화된 관리방법이 요구됨Source: 김선태(2011), 「과학데이터 보존 및 활용모델에 관한 연구」

61오픈 사이언스와 빅데이터

Page 62: 오픈사이언스와 연구데이터

Data Science

Page 63: 오픈사이언스와 연구데이터

오픈 사이언스와 빅데이터 63

Page 64: 오픈사이언스와 연구데이터

• 1960년 Peter Naur è ‘computer science’의 대체 용어로 처음 사용. ‘datalogy’ 개념으로 사용

• 2015년 10월 현재 è 구조적 혹은 비구조적인 다양한 형식의 방대한 데이터로부터 지식과 통찰력(insights)를 추출하는 분야와 이의 행위를 돕는 시스템과 관련된 다양한 분야

• 데이터 과학은 규모가 큰 빅 데이터에만 특화된 것이아님. 빅 데이터를 처리하기 위한 방법론들은 데이터과학의 특화된 분야 중 하나일 뿐

• 데이터 과학은 비즈니스 환경에서 폭발적으로 사용되고 있지만 많은 학자와 저널리스트들은 ‘데이터 과학’과 ‘통계학’의 차이점이 명확하지 않기 때문에 데이터 과학이 부각되는 것을 비판Data science (출처: https://en.wikipedia.org/wiki/Data_science)

Data Science

64오픈 사이언스와 빅데이터

Page 65: 오픈사이언스와 연구데이터

수학, 통계학계량분석화학

정보 과학, 컴퓨터 과학신호처리

가능성 모델기계학습, 통계학습데이터 마이닝

데이터베이스데이터 엔지니어링

패턴 인식과 학습가시화미래분석

불확실성 모델링데이터 웨어하우징

데이터 압축컴퓨터 프로그래밍

인공 지능고성능 컴퓨팅 …

농업의료

마케팅 최적화이상행위 감지

위기관리마케팅 분석

공공 정책 …

기후 변화나 황사, 해양 오염 등 범 지구적문제 해결 노력

다양한 분야에서문제점을 조사하고의사결정을 지원하는데 사용

Data Science 활용

65오픈 사이언스와 빅데이터

Page 66: 오픈사이언스와 연구데이터

Data Science 활용사례

• 기후 데이터의 경우, 과거에는 기후 분야를 연구하는 과학자들이 주 사용

• 오늘날에는 물과 공공용지(public land), 건강, 해양 분야등의 자원 관리자들이 그들의 의사결정과 연구를 위해 기후 데이터 접근 요청

• 정책 수립 분야에서도 기후 변화 대응 전략을 수립하기 위하여 데이터 접근 필요

• 기하급수적으로 발생하는 기후 데이터에 대한 물리적인보존과 공유에 대한 이슈가 활발출처: Overpeck, J. T., Meehl, G. A., Bony, S., and Easterling, D. R., “Climate Data Challenges in the 21st Century”, Science, Vol. 331, 2011.

66오픈 사이언스와 빅데이터

Page 67: 오픈사이언스와 연구데이터

Data Scientists

Page 68: 오픈사이언스와 연구데이터

Data Scientists

Data Scientists (NSF 2005, p27)

The information and computer scientists, database and software engineers and programmers, disciplinary experts, curators and expert annotators, librarians, archivists, and others, who are crucial to the successful management of a digital data collection

데이터 과학자

데이터 과학과 관련된 분야를 전공하고 데이터분석과 관련된 업무에 종사하는 사람을 말한다. 즉 데이터 과학자는 현장에 존재하는 대량의 데이터를 모으고, 분석에 적합한 형태로 가공하고, 데이터가 의미하는 바를 이야기(story)에 담아 다른 사람에게 효과적으로 전달하는 역할을 한다.(O’Reilly Media, 2012)

데이터 과학자

Business analyst VS. Data analystResearch ScientistData Scientist

(Jeff Hammerbacher & DJ Patil / 2008년)

Experiences like my own suggest that the best way to become a data scientist isn’t to be trained as a data scientist, but to do serious, data-intensive work in some other discipline.

오픈 사이언스와 빅데이터 68

Page 69: 오픈사이언스와 연구데이터

Data Scientists (2/3)

• September 2005 The National Science Board publishes “Long-lived Digital Data Collections: Enabling Research and Education in the 21st Century.”

• The report defines data scientists as “the information and computer scientists, database and software engineers and programmers, disciplinary experts, curators and expert annotators, librarians, archivists, and others, who are crucial to the successful management of a digital data collection.”

69오픈 사이언스와 빅데이터

Page 70: 오픈사이언스와 연구데이터

Data Scientists (3/3)

• Research Data Management

• Research Data Service by Data Scientists Team.

70오픈 사이언스와 빅데이터

Page 71: 오픈사이언스와 연구데이터

EPILOGUE

Page 72: 오픈사이언스와 연구데이터

출처: http://bit.ly/2oAMCGq

오픈 사이언스와 빅데이터 72

Page 73: 오픈사이언스와 연구데이터

연구자가 원하는 콘텐트

계산과학공학센터 연구사업과 관련된 데이터는 어디?

오픈 사이언스와 빅데이터 73

Page 74: 오픈사이언스와 연구데이터

What is Datanest ?

Research Data Repository

오픈 사이언스와 빅데이터 74

Page 75: 오픈사이언스와 연구데이터

진정한 과학자

• 논문에 반드시 포함되어야 하는것 중 하나 : 선행연구• 선행연구는 기존 연구방법 조사, 연구의 한계점 등을

기술하는 섹션• 과학이라는 것은 기존 연구에서 제시한 규칙을 반박하

고 새로운 규칙을 제시하는 것• 기존 규칙을 반박하기 위해서는 기존 연구와 동일한

환경에서 기존 연구결과의 검증이 필수• 이상이 가능하기 위해서는 기존 연구에서 사용한 데이

터와 데이터를 둘러싼 컨텍스트 정보가 반드시 필요• 진정 과학자라면 자신이 주장하는 규칙을 증명 혹은

반박할 수 있도록 데이터를 제공해야 함• 이는 연구윤리 측면에서 솔찬히 중요함

오픈 사이언스와 빅데이터 75

Page 76: 오픈사이언스와 연구데이터

출처: http://cfile27.uf.tistory.com/image/0254BA3751B9B27E1AF104

오픈 사이언스와 빅데이터 76

Page 77: 오픈사이언스와 연구데이터

출처: http://bit.ly/2opTrc2

오픈 사이언스와 빅데이터 77

Page 78: 오픈사이언스와 연구데이터

출처: http://bit.ly/2nGj2QR

오픈 사이언스와 빅데이터 78

Page 79: 오픈사이언스와 연구데이터

출처: http://cfile8.uf.tistory.com/original/1139BB375111BA491DA57E

오픈 사이언스와 빅데이터 79

Page 80: 오픈사이언스와 연구데이터

오픈 사이언스와 빅데이터 80

Page 81: 오픈사이언스와 연구데이터

81오픈 사이언스와 빅데이터

Page 82: 오픈사이언스와 연구데이터

참고문헌• [1] 과학(위키) http://bit.ly/2oxe0oX• [2] 과학이란 무엇인가 – 파인만 http://bit.ly/2nCsLrb• [3] 국민이설계하는대학운동 :: 희망블로거 http://hopebloggers.tistory.com/1• [4] 지식점프 http://bit.ly/2p6z8jR• [5] 연세대학교 계산과학공학과 http://cse.yonsei.ac.kr/• [6] Nancy Pontika; Petr Knoth; Matteo Cancellieri; Samuel Pearce (2015). "Fostering Open Science to Research

using a Taxonomy and an eLearning Portal". Retrieved 12 August 2015.• [7] Gezelter, D. (2009). What, exactly, is Open Science? URL http://www.openscience.org/blog/?p=269• [8] Stodden, V. (2009). Enabling Reproducible Research: Open Licensing for Scientific Innovation. International

Journal of Communications Law and Policy, vol.13, pp.1-25• [9] Murray-Rust, P. (2008). Open Data in Science. Serials Review, vol.34, no.1, pp.52-64.

doi:10.1016/j.serrev.2008.01.001• [10] Altenh�ren, R. Open Source Software - definition, licensing models and organizational consequences

(introduction). In Proceedings of the 71 IFLA General Conference and Council “Libraries – A voyage of discovery” (Oslo, 2005) URL http://archive.ifla.org/IV/ifla71/papers/121e-Altenhoener.pdf

• [11] What is the Difference between Qualitative Research and Quantitative Research? https://www.snapsurveys.com/blog/what-is-the-difference-between-qualitative-research-and-quantitative-research/

• [12] What Is “Research Data”? http://www.bu.edu/datamanagement/background/whatisdata/

오픈 사이언스와 빅데이터 82

Page 83: 오픈사이언스와 연구데이터

경청해 주셔서 고맙습니다.

Q & A오픈 사이언스와 빅데이터 83