유전체 빅데이터 연구 동향 - ksmcb.or.kr기술 분야와의 융복합 연구를 통해...

8
01 분자세포생물학뉴스레터 논/단 유전체 빅데이터의 정의 최근 빅데이터(Big Data)는 우리사회의 핵심 키워드 로 등장하고 있으며, 융합(Convergence)라는 단어 역시 또 다른 핵심 키워드로 우리 사회에 키워드로 언급되고 있 다. 하지만 빅데이터는 새로운 개념이 아니며, 1990년대 인터넷의 확산으로 정형 및 비정형 정보가 무수히 발생하 게 되면서 정보 홍수(Information overload)나 정보 폭발 (Information explosion)이라는 개념으로 정립되기 시작하 여 지금의 빅데이터라는 개념으로 이어지게 되었다. 빅데이 터는 단순히 데이터의 크기와 관련 된 문제가 아니라, 빅데 이터의 3대 요소를 통해 새로운 데이터의 의미를 찾아내는 개념이다. (그림 1) 빅데이터 3요소: 1) 데이터 규모(Volume), 2) 처리 저장 속도(Ve- locity), 3) 데이터 종류의 다양성 (Variety) 생물학 분야에서의 유전체 빅데이터란, 유전체(omics) 분 석을 통해 생성된 대용량의 생물학 데이터를 지칭하는 것 으로서 전장 유전체(genome), 전사체(transcriptome), 단 백체(proteome), 후성 유전체(epigenome) 및 대사유전체 (metabolome) 등의 대표적인 분야가 있다. 2000년대 중 반 도입된 NGS(Next Generation Sequencing) 기술로 인 해 유전체 빅데이터는 2002년 인간 유전체 해독 당시에 비 해 기하급수적으로 증가하고 있다. 최근 2년간 유전체 빅데 이터의 생산량은 페타(petabyte, 10 15 byte) 수준으로 증가 하고 있으며 매년 2배 이상 증가하고 있다[1]. NGS 기술의 도입은 유전체 빅데이터 분석 비용을 획기적으로 낮출 수 있었으며, 이로 인해 생물학자들은 인간을 비롯한 생명체의 유전체 정보를 연구의 기본정보로 활용할 수 있게 되었고 이는 분석의 단위를 유전자에서 유전체로 유도하게 되었다. 생물학 분야의 분석이 유전체 단위로 바뀜에 따라 방대한 양의 유전체 정보를 분석 및 해석하기 위한 학문인 유전체 학(Omics)이 발전하고 있으며, 유전체학 연구는 다양한 IT 기술 분야와의 융복합 연구를 통해 생명공학 기술 패러다임 유전체 빅데이터 연구 동향 김용민 한국생명공학연구원 국가생명연구자원정보센터(KOBIC) E-mail: [email protected] 그림 1. 빅데이터의 구성 요소

Upload: others

Post on 31-Dec-2019

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 유전체 빅데이터 연구 동향 - ksmcb.or.kr기술 분야와의 융복합 연구를 통해 생명공학 기술 패러다임 유전체 빅데이터 연구 동향 김용민 한국생명공학연구원

01 ● ● 분 자 세 포 생 물 학 뉴 스 레 터

논/단

유전체 빅데이터의 정의

최근 빅데이터(Big Data)는 우리사회의 핵심 키워드

로 등장하고 있으며, 융합(Convergence)라는 단어 역시

또 다른 핵심 키워드로 우리 사회에 키워드로 언급되고 있

다. 하지만 빅데이터는 새로운 개념이 아니며, 1990년대

인터넷의 확산으로 정형 및 비정형 정보가 무수히 발생하

게 되면서 정보 홍수(Information overload)나 정보 폭발

(Information explosion)이라는 개념으로 정립되기 시작하

여 지금의 빅데이터라는 개념으로 이어지게 되었다. 빅데이

터는 단순히 데이터의 크기와 관련 된 문제가 아니라, 빅데

이터의 3대 요소를 통해 새로운 데이터의 의미를 찾아내는

개념이다. (그림 1)

※ 빅데이터 3대 요소: 1) 데이터 규모(Volume), 2) 처리 및 저장 속도(Ve-locity), 3) 데이터 종류의 다양성 (Variety)

생물학 분야에서의 유전체 빅데이터란, 유전체(omics) 분

석을 통해 생성된 대용량의 생물학 데이터를 지칭하는 것

으로서 전장 유전체(genome), 전사체(transcriptome), 단

백체(proteome), 후성 유전체(epigenome) 및 대사유전체

(metabolome) 등의 대표적인 분야가 있다. 2000년대 중

반 도입된 NGS(Next Generation Sequencing) 기술로 인

해 유전체 빅데이터는 2002년 인간 유전체 해독 당시에 비

해 기하급수적으로 증가하고 있다. 최근 2년간 유전체 빅데

이터의 생산량은 페타(petabyte, 1015 byte) 수준으로 증가

하고 있으며 매년 2배 이상 증가하고 있다[1]. NGS 기술의

도입은 유전체 빅데이터 분석 비용을 획기적으로 낮출 수

있었으며, 이로 인해 생물학자들은 인간을 비롯한 생명체의

유전체 정보를 연구의 기본정보로 활용할 수 있게 되었고

이는 분석의 단위를 유전자에서 유전체로 유도하게 되었다.

생물학 분야의 분석이 유전체 단위로 바뀜에 따라 방대한

양의 유전체 정보를 분석 및 해석하기 위한 학문인 유전체

학(Omics)이 발전하고 있으며, 유전체학 연구는 다양한 IT

기술 분야와의 융복합 연구를 통해 생명공학 기술 패러다임

유전체 빅데이터 연구 동향

김 용 민

한국생명공학연구원 국가생명연구자원정보센터(KOBIC)

E-mail: [email protected]

그림 1. 빅데이터의 구성 요소

Page 2: 유전체 빅데이터 연구 동향 - ksmcb.or.kr기술 분야와의 융복합 연구를 통해 생명공학 기술 패러다임 유전체 빅데이터 연구 동향 김용민 한국생명공학연구원

molecular and cellular Biology Newsletter

웹 진 2015ㅣ1 ● ● 02

을 변화시키고 있다. 일례로 지금 활발히 연구 및 산업화가

진행되고 있는 사물기반 인터넷(IoT, Internet of Thing)과

유전체 정보의 융합 연구를 통해 개발 되고 있는 의료의사

결정시스템(Clinical Decision Supporting System)은 의

사로 하여금 환자에 대한 다양한 정보(생활패턴, 바이털 정

보, 유전체 정보)를 바탕으로 의료의사 결정을 할 수 있게

도와줄 것이다.

유전체 정보 생산 및 분석 연구는 신약, 진단/예방, 국방,

농업, 수산, 식품, 환경, 에너지 등 거의 모든 산업 영역에 막

대한 파급효과를 미치는 핵심 기술로서 선진국은 물론 개발

도상국에서도 경쟁적으로 투자를 확대해 나가는 분야이다.

국내외 연구동향

(1) 신규 유전체 해독

NGS 도입으로 인해 2002년 당시 10억 달러(인간 유전

체)에 달했던 유전체 분석 비용은 천 달러 내외로 감소하였

으며, 염기 서열 분석 비용의 감소는 생물학 연구 경향을 중

요 유전체의 해독에서 모든 관심 유전체의 해독으로 바꾸

게 하는 결정적인 계기가 되었다. 세계 삼대 식량 작물인 벼

의 경우, 2002과 2005년 Sanger sequencing으로 두 종

류의 표준 유전체가 보고 된 바 있다. 최근 국제미작연구소

(International Rice Research Institute)에서 전 세계 89개

국과 공동 연구를 통해 총 3,024개의 벼 품종의 유전체 연구

를 진행하고 있는 것이 대표적 예라 할 수 있다(그림 2).

대표적인 대규모 신규 유전체 해독 연구로는 1000개

의 주요 동식물 참조 유전체를 만들기 위한 1000 Plant &

Animal Reference Genome Project(2010년), 가지과 식

물 100종에 대한 서열 분석을 위한 SOL 100 Project(2009

년), 식물 진화 과정을 규명하기 위해 100종 이상의 전장 유

전체 데이터를 생산하고 진화 분석하는 100 X 100 Plant

Genome project(2009년), 모델 식물인 애기장대의 1001

개 변이체의 염기서열을 분석하는 TAIR(The Arabidopsis

Information Resource)의 1001 genome project,

BGI(Beijing Genome Institute)의 3 million Genome

Project 등이 있다.

이러한 분석과 관련 되어, 전장 유전체 및 전사체 분석

을 위한 다양한 분석 프로그램과 파이프라인의 연구가 진행

되고 있으며, 후속 연구와 관련하여 유전자의 예측과 관련

된 다양한 연구 및 프로그램 개발도 계속 되고 있다. 또한

NCBI(National Center for Biotechnology Information)

와 EBI(European Bioinformatics Institute)에서는 유전

그림 2. Rice 3K 소개 페이지(국제미작연구소 홈페이지)

Page 3: 유전체 빅데이터 연구 동향 - ksmcb.or.kr기술 분야와의 융복합 연구를 통해 생명공학 기술 패러다임 유전체 빅데이터 연구 동향 김용민 한국생명공학연구원

논/단

03 ● ● 분 자 세 포 생 물 학 뉴 스 레 터

자 예측(Annotation)을 서비스하고 있다. NCBI의 경우, 진

핵생물(Eukaryote)에서 분석이 완료 된 유전체의 유전자

재예측(Reannotation) 작업을 신규 유전자 예측 작업과 별

도 진행하고 있으며 최근 들어서는 그 비율이 많이 높아지

고 있다(그림 3).

그림 3에서 볼 수 있듯이 NCBI에서 진행한 진핵생물

의 유전자 재예측은 2011년에 16건에서 2014년에는 29건

으로 그리고 올해에는 73건으로 증가하고 있으며, 올해에

는 신규 유전체 분석 건수 61건보다도 많은 분석 건수를 보

여주고 있다. 이러한 경향은 유전체 분석에 있어서 이전보

다 더 높은 완성도의 분석이 요구 되고 있는 것을 보여주

며, 초창기와 달리 유전체 분석에 이용할 수 있는 표준 유

전체(Reference genome)가 많아 졌음을 의미한다. 현재

까지 분석이 완료 된 동물의 유전체는 80여종에 이르며, 이

중에서 가축화 된 동물의 경우는 10 여종이 넘는다. 2004

년의 닭을 시작으로 개(2005년), 고양이(2007년), 소(2009

년), 말(2009년), 칠면조(2010년), 돼지(2012년), 염소

(2013년), 오리(2013년), 양(2014년), 토끼(2014년)의 유

전체 정보가 분석 및 공개 되었다. 식물의 경우도 2000년

애기장대(Arabidopsis)를 시작으로 90 종 이상의 유전체

가 분석 및 공개 되었다. 기존의 연구 결과와 함께 현재 진

행되고 있는 대규모의 신규 유전체 해독 작업을 통해 생성

된 다양한 정보의 연구자간 공유를 위해서 데이터베이스

가 중요해지고 있다. 이러한 지식공유 데이터베이스는 막

대한 양으로 생성 되고 있는 유전체 빅데이터의 저장 및 공

유를 위한 요소로서 생물학 정보의 논문 출판을 위한 중요

한 요소로서의 역할을 수행하고 있다. 이와 같은 새로운 패

러다임의 데이터베이스가 중요해지면서 주목 받기 시작한

것이 Biocuration이다. Biocuration은 유전체 빅데이터

그림 3. NCBI에서 진행하고 있는 Eukaryotic Genome Annotation

Page 4: 유전체 빅데이터 연구 동향 - ksmcb.or.kr기술 분야와의 융복합 연구를 통해 생명공학 기술 패러다임 유전체 빅데이터 연구 동향 김용민 한국생명공학연구원

molecular and cellular Biology Newsletter

웹 진 2015ㅣ1 ● ● 04

의 구성(organization), 표현(representation) 및 접근성

(accessibility)을 연구자와 컴퓨터에 보장해주는 작업으로

서 생물학 연구 분야에서 기본적인 작업이 되었다[2]. 이러

한 작업의 연장선상에서 연구로부터 얻어진 지식 또는 연

구 성과를 공유하기 위한 연구 커뮤니티 차원의 표준 유전

체 데이터베이스가 개발 되어 현재 서비스 되고 있다. 이러

한 데이터베이스의 특징은 개별 연구자, 연구 그룹/컨소시

엄, 연구 기관 등에서 생성 되는 다양한 유전체 빅데이터

뿐만 아니라 관련 연구 논문의 정보까지 연계하여 해당 유

전체의 깊이 있는 연구를 할 수 있도록 다양한 자원을 공유

한다는 것이다. 이러한 표준 유전체 정보를 바탕으로 현재

GWAS(Genome Wide Association Study) 분석이 활발히

진행 되고 있으며, GWAS 분석을 통해 오이와 토마토 육종

의 역사를 밝혀낸 논문과 같이 최근 저명 해외 학술지에 다

수의 GWAS 관련 논문이 출판되기도 하였다[3-5]. 인간

유전체 연구의 경우, 현재 GRC(The Genome Reference

Consortium)에서 제공하는 GRC38이 60여 명이 넘는 사

람들의 유전체 정보를 종합한 “Pan-human reference”를

표방하고 있으나, 한국인을 비롯한 동양인의 특성 연구 및

reference에 등록이 되어 있지 않기 때문에, 질환 분석 및

신약 개발을 위해 한국, 일본, 중국에서는 각국의 참조 표준

유전체를 구축하는 사업을 진행 중이다.

(2) 기능 유전체

유전체의 분석이 끝나면서 연구자들은 유전자의 구조적

예측(Structural Annotation)만으로 생물학 연구가 충분

하지 않다는 것을 깨달았으며, 구조적 예측을 통해 밝혀진

유전자의 기능 연구를 시작하게 되었다. 이러한 연구의 대

표적인 것이 미국 국립 인간 유전체 연구소(The National

Human Genome Research Institute, NHGRI)에 의해

진행되고 있는 ENCODE 프로젝트이다[6]. 이 프로젝트

는 인간 유전체의 모든 기능적 성분을 규명하는 프로젝트

로서 2003년 9월 DNA 성분 백과사전, 즉 ENCODE(the

Encyclopedia Of DNA Elements) 라는 연구 컨소시엄 형

태로 출범하였다. ENCODE 프로젝트를 통해서 연구자들

은 인간 유전체에서 ‘기능적’인 DNA 서열의 목록을 만들고,

언제 어느 세포에서 활성화 되는지를 알고, 또 어떻게 조절

되며 그와 관련 된 유전자들의 작용을 연구하기 위해 막대

한 양의 데이터를 수집할 수 있었다. 이러한 노력으로 컨소

시엄은 대략 80%의 인간 유전체 지역에 기능들을 부여하

였고 여기에는 7만여 개의 ‘프로모터’ 지역과 40만여 개의

‘Enhancer’ 지역이 포함되었다[7]. 하지만, 아직도 해야 할

연구가 많다. Mapping 완성까지는 대략 반 정도가 남았으

며, 유전체의 모든 것에 대해 깊이 있는 정의를 내리는 것은

10% 정도만 완료되었기 때문에, 이후의 좀 더 깊이 있는 연

구는 ENCODE 프로젝트의 3단계에서는 연구가 진행 될 것

이며, 더 많은 정보를 확보 할 수 있을 것이다. ENCODE 프

로젝트는 어떻게 유전적 변이가 인간 형질과 질병에 영향을

주는지 이해할 수 있는 기회를 만듦으로써 이미 상당수 유

전체의 특정 영역을 밝혔다. 프로젝트에 의해 밝혀진 무수

히 많은 조절 요소(regulatory elements) 들을 탐색하고 다

른 포유류의 시퀀스와 비교함으로써 어떻게 인간이 진화하

였는지에 대한 과학자들의 이해에 큰 기여를 할 것으로 기

대된다.

동물에서도 FAANG(the Functional Annotation of

Animal Genome Project)라고 불리는 ENCODE와 비슷한

프로젝트가 진행되고 있다. FAANG 프로젝트는 초기 단계

의 국제 컨소시엄 활동으로 가축 종의 유전체 상에서 기능

적인 요소들을 탐색하고 이의 종합적인 지도를 만드는 것을

그 목표로 한다. 가축화된 동물에 대한 연구는 과학적 및 사

회경제적으로 중요하다. 이러한 연구는 의학 분야의 연구,

반려 동물의 건강과 복지의 개선, 농업 분야에서의 동물 부

분의 기반을 향상시키는 것이 포함된다. 이를 위한 핵심은

가축화된 동물들 간의 유전적∙표현형적인 다양성을 풍부하

게 확보하는 것과, 이 다양성을 양적 형질의 기저에 위치하

는 유전적 구조를 밝히는 연구와 결합하는 것이다. 가축 유

전체의 연구는 진화, 적응, 유전적 선택에 대한 이해를 제

공해 준다. 가축화되고 사육되는 동물들은 꿀벌에서 조개,

물고기, 새, 포유 동물을 아우르는 폭넓은 진화적 스펙트럼

을 보여주고, 그들의 유전체에 대한 분석은 DNA 시퀀스와

기능 간의 관계들을 알려준다. 가축 종과 그들의 잠재적 조

상인 야생종에 대한 전체적인 유전체 분석은 가축화 과정

Page 5: 유전체 빅데이터 연구 동향 - ksmcb.or.kr기술 분야와의 융복합 연구를 통해 생명공학 기술 패러다임 유전체 빅데이터 연구 동향 김용민 한국생명공학연구원

논/단

05 ● ● 분 자 세 포 생 물 학 뉴 스 레 터

에 대한 단서를 제공하기도 한다[8]. 가축에 적용하는 인위

적 선발의 유전적 흔적 또한 DNA 시퀀스와 선택된 형질들

간의 관계에 대한 이해를 연구자들에게 제공한다[9]. 돼지,

양, 닭, 개를 포함한 몇 가지 가축 종은 인간 생물학의 모델

동물로써 널리 사용된다. 그러나 단백질을 코딩하는 지역의

DNA 시퀀스에 일어난 변이가 질병 형질, 특히 단성 유전되

는 질병들로 대표되는 형질의 주요한 결정 인자일 수 있음에

도 불구하고, 유전 조작한 쥐에서 질병 형질을 재현하려는

시도들은 자주 실패한다[10]. 이렇게 모델 동물의 연구를 인

간 생물학으로 옮기는 과정에서 발생하는 부정확함 때문에

유전자형-표현형 관계의 더 나은 이해가 필요하고, 더 많은

생물 종을 사용하여 인간 생리학에 근접한 결과를 도출할 필

요가 있다. 따라서 동물에서의 FAANG 프로젝트를 통한 유

전자 기능연구는 표현형질 및 유전적 다양성을 연구에 크게

기여 할 것이며, 동물의 진화 연구 및 육종 연구에 또한 큰

기여를 할 것으로 기대된다.

식물에서는 애기장대에서 Arabidopsis Interactome이

라는 project가 진행되고 있으며, 2011년에 AI-1 network

과 PPIN-1network에 대한 논문 보고가 있었으며[11], 최

근에는 2,238개 단백질의 3,577개의 interaction을 밝힌

NAPPA network에대한 결과가 공개되었다. 또한 경제적으

로 중요한 작물 중에 하나인 토마토에서도 애기장대의 결과

를 바탕으로 Interactome 분석을 진행하고 있다.

(3) 인간 질환 분석 관련 연구NGS를 이용한 인간의 유전체 분석은 주로 질환분석을 통

한 난치병 치료와 개인 맞춤형 의학 등이 있다. NGS 기술의

발전으로 인한 유전체 분석 비용과 시간의 급격한 감소는 유

전체 분야에서 다양한 바이오 신기술 개발을 유도하였으며,

새로운 분야와의 융합(Convergence)이 강조되기 시작하였

다. 이러한 융복합 연구는 맞춤형 신약개발 기술, 생명시스

템 분석 기술, 유전체 정보 이용 기술, 줄기세포 기술 및 원

격 건강관리 서비스 등이 대표적이다. 천 달러의 비용으로

개개인의 유전체 염기 서열이 분석 가능해지면서 각종 질병

의 예방 및 진단 그리고 개개인의 맞춤 의학에 활용할 수 있

는 시대가 도래하고 있다. miRNA와 methylation 탐색 등

의 신 기술 개발로 질병에 대한 주요 원인 유전자의 탐색,

암과 희귀 질환의 조기 진단 및 암 치료제 개발에 새로운 패

러다임이 제시 되었으며, 이를 통해 많은 수의 질환 유발 유

전자들이 밝혀졌다 (그림 4). 인간 암유전체의 microRNA

발현 패턴을 분석을 통해 인체의 암세포가 나타내는 발현

프로파일링을 발견 할 수 있게 되었으며, 현재까지 217종

의 microRNA가 암 발생 초기와 진행과정에 관여되어 있음

을 확인하였고 계속적으로 새로운 암 관련 microRNA의 기

능이 밝혀지고 있다. 또한 유전체 조절영역의 methylation

은 유전자 발현의 조절과 직접 연관이 되어 있음이 알려지

면서 유전적 질환과 암유전체 연구에 대한 관심이 높아지

고 있으며, 활발한 관련 연구를 통해서 유전체 변이정보

(OMIM, Online Mendelian Inheritance in Man)[12] 및

암유전체에 대한 데이터(COSMIC, Catalogue Of Somatic

Mutations In Cancer)[13]를 통합 관리하는 데이터베이스

가 구축되어 유용한 정보를 제공하고 있다. 이러한 연구 성

과들을 통해서 암 진단 및 희귀난치성 질환에 대한 진단 기

술 및 치료제 개발이 꾸준히 증가하고 있다. 희귀 난치성 질

병 환자 및 암환자의 대규모 유전체 분석 프로젝트인 영국의

100K genome project를 통해, 병의 원인, 진단법, 치료법

이 조사될 것이다. 또한 위의 프로젝트를 통해 초기 진단에

그림 4. COSMIC 데이터베이스에 등록 되는 기간 별 암 관련 정보 (출처: Cell, 155:27-88)

Page 6: 유전체 빅데이터 연구 동향 - ksmcb.or.kr기술 분야와의 융복합 연구를 통해 생명공학 기술 패러다임 유전체 빅데이터 연구 동향 김용민 한국생명공학연구원

molecular and cellular Biology Newsletter

웹 진 2015ㅣ1 ● ● 06

서의 더 정확한 진단법을 이끌어 내며 새로운 의료 장치와

더 빠른 임상 시험, 새로운 약과 치료법을 가능하게 할 것으

로 기대한다.

향후 전망

초기 인간 유전체 해독 당시 수 많은 연구자들의 기대와

달리 인간 유전체의 해독은 또 다른 시작에 불과 했지만, 유

전체 연구에 있어서 중요한 전환점이 되었다. 또한 2000년

대 중반에 개발된 NGS 염기서열 분석 비용은 유전체 해독

에 들어가는 비용과 시간의 획기적인 감소를 통해 유전체

연구에 새로운 패러다임을 제시하였다. 유전체 해독을 통해

획득한 유전자 기능의 대규모 탐색과 이와 연관된 기술의

발달로 연구자들은 인간의 질환 관련 된 유전자 및 농업에

있어서 중요한 동∙식물 유전자원의 중요 형질과 연관 된 다

양한 유전자를 찾을 수 있었으며 이는 유전체 산업의 성장

으로 연결 되었다. 유전체 산업으로는 23andme로 대표되

는 개인 맞춤형 헬스케어를 위한 산업이 있으며, 농업적으

로 중요한 작물의 육종을 위한 마커 개발 및 이를 위한 플랫

폼 개발 등이 있다. 또한 Nanopore와 PacBio에서 개발 되

거나 개발될 long read 분석 기술은 이전의 short read 분

석법으로 힘들던 분석을 보다 쉽게 풀어 줄 수 있을 것으로

기대된다.

전세계 유전체 시장 규모는 2013년 기준 111억 달러(11

조 8천억원)에서 연평균 12.2%로 성장할 것으로 전망되고,

2018년에는 198억 달러(21조) 의 시장 규모를 가질 것으로

예측된다. 앞서 언급한 바와 같이 유전체 관련 기술을 향상

시키고 해당 과학 분야와 산업 기반을 발전시키기 위해 여

러 국가에서 대규모의 투자지원이 이루어지고 있기 때문에

이러한 영향을 받아 전세계 유전체 시장은 날로 성장하고

있다. 차세대 염기서열 분석 기계의 관련 기술이 꾸준히 발

전하고 있고 암과 각종 질병에 관련된 유전자 테스트가 증

가하고 있어 진단에 필요한 시약류와 기타 소비재, 서비스

시장이 활성화되고 있다. 유전체 기술을 이용한 개인 맞춤

의학의 적용과 그 대상의 확대에 대한 관심이 높아지고 있

어 게놈 시장의 성장은 지속될 것으로 전망된다. 이러한 개

인 맞춤 의학뿐만 아니라, 동물과 식물의 육종 및 기초 연구

를 위한 대규모의 신규 염기서열 해독 및 유전체 재분석 또

한 시장의 성장에 큰 기여를 할 것으로 기대된다.

현대 사회의 특징은 엄청난 양의 정보가 홍수를 이루는

정보의 홍수시대라고 할 수 있다. 이러한 대규모의 정보를

해석하기 위해 최근에 사회 전반에서 빅데이터 분석이 주목

받고 있으며, 이를 위한 대규모의 저장 장치 및 분석 장비가

개발 및 보급 되고 있다. 이미 미국의 월스트리에서 많은 분

석가들이 스스로 script언어를 이용해서 대규모의 데이터를

분석 그들의 자료로 활용하고 있다. 이러한 추세를 볼 때,

앞으로 생물학 분야에서도 생명정보학은 이전의 분자생물

학과 마찬가지로 생물학 연구자들에게 선택 사항이 아닌 필

수적인 분석 방법이 될 것으로 예상한다.

[ 참고 문헌 ]1. Vivien Marx, The big challenges of big data.

Nature, 498, 255 (2013)

2. DougHowe et al., The future of biocuration.

Nature, 455, 47 (2008)

3. Qi J. et al., A genomic variation map provides

insights in to the genetic basis of cucumber

domiestication and dieversity. Nature Genetics, 45,

1510 (2013)

4. Shang Y. et al., Biosynthesis, regulation, and

domestication of bitterness in cucumber, Science,

346, 1084 (2014)

5. Lin T. et al., Genomic analyses provide insights

into the history of tomato breeding. Nature

Genetics, 46, 1220 (2014)

6. Maher, B. ENCODE: The human encyclopaedia.

Nature 489, 46 (2012).

7. Consortium, E.P. An integrated encyclopedia of

DNA elements in the human genome. Nature 489,

57 (2012).

8. Hillier, L.W. et al. Sequence and comparative

Page 7: 유전체 빅데이터 연구 동향 - ksmcb.or.kr기술 분야와의 융복합 연구를 통해 생명공학 기술 패러다임 유전체 빅데이터 연구 동향 김용민 한국생명공학연구원

논/단

07 ● ● 분 자 세 포 생 물 학 뉴 스 레 터

analysis of the chicken genome provide unique

perspectives on vertebrate evolution. Nature 432,

695 (2004).

9. Larkin, D.M. et al. Whole-genome resequencing

of two elite sires for the detection of haplotypes

under selection in dairy cattle. Proceedings of the

National Academy of Sciences 109, 7693 (2012).

10. Guilbault, C., Saeed, Z., Downey, G.P. & Radzioch,

D. Cystic fibrosis mouse models. Am J Respir Cell

Mol Biol 36, 1 (2007)

11. Arabidopsis interactome Mapping Consortium,

Evidence for Network Evolution in an Arabidopsis

Interactome Map. Science, 333, 601 (2011)

12. Boycott. et. al., Rare-disease genetics in the

era of next-generation sequencing: discovery

to translation. Nature Reviews Genetics, 14, 681

(2013)

13. Koboldt DC. et. al., The Next-Generation

Sequencing Revolution and Its Impact on

Genomics. Cell, 155, 27 (2013)

저 | 자 | 약 | 력

김 용 민

1994-1999 서울대학교 농업생명과학대학, 학사

1999-2001 서울대학교 농업생명과학대학, 석사

2007-2011 전남대학교 농업생명과학대학, 박사

2001-2006 금호생명환경과학연구소 연구원

2011-2014 서울대학교 식물유전체육종연구소 책임연구원

2014-현재한국생명공학연구원 국가생명연구자원정보센터 전임연구원

Page 8: 유전체 빅데이터 연구 동향 - ksmcb.or.kr기술 분야와의 융복합 연구를 통해 생명공학 기술 패러다임 유전체 빅데이터 연구 동향 김용민 한국생명공학연구원

molecular and cellular Biology Newsletter

웹 진 2015ㅣ1 ● ● 08