유전체 빅데이터 공유 및 인공지능 시대 · 이터 (big data)를 어떻게 생산할...

5
유전체 빅데이터 공유 및 인공지능 시대 01 분자세포생물학 뉴스레터 서 론 기술의 발전은 패러다임의 전환을 야기한다. 스마트폰의 개발 및 급속한 발전은 다양한 산업을 생성하였으며 사람들 의 생활 패턴 패러다임을 변화시켰다. 이러한 패러다임의 변 화는 기초생명과학, 임상 및 의료 분야에서도 일어나고 있다. DNA microarray 및 차세대염기서열분석 (next-generation sequencing, NGS) 기술의 급속한 발전과 보급은 가설을 세 우고 연구에 들어가는 기존의 연구방법 (hypothesis-driven approach)에서 벗어나, 전체 현상을 보고 가설을 정하는 접 근 방법 (hypothesis-generating approach)을 가능하게 했 다. NGS는 게놈 (genome) 및 연관된 분자들에 대한 분자지 도 (molecular map)를 만드는 기술이다. 따라서 기존에 알려 진 지식 검증 이외에 알려지지 않은 특성의 발굴도 동시에 가능 하다. 예를 들어 TCGA (the cancer genome atlas, http:// cancergenome.nih.gov/) 프로젝트는 다양한 종류의 암에 대 하여 대규모 환자 집단 (cohort)을 대상으로 NGS 기반 유전 체 연구를 수행하여 기존에 알려진 p53 (TP53) 유전자의 변이 이외에 다양한 새로운 유전자의 변이 등을 발굴하였다. 그리고 ENCODE (ENCyclopedia Of DNA Elements, https://www. encodeproject.org/) 컨소시엄은 인간 게놈 (human genome) 에 존재하는 모든 DNA elements 발굴 및 기능유추를 목적으 로 다양한 종류의 세포에서 8,000 건 이상의 분자지도를 생성 하였다. 이러한 장점 때문에 NGS 기술은 전세계적으로 기초생 명과학뿐만 아니라 임상 및 의료 분야에서도 광범위하게 활용 되고 있으며 유전체 빅데이터 (Big data)의 생산에 일조하고 있 다. 이번 논단에서는 현재 공개되어 있는 유전체 데이터의 규모 와 공유 현황 및 향후 전망에 대해서 알아보고자 한다. 강 근 수 단국대학교 자연과학대학 미생물학과 [email protected]

Upload: others

Post on 16-Sep-2019

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 유전체 빅데이터 공유 및 인공지능 시대 · 이터 (big data)를 어떻게 생산할 수 있는가 보다는 어떤 유사한 유전체 데이터가 공개되어 있고,

유전체 빅데이터 공유 및

인공지능 시대

논 단

01 분자세포생물학 뉴스레터

서 론

기술의 발전은 패러다임의 전환을 야기한다. 스마트폰의

개발 및 급속한 발전은 다양한 산업을 생성하였으며 사람들

의 생활 패턴 패러다임을 변화시켰다. 이러한 패러다임의 변

화는 기초생명과학, 임상 및 의료 분야에서도 일어나고 있다.

DNA microarray 및 차세대염기서열분석 (next-generation

sequencing, NGS) 기술의 급속한 발전과 보급은 가설을 세

우고 연구에 들어가는 기존의 연구방법 (hypothesis-driven

approach)에서 벗어나, 전체 현상을 보고 가설을 정하는 접

근 방법 (hypothesis-generating approach)을 가능하게 했

다. NGS는 게놈 (genome) 및 연관된 분자들에 대한 분자지

도 (molecular map)를 만드는 기술이다. 따라서 기존에 알려

진 지식 검증 이외에 알려지지 않은 특성의 발굴도 동시에 가능

하다. 예를 들어 TCGA (the cancer genome atlas, http://

cancergenome.nih.gov/) 프로젝트는 다양한 종류의 암에 대

하여 대규모 환자 집단 (cohort)을 대상으로 NGS 기반 유전

체 연구를 수행하여 기존에 알려진 p53 (TP53) 유전자의 변이

이외에 다양한 새로운 유전자의 변이 등을 발굴하였다. 그리고

ENCODE (ENCyclopedia Of DNA Elements, https://www.

encodeproject.org/) 컨소시엄은 인간 게놈 (human genome)

에 존재하는 모든 DNA elements 발굴 및 기능유추를 목적으

로 다양한 종류의 세포에서 8,000 건 이상의 분자지도를 생성

하였다. 이러한 장점 때문에 NGS 기술은 전세계적으로 기초생

명과학뿐만 아니라 임상 및 의료 분야에서도 광범위하게 활용

되고 있으며 유전체 빅데이터 (Big data)의 생산에 일조하고 있

다. 이번 논단에서는 현재 공개되어 있는 유전체 데이터의 규모

와 공유 현황 및 향후 전망에 대해서 알아보고자 한다.

강 근 수

단국대학교 자연과학대학 미생물학과

[email protected]

Page 2: 유전체 빅데이터 공유 및 인공지능 시대 · 이터 (big data)를 어떻게 생산할 수 있는가 보다는 어떤 유사한 유전체 데이터가 공개되어 있고,

02논단 2016 | 9

공개된 유전체 빅데이터

모든 생명체는 유전체를 가지고 있다. 현 시점에서 유

전체 연구란, 전장유전체 (genome) 및 이와 연관된 전사

체 (transcriptome), 후성유전체 (epigenome)와 같은 전체

(genome-wide)를 보는 연구를 의미한다. 이러한 연구를 가능

하게 한 Microarray 혹은 NGS 기술은 일반적으로 논문 공개

시점에서 원본 데이터를 공개하는 것을 암묵적인 원칙으로 하고

있다. 대표적으로 NCBI (National Center for Biotechnology

Information)에서 관리하는 GEO (Gene Expression

Omnibus), EMBL-EBI (European Bioinformatics Institute)

에서 관리하는 ENA (European Nucleotide Archive)가

Microarray, NGS와 같은 데이터를 보관 및 관리하고 있다.

2016년 9월 기준으로 GEO의 microarray 기반 유전자 발현

(expression profiling by array) 연구 series는 약 46,000 건

이며 [1], NGS기반 유전자 발현 (expression profiling by high

throughput sequencing, RNA-seq) 연구 series는 약 9,000

건이 등록되어 있으며 공개되어 있다 (표 1). 최근 공개된 하나

의 series (GSE75330)는 쥐의 중추신경계에서 분리한 5,069개

의 단일세포에 대한 전사체 분석 (single-cell RNA-seq)을 수

행한 결과를 담고 있으며, 원본파일의 크기는 SRA (Sequence

Read Archive) 압축 형태로 약 230 기가바이트 (gigabytes,

109 bytes) 이다 [2]. GEO에서 SRA형태로 공개된 NGS 데이터

의 양은 약 4 페타바이트 (petabytes, 1015 bytes)에 도달하고

있다. NGS 기술의 발전 및 비용의 하락은 이러한 NGS 데이터

생산을 더욱 가속화 할 것으로 예상된다. 앞으로는 유전체 빅데

이터 (big data)를 어떻게 생산할 수 있는가 보다는 어떤 유사한

유전체 데이터가 공개되어 있고, 유전체 데이터를 새롭게 생산

하는 것의 필요성과 재분석을 통해 기존에 밝혀진 정보와 다른

새로운 정보를 추출할 수 있는지에 대한 고민이 수반되어야 할

것이다.

공개된 유전체 데이터 재사용의 중요성

최근 NGS 데이터 기반 논문의 경향을 보면 연구자가 생산

한 NGS 데이터 외에 기존에 공개된 NGS 데이터를 통합 분석

함으로써 주장하는 가설에 대한 독립적인 신뢰성을 확보하는 경

향이 있다. 예컨대, 인간 유전체에 존재하는 DNA상의 조절 인

자 (DNA regulatory element)인 super-enhancer의 기능을

대규모로 분석한 연구는 [3] 공개된 250여개 이상의 NGS 데

이터 (ChIP-seq) 및 질병과 연관되어 있다고 알려진 단일염기

MOLECULAR AND CELLULAR BIOLOGY NEWSLETTER

표 1. GEO에 공개된 데이터의 종류 및 규모 (2016년 9월 3일 기준)

Series type 기준 (상위 5개) Series count

Expression profiling by array 46,726

Expression profiling by high throughput sequencing 9,032

Genome binding/occupancy profiling by high throughput sequencing 6,236

Non-coding RNA profiling by array 2,744

Genome binding/occupancy profiling by genome tiling array 2,201

Organism 기준 (상위 5개) Series count (samples)

Homo sapiens 28,588 (1,123,108)

Mus musculus 21,085 (332,891)

Rattus norvegicus 2,758 (75,232)

Saccharomyces cerevisiae 2,041 (41,814)

Arabidopsis thaliana 2,770 (37,950)

Page 3: 유전체 빅데이터 공유 및 인공지능 시대 · 이터 (big data)를 어떻게 생산할 수 있는가 보다는 어떤 유사한 유전체 데이터가 공개되어 있고,

다형성 (single nucleotide polymorphism, SNP) 정보를 통

합 분석하여 super-enhancer의 질병과의 연관성을 증명하

였다. 추가적인 실험 및 데이터 생산 없이도 공개된 데이터 재

분석 만으로 STAT (Signal Transducers and Activators of

Transcription) 전사인자의 세포특이적인 DNA 결합위치의 기

능을 유추한 연구도 이러한 경향을 잘 반영하고 있다 [4]. 따라

서 이제는 내가 생산한 데이터를 가지고 나만의 연구를 하는 것

이 아닌, 어떠한 데이터가 공개되어 있는지 먼저 검색 및 탐구한

후, 가설 및 연구 방향을 결정하여 이를 증명하는 것이 연구의

시간, 비용, 방향 및 효율성을 높이는데 중요하다고 할 수 있다.

웹 기반 공개된 유전체 데이터 재분석 및

해석 플랫폼

공개된 유전체 빅데이터를 실험 기반 연구자 (wet-lab

scientist)가 이용할 수 있도록 웹 상에서 쉽게 재분석하는 플

랫폼 개발이 지속적으로 이루어지고 있다. NCBI는 현재 가

장 많은 양의 데이터를 차지하는 microarray 기반 유전자 발

현 데이터 (expression profiling by array)를 재분석하여 발

현이 변한 유전자들 (differentially expressed genes, DEGs)

을 웹 상에서 발굴해주는 GEO2R이라는 분석 플랫폼을 제공

하고 있다 (http://www.ncbi.nlm.nih.gov/geo/geo2r/) [1].

GEO2R을 이용하면 microarray 데이터 분석에 대한 사전 지

식이 없어도 공개된 microarray를 웹 상에서 쉽게 분석할 수

있다. 다음은 흡연경험이 없는 폐암 환자 60명을 대상으로 수

행된 microarray 기반 전사체 연구[5]의 재분석 과정이다. (그

림 1): GEO2R 웹 사이트에서 데이터 고유아이디인 GSE19804

(공개된 microarray 및 NGS 데이터는 GEO에 등록되어 있다

면 GSE/GSM 고유 아이디가 있음)를 입력한 다음 폐암 조직

샘플 (n=60) 및 정상 조직 샘플 (n=60) 그룹을 설정하고 분석

을 수행 한다 (Top 250 버튼 클릭). 총 120개의 전사체를 분석

한 결과 발현이 통계적으로 유의미하게 변한 유전자 (DEG) 리

스트를 웹 상에서 얻는데 까지 걸린 시간은 평균 3분 미만이었

03 분자세포생물학 뉴스레터

논 단

그림 1. GEO2R을 이용한 공개된 microarray 데이터 (GSE19804) 재분석 방법

Page 4: 유전체 빅데이터 공유 및 인공지능 시대 · 이터 (big data)를 어떻게 생산할 수 있는가 보다는 어떤 유사한 유전체 데이터가 공개되어 있고,

다. AGER 유전자가 정상조직 대비 폐암 조직에서 발현이 현저

하게 저하됨을 쉽게 확인할 수 있다 (FDR-adjusted p value

= 6.23 x 10-36) (그림 1). GEO2R은 microarray 기반 전사체

데이터 분석은 가능하지만 NGS기반 유전체 데이터 분석은 지

원하지 않는다. Microarray와는 달리 NGS기반 데이터는 분

석과정이 여러 단계를 거치게 되어있어서 복잡하고 결과를 정

형화 (standardization) 시키기 어렵기 때문이다. Galaxy [6]

나 GenePattern [7]과 같은 웹 기반 분석 플랫폼을 이용하면

공개된 NGS 데이터의 재분석이 가능하지만, 실험 기반 연구자

(wet-lab scientist) 및 바이오인포매틱스 (bioinformatics) 초

보자가 진행하기에는 상당한 괴리감이 존재한다. 기본적으로

각 분석 과정이 어떤 역할을 하는지 전체 분석 과정에 대한 개

념을 알고 있어야 하며, Galaxy나 GenePattern이 제공하는 플

랫폼 형식에 익숙해져야 하기 때문이다. 따라서 NGS 데이터의

분석 과정을 연구자가 학습할 필요 없이 공개된 유전체 데이터

를 내부적으로 처리하여 데이터베이스화 시킴으로써 최종 결과

를 기반으로 해석을 도와주는 InSilicoDB (https://insilicodb.

com/)와 같은 플랫폼이 다음 세대 분석 및 해석 플랫폼으로써

각광받을 것으로 기대된다.

유전체 빅데이터와 인공지능

NGS 기술의 보급 및 확산으로 NGS기반 유전체 데이터

의 양은 기하급수적으로 증가하고 있으며, 이러한 경향은 더

욱 가속화 될 것이다 (그림 2). 기술의 지속적인 발전으로 단

일세포에서의 NGS 기반 연구도 가능해짐에 따라서 최근 공개

되는 데이터는 연구 시료의 개수가 1,000 단위를 넘어서고 있

다. 암과 같은 질환을 정복하기 위한 대규모 연구도 지속적으

로 증가하고 있다. 265개의 항암 약물에 대한 1,001 개의 다양

한 암세포주 (cancer cell line)의 DNA methylation 변화를

microarray로 측정한 결과도 공개되어 있으며 (GSE68379)

[8], 흑색종 (melanoma) 조직에서 세포를 분리하여 4,645개

의 single-cell RNA-seq을 수행한 데이터도 공개되어 있다

(GSE72056) [9]. 데이터의 개수가 많아짐에 따라서 일반적

인 통계기반 분석으로 놓칠 수 있는 중요한 특성 (feature)을

인공지능 분야의 기계학습 (machine learning) 알고리즘 기

반으로 발굴하는 것이 가능해졌다. 기계학습 알고리즘을 적용

한 예를 보면, 이세돌과 알파고의 바둑 대결로 유명해진 딥러

닝 (Deep learning) 알고리즘을 이용한 DNA에 붙는 단백질

이 선호하는 DNA 염기서열정보 예측 [10], 폐암 환자의 병리

이미지 기반 예후 예측 등 [11], 다양한 기초 및 임상 빅데이

터에 적용되어 좋은 결과를 보여주고 있다. 음성인식 및 이미

지 분류에서 최고의 성능을 보이는 기계학습 알고리즘이 유전

체 빅데이터에 적용된다면 정형화된 분석으로 간과되었던 질

병의 조기진단 및 예후예측에 사용될 수 있는 새로운 표지자

(biomarker)를 발굴할 수 있을 것이며, 또한 다양한 기초, 임

상 및 의료 빅데이터에 광범위하게 적용되어 우리의 삶을 질

적으로 향상시키는데 중요한 역할을 할 것이다.

결론

최근 NEJM (the New England Journal of Medicine)에,

연구기생충 (research parasite, 공개된 데이터를 재분석하

여 자신의 연구에 이용하는 연구자들)이라는 신조어까지 만들

며, 임상 유전체 데이터 공개에 반하는 논지의 사설이 기재되었

다 [12]. 공개된 데이터를 재분석 시 범할 수 있는 잘못된 해석

에 대한 주의가 주된 요지이지만, 공개된 빅데이터를 재분석하

여 새로운 정보를 추출 및 이용하는 많은 연구자들의 반발을 불

러일으켰다 [13]. 유전체 데이터는 기본적으로 유전체의 일부

가 아닌 전체에 대한 분자 지도 (molecular map)를 작성한 산

물이기 때문에 다양한 관점에서 재분석 시 원 연구자 (primary

researcher)가 놓쳤던 사실을 새롭게 발견할 여지가 충분히 존

04논단 2016 | 9

MOLECULAR AND CELLULAR BIOLOGY NEWSLETTER

그림 2. NCBI PubMed에 공개된 NGS 기반 연구 논문의 증가 추세

Page 5: 유전체 빅데이터 공유 및 인공지능 시대 · 이터 (big data)를 어떻게 생산할 수 있는가 보다는 어떤 유사한 유전체 데이터가 공개되어 있고,

재한다. 더군다나 기계학습기반 알고리즘 적용 시 일반적인 분

석으로 찾을 수 없었던 새로운 특성 (혹은 표지자)을 찾는 것이

가능해진 시점에서 인공지능 분야를 접해보지 않은 원 연구자

가 이러한 방법론을 적용할 가능성은 전무하다. 앞으로 더 많

은 유전체 데이터가 생산되는 것이 자명한 만큼 연구자들은 서

로가 경쟁자가 아닌 빅데이터의 선순환 (virtuous cycle)을 통

한 조력자가 되어야 할 것이다. 이를 위해, 실험 기반 연구자

(wet-lab scientist)들이 공개된 다양한 유전체 데이터를 쉽게

검색 및 해석할 수 있는 사용하기 쉬운 웹 기반 플랫폼의 개발

이 절실하다. 데이터를 공유 및 탐색함으로써, 비슷한 연구의

중복적인 시간과 비용의 소모를 방지할 수 있으며, 궁극적으로

더 효율적인 연구를 수행하는 것이 가능하기 때문이다. 앞으로

쏟아질 유전체, 임상 이미지, 의료정보와 같은 다양한 빅데이터

의 합리적인 공유 정책 수립, 사용하기 쉬운 빅데이터 검색 및

해석 플랫폼 개발, 인공지능 알고리즘을 이용한 유전체 데이터

재분석을 통한 과학의 발전을 기대해본다.

1. Barrett T, Wilhite SE, Ledoux P, Evangelista C, Kim IF, Tomashevsky M, Marshall KA, Phillippy KH, Sherman PM, Holko M et al., NCBI GEO: archive for functional genomics data sets--update. Nucleic Acids Res. 2013, 41:D991-995.

2. Marques S, Zeisel A, Codeluppi S, van Bruggen D, Mendanha Falcão A, Xiao L, Li H, Häring M, Hochgerner H, Romanov RA et al., Oligodendrocyte heterogeneity in the mouse juvenile and adult central nervous system. Science 2016, 352:1326-1329

3. Hnisz D, Abraham BJ, Lee TI, Lau A, Saint-André V, Sigova AA, Hoke HA, Young RA., Super-enhancers in the control of cell identity and disease. Cell 2013, 155:934-947

4. Kang K, Robinson GW, Hennighausen L., Comprehensive meta-analysis of Signal Transducers and Activators of Transcription (STAT) genomic binding patterns discerns cell-specific cis-regulatory modules. BMC Genomics 2013, 14:4

5. Lu TP, Tsai MH, Lee JM, Hsu CP, Chen PC, Lin CW, Shih JY, Yang PC, Hsiao CK, Lai LC et al., Identification of a novel biomarker, SEMA5A, for non-small cell lung carcinoma in nonsmoking women. Cancer Epidemiol Biomarkers Prev. 2010, 19:2590-2597

6. Afgan E, Baker D, van den Beek M, Blankenberg D, Bouvier D, Čech M, Chilton J, Clements D, Coraor N et al., The Galaxy platform for accessible, reproducible and collaborative biomedical analyses: 2016 update. Nucleic Acids Res. 2016, 44:W3-W10

7. Reich M, Liefeld T, Gould J, Lerner J, Tamayo P, Mesirov JP., GenePattern 2.0. Nat. Genet. 2006, 38:500-501

8. Iorio F, Knijnenburg TA, Vis DJ, Bignell GR, Menden MP, Schubert M, Aben N, Gonçalves E, Barthorpe S, Lightfoot H et al., A Landscape of Pharmacogenomic Interactions in Cancer. Cell 2016, 166:740-754

9. Tirosh I, Izar B, Prakadan SM, Wadsworth MH, Treacy D, Trombetta JJ, Rotem A, Rodman C, Lian C, Murphy G et al., Dissecting the multicellular ecosystem of metastatic melanoma by single-cell RNA-seq. Science 2016, 352:189-196

10. Alipanahi B, Delong A, Weirauch MT, Frey BJ., Predicting the sequence specificities of DNA- and RNA-binding proteins by deep learning. Nat. Biotechnol. 2015, 33:831-838

11. Yu KH, Zhang C, Berry GJ, Altman RB, Ré C, Rubin DL, Snyder M., Predicting non-small cell lung cancer prognosis by fully automated microscopic pathology image features. Nat. Commun. 2016, 7:12474

12. Longo DL, Drazen JM., Data Sharing. N. Engl. J. Med. 2016, 374:276-27713. Drazen JM, Data Sharing and the Journal. N. Engl. J. Med. 2016, 374:19

05 분자세포생물학 뉴스레터

논 단

참고문헌

강 근 수

2000-2006 서강대학교,생명과학과,학사

2006-2011 한국과학기술원,생명과학과,박사

2011-2012 한국과학기술원,생명과학과,박사후연구원

2012-2014 NationalInstitutesofHealth,NIDDK,

박사후연구원

2014-현재 단국대학교,자연과학대학미생물학과,조교수

저자약력