상호작용 정보에 기반한 단백질 기능 분석 환경 개발

55
상상상상 상상상 상상상 상상상 상상 상상 상상 상상 2009. 5. 6. 상 상 상 Intelligent Service Integration Lab. Korea Advanced Institute of Science and Technology 2008 상상 상상 상상

Upload: cyndi

Post on 11-Jan-2016

147 views

Category:

Documents


0 download

DESCRIPTION

2008 년도 성과 평가. 상호작용 정보에 기반한 단백질 기능 분석 환경 개발. 2009. 5. 6. 한 동 수 Intelligent Service Integration Lab. Korea Advanced Institute of Science and Technology. 발표 순서. I . 제안 내용 설명 Ⅱ. 사업 목표 및 실적 Ⅲ. 연구 내용 Ⅳ. 수행 체계 및 지적사항 보완 Ⅴ. 사업비 집행 VI . 차년도 계획 및 참여기관 소개. I. 제안 내용 설명. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

상호작용 정보에 기반한 단백질 기능 분석 환경 개발

2009. 5. 6.

한 동 수

Intelligent Service Integration Lab.Korea Advanced Institute of Science and

Technology

2008 년도 성과 평가

Page 2: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

223年 4月 21日

발표 순서

I . 제안 내용 설명

Ⅱ. 사업 목표 및 실적

Ⅲ. 연구 내용

Ⅳ. 수행 체계 및 지적사항 보완

Ⅴ. 사업비 집행

VI . 차년도 계획 및 참여기관 소개

Page 3: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

I. 제안 내용 설명

Page 4: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

423年 4月 21日

단백질상호작용

DB 데이터 마이닝

기법

단백질 관련

1 차 DB

• 분산된 단백질 관련 1 차 데이터에 다양한 가공 기법을 적용하고 이를 바탕으로 단백질 기능 및 기능의 유기적 관계로 이루어지는 대사 경로의 예측을 수행하는 시스템 • 단백질과 관련된 생물학적 지식과 정보통신 분야가 유기적으로 연계된 다학제간 (Inter-disciplinary) 학문인 Bioinformatics 분야의 신규 시스템• 현재 단절되어 있는 상태인 단백질 관련 1 차 데이터와 대사경로와의 관계를 유기적으로 유추하여 관련 분야에 폭넓게 활용될 수 있는 “ Bioinformatics” 의 기반 시스템적 성격을 지니고 있음

단백질 기능 분석 시스템 정의

대사경로 예측 및

보완

상호작용 예측 기법 상호작용

네트워크 상의

단백질 기능 연관관계

유추단백질 기능 분석

시스템

“ 정보의 홍수 ” – 다량으로 보고되고 있는

단백질 관련 1 차 데이터

“ 전략적 정보” – 다양한 정보의 가공을 통하여

신약 개발등과 같은 연구 분야에

즉시 적용될 수 있는 정보 창출

Page 5: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

523年 4月 21日

상호작용 정보에 기반한 단백질 기능 분석 환경 개념도

분석 시스템의 동작 및 중요 기술 개념도분석 시스템의 동작 및 중요 기술 개념도

-Web 에 산개한 단백질 및 단백질 상호작용 데이터의 추출 및 통합

- 단백질 상호작용 예측 기법 및 문헌 정보를 이용한 차등 신뢰도 부여

- 단백질 상호작용 네트워크 구성 및 topology 분석을 통한 기능 연관관계 분석

- 대사경로의 대량 예측 및 기존에 알려진 대사 경로의 검증 및 수정 기능

SPINSPIN

Page 6: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

II. 사업 목표 및 실적

Page 7: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

723年 4月 21日

사업 목표 ( 기술개발측면 )

상호작용 정보에 기반한 단백질 기능 분석 방법 고안 및 응용 소프트웨어 개발

• 단백질 상호작용 네트워크의 시각화 , topology 분석 , 기능 흐름 분석 방안 연구

• 대사 경로의 예측 , 재구성 , 확장 방안 연구

• 공개된 단백질 상호작용 1 차 데이터베이스 , 자체 보유한 단백질 상호작용 예측 툴 , PubMed 와 같은 문헌정보 등을 이용하여 정제된 단백질 상호작용 네트워크를 얻어내고 이를 기반으로 미지의 대사경로 및 단백질 기능을 예측하는 “상호작용 기반 단백질 기능 분석 환경” 구축

• 기존의 1 차 데이터베이스를 적절하게 통합하는 방안 연구

• 단백질 상호작용 예측 기법 및 데이터 마이닝을 통한 통합 데이터 베이스의 신뢰도 확보 방안 연구

Page 8: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

823年 4月 21日

사업 목표 ( 인력양성측면 )

생물학적 지식과 IT 구현 능력을 보유한 고급 인력 양성

• 각종 학술 대회 및 세미나 참여 유도를 통하여 다양한 교류 체험 제공

• 참여 구성원 간의 정기적인 회의를 통하여 실무 수준의 능력을 보유한 인재 양성

• 단백질 상호작용 위상 정보를 통한 단백질 기능 분석을 위하여 관련 분야의 전문 지식 습득 유도• 참여연구원 중 석 , 박사 급 인력에 대하여 지역 내 연구소와의 교류 및 연구 성과 발표 등을 통하여 관련 분야의 지속적인 연구 활동을 유도

• 연구 인력 1 인 1 분야 이상의 전문 능력을 보유하도록 유도

• 과제 수행 내용의 연구 결과를 논문화 하도록 하여 석사급 이상의 연구 인력 양성

Page 9: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

923年 4月 21日

최종 사업 목표

최종 사업 목표의 정량적 분석 (2007.5.1 – 2010.4.30)최종 사업 목표의 정량적 분석 (2007.5.1 – 2010.4.30)

인력 양성 및 산학협력

논문 /학회발표 42 건석 /박사학위논문 8 건전공분야 취업 6 건진학 2 건

기술개발

상호작용 정보에 기반한 단백질 기능 분석 방법 고안 및 응용 소프트웨어 개발 상호작용 1 차 데이터베이스 통합

3 개 이상의 데이터베이스 통합 PubMed 의 상호작용 정보에 대한 데이터마이닝

 80% 이상의 정확도 상호작용 예측 정확도

Sensitivity 80% 이상Specificity 70% 이상

상호작용 통합 데이터베이스의 신뢰도 설정  5 단계로 차등화된 신뢰도 제공

단백질 상호작용 네트워크의 제약 조건 설정 5 항목 이상의 제약조건 설정

정제된 단백질 기능 후보 리스트 제시 : 5 건 이하로 정제

대사 경로 재구성 및 확장 10 건 이상의 Case 발견

Page 10: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

1023年 4月 21日

2 차년 사업 목표 및 성과

인력양성 및 산학 협력 인력양성 및 산학 협력

목표 실적 논문 /학회발표 13 건

석 /박사학위 2 건

전공분야취업 1 건

진학 1 건

기업 파견 /현장실습 540시간

논문 /학회발표 16 건SCI/E 3 건 , 학회발표 8 건 , 일반학술논문 5 건중간보고 17 건에서 1 건 누락 ( 일반학술논문 )

석 /박사학위 2 건석사졸업예정 2 건

전공분야취업 0 건진학 0 건

사업 초기 학생 변동에 대한 충분한 고려가 없었음3 차년도에는 달성 가능한 수치로 정정처리

기업 파견 /현장실습 432 시간실태조사 지적사항에 따라 , 실습일지가 없는 기간을 일괄 제외 처리

Page 11: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

1123年 4月 21日

2 차년 사업 목표 및 성과

논문 실적 논문 실적

NO 구분 게재지 논문명 저자 게재년월

1 SCIE

J. of Microbiology and Biotechnology

Development of an analysis program of type I PKS gene clusters using homology search and profile HMM.

Hongseok Tae, Jae Kyung Sohng and Kiejung Park.

2009.2.

2 SCI

Bioscience, Biotechnology, and Biochemistry.

WeGAS: A Web-Based Microbial Genome Annotation System.

Daesang Lee, Hwajung Seo, Chankyu Park, and Kiejung Park.

2009.1.

3 SCIEBioprocess and BioSystems Engineering

MapsiDB: an integrated web database for type I polyketide synthases.

Hongseok Tae, Jae Kyung Sohng and Kiejung Park.

2009.2.

4 국제학회 GIW2008LocPPI : A Protein-Protein Interaction System for Analysis of Cellular Proteome

Pan-Gyu Kim, Hwajung Seo, Suk Hoon Jung and Kiejung Park

2008. 12. 1.

5 국제학회 GIW2008The Functional Flow of Drug Target Protein in Metabolic Pathway

Hwie-Sung Jung, Bora Hyun, Woo-Hyuk Jang, Dong-Soo Han

2008.12. 1

6 국제학회 GIW2008A Method for Protein Function Flow Configuration and Validation

Woo-Hyuk Jang, Suk-Hoon Jung, Dong-Soo Han

2008.12. 1

Page 12: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

1223年 4月 21日

2 차년 사업 목표 및 성과

논문 실적 논문 실적

* no. 12~13 : 한국정보과학회 추계 학술대회 우수논문선정 , 논문지 게제예정

Page 13: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

1323年 4月 21日

2 차년 사업 목표 및 성과

논문 실적 논문 실적

* no. 15 : Acknowledgement 누락됨

Page 14: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

1423年 4月 21日

2 차년 사업 목표 및 성과

기술 개발기술 개발

목표 실적

단백질 상호작용 예측 정확도 개선 정도(%) 단백질 기능 예측 정확도 70% 이상 목표

단백질 상호작용에 영향력이 큰 도메인 조합 쌍 도출 ( 개 ) 단백질 상호작용에 영향이 큰 제약조건 조합 3 이상 목표

단백질 기능 흐름 네트워크 ( 개 ) 단백질 기능 흐름 모델 ( 네트워크 ) 12 개 목표

단백질 복합체 예측 정확도 개선 정도(%) 단백질 복합체 예측 정확도 개선 정도 15% 이상

예측 정확도 Sensitivity: 63%, Specificity: 94%

50 개 이상의 예측 조합에 대하여 PDB(standard set) 와 일치함을 확인

단백질 기능 흐름 네트워크 12 개 추출 및 정확도 평가 기법 마련

기존 방식 MCODE 에 대하여 24% 의 향상 기존 방식 LCMA 에 대하여 24% 의 향상

Page 15: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

1523年 4月 21日

2 차년 사업 성과 기타

한국정보과학회 추계학술대회 우수논문 선정 및 제 28 회 학생논문경진대회 입상

한국정보과학회 추계학술대회 우수논문 선정 및 제 28 회 학생논문경진대회 입상

Page 16: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

1623年 4月 21日

2 차년 사업 성과 기타

아시아 최대 규모 학회 GIW2008 Student Bursary Award 및 Oral/Poster 발표

아시아 최대 규모 학회 GIW2008 Student Bursary Award 및 Oral/Poster 발표

Page 17: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

1723年 4月 21日

2 차년 사업 성과 기타

개발 기술에 대하여 특허 출원 추진중개발 기술에 대하여 특허 출원 추진중

상세 내용 별첨 참조상세 내용 별첨 참조

Page 18: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

III. 연구 내용

Page 19: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

1923年 4月 21日

단백질 기능 및 대사경로 예측을 위한 상호작용 네트워크 분석단백질 기능 및 대사경로 예측을 위한 상호작용 네트워크 분석

통합된 상호작용 네트워크 및 관련 데이터를 이용하여 네트워크 토폴로지 분석

단백질 기능 및 대사경로 예측을 위한 기능흐름모델 구성 및 검증 단백질 복합체 예측 틀의 검증 , 적용 및 정확도 향상 단백질의 상호작용에 있어 특정 도메인 조합에 대한 기여도 측정 및

검증 기능흐름모델 , 단백질 복합체 , 단백질 분자기능은 향후 대사경로

예측의 기반이 됨

2 차년도 연구 내용

PreSPI 의 개량을 통한 상호작용 상세 분석 지원

PreSPI 의 개량을 통한 상호작용 상세 분석 지원

Page 20: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

PreSPI 개량을 통한 상호작용 상세 분석 지원

단백질 상호작용에 있어 , 가장 큰 기여를 하는 도메인 조합을 찾아내는 것은 , 단백질의 기능이 어떠한 형태로 나타나는가에 대한 중요한 단서가 될 수 있음

PDB 에서 나타난 crystal structure (PDB ID:1wOy, TF7A_3771 complex) 의 예에서와 같이 도메인이 그룹으로 상호작용에 영향을 끼치는 경우가 발견됨

??

????

Page 21: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

PreSPI 개량을 통한 상호작용 상세 분석 지원

Approach : 특정 단백질에 포함된 도메인이 같은 기능을 위하여 존재할 가능성을 all-confidence 로 계산한 후 , 단백질 조합에서 나타날 수 있는 모든 도메인 조합 쌍에 대하여 , 상호작용 영향력을 구분하여 계산함 .

이때 , 각 도메인 조합 쌍의 상호작용 기여도는 전체 단백질 상호작용 쌍에서의 출현 빈도에 따라 차등 계산됨

예측 결과 , 상호작용 정확도 Sensitivity: 64%, Specificity: 94% 수준을 보여 주었으며 , PDB 에 보고된 다중 도메인 상호작용 50 여개를 예측함

본 연구는 제 28 회 정보과학회 학생 논문 경진대회 입상작으로 , 현재 논문 투고를 위한 보충 실험 중에 있음 (2 차년도 실적에 미포함 )

Page 22: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

단백질 기능 흐름 모델 개발

신호 전달 경로와 같은 대사 경로 예측은 기존의 단백질 쌍에 대한 연구에서 의미 있는 서브네트워크의 탐색으로 확장이 필요

PPI 네트워크에서 단백질 쌍들은 일반적 기능의 선후 관계 혹은 패턴을 보여줌

Tong, et al., “Global mapping of the yeast genetic interaction network”, Science, 2004.

Correlated interacting genes with GO annotations (~12% of interacting genes had exact annotations; 27% had very similar annotations).

Mehmet E Turanalp and Tolga Can, “Discovering functional interaction patterns in protein-protein interaction networks”, BMC Bioinformatics, 2008.

Found functional patterns from PPI network, and compared them to random patterns respect to MIPS and KEGG respectively.

Page 23: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

신호 전달 경로와 같은 의미 있는 단백질 상호작용 경로에는 단백질 기능 사이에 특징적인 흐름이 존재함

특징적인 단백질 기능 흐름을 보이는 단백질 사이의 관계 ( 예 : activation) 는 동일한 기능 흐름을 보이는 또 다른 단백질 쌍에도 동일하게 적용됨

단백질의 여러 일반적 기능 중 , 특정 상황에서 나타나는 기능은 선택적으로 결정되며 이는 이전 단계의 단백질 기능에 따름

단백질 기능 흐름 모델 개발

RAB23 SMO(SMOH)

SHH(HPE3, HLP3)PTCH2 LRP2

inhibition dissociation activation binding/association

Q68DJ6, Q9ULC3

A4D1K5, Q99835

Q13635, Q9Y6C5

Q14623, Q43323, … (4)

P98164

GO:0005515, GO:0004872

GO:0005515, GO:0004872, GO:0004888

GO:0015485, GO:0005113, GO:0043237

GO:0005515, Unknown

그림 . Hedgehog 신호 전달 경로에서 일부 단백질 사이의 기능과 상호작용 관계

Page 24: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

KEGG 에서 KGML형태로 제공되는 12 개의 reference model에서 H. sapiens 종을 포함하는 11 개의 functional flow model 을 생성 ( 특정 기능을 중심으로 방사형으로 뻗어있는 형태 )

단백질 기능 흐름 모델 개발

Hedgehog Ko04340 ErbB Ko04012

Page 25: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

단백질 기능 흐름 모델 개발

생성된 모델의 내적 일관성 평가 Chronbach’s alpha 계수는 한 개념을 많은 항목으로 측정했을 때 , 각 항목들에

대한 일관성이나 동질성 평가 Alpha 계수가 높을 수록 항목들 간의 내적 일관성이 높음 (0.8-8.9: 높은 신뢰도 , 0.7-0.8: 적당한 신뢰도 , 0.6-0.7: 수용 가능한 신뢰도 )

where N is the number of components (items or test lets),        is the variance of the observed total test scores, and        is the variance of component i.

N : 해당 신호 전달 경로에서 추출된 단백질 기능 흐름의 총 개수

: 해당 신호 전달 경로내의 총 단백질 기능 흐름의 총 분산

: 특정 단백질 기능 흐름의 총 11 개 신호 전달 경로에 대한 분산

Page 26: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

단백질 기능 흐름 모델 개발

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

Alpha

04010 04012 04310 04330 04340 04350 04370 04630 04020 04070 04150

KEGG Sig. Path.

Chronbach's alpha

0

1

2

3

4

5

6

7

Distance

04010 04012 04310 04330 04340 04350 04370 04630 04020 04070 04150

KEGG Sig. Path.

GO term distance from root

평균 0.67의 신뢰도 측정됨, 전체 기능 흐름 1023개 중 0.6이상 765개 검출 Protein binding과 같은 추상적인 기능이 많이 포함 될 수록 기능 흐름의 conflict가 많이 발생한다는 가정하에 GO term의 root로부터의 평균거리를 측정한 결과 alpha 계수와

비슷한 양상을 보임 Distance가 클 수록 GO term의 의미는 specific함 본 연구는 2008 한국정보과학회 추계 학술대회 우수논문으로 선정됨

Page 27: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

Dynamic Protein Interaction Network Interaction dynamics: PPIN 상 상호작용간의 동적 /정적 관계 Stable protein complex prediction 과 path routing 에 활용

PPIN가능한 모든 상호작용을 정적으로 나타낸 네트워크

Pathway순차적으로 활성화되는 상호작용간의 동적 연결

PPIN + Interaction dynamics => finding pathway

Dynamic activation Stable complex

Page 28: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

Interaction Dynamics 의 구성

Mutually Exclusive Interaction (MEI) 구조적 상호작용면 (structural interface) 정보를 이용하여 추출 한 단백질의 동일한 표면에 붙는 두 단백질은 해당 단백질과 동시에 상호작용 할 수 없다 .

상호작용면 공유

P2 P3

P1

P2 P3

P1

P2 P3

P1

+PDB 의 3D 구조 정보 이용하여 Domain-Domain interface (DDI) 추출

+domain 은 protein 의 하위 구조체 이므로 DDI 를 PPI 로 확장

PPIN

Interaction dynamics

Page 29: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

Stable Protein Complex Prediction

+Clustering on Dynamic Protein Interaction network+Interaction dynamics 를 적용하여 기존 예측 틀의 노이즈 제거

YKL022c YHR166c

YBL084c

YDL008wYDR118w

YFR036w

A.

YFL039c

YGL240wYNL172w

YLR127c

X XX

Protein Complex

기존의 예측 틀

제안된 예측 틀

X

Page 30: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

Stable Protein Complex Prediction

기존의 클러스터링 기법 MCODE, LCMA 활용 PPIN 기반 vs. dynamic network 기반 실험으로 검증된 MIPS 단백질 복합체와 비교

+ 노이즈가 올바르게 제거되어 향상된 정확도를 가짐

+Conditionally accepted in Oxford Bioinformatics

Num

ber

of

matc

h c

om

ple

xes

Overlapping Score threshold Overlapping Score threshold

Dynamic _LCMADynamic _MCODE

Page 31: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

Routing Rule for Pathway Prediction

선행 상호작용 (way-in) 이 주어질 경우 , 후행 상호작용 (way-out) 을 결정하는 규칙 ( 차년도 연구 )

Dynamics 정보가 제한되어 있더라도 활용 가능 본 연구는 2008 한국정보과학회 추계학술 대회 우수논문으로 선정됨

X

X

X

XX

X

X

X + 하나의 interface 에 상호작용은 세포 내에서 같은 역할을 한다 . ( Sol, Genome Bio., 2007)

+ 즉 선행 상호작용과 MEI 관계에 있는 상호작용들은 후행상호작용이 될 수 없다 .

What’s next?? Is there Routing Rule?

Page 32: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

Protein PPI / Localization 통합을 위한 기본 분석 시스템 개발 PPI 분석을 위한 텍스트 마이닝 툴 개발 주관기관 요구 사항에 따른 통합 Database 의 제공

참여기업 연구 내용

Local Database:Local Database:Public PPI Public PPI 정보정보 , ,

단백질 단백질 Localization Localization 정보정보 , , 저널 추출 저널 추출

PPIPPI 정보정보

PPI public source PPI public source databasedatabase

PPI public source PPI public source databasedatabase

DIP BIND

MINTINTAC

T

STRING

Localization public Localization public source databasesource database

Localization public Localization public source databasesource database

PSORTdb

WoLF PSORT

eSLDBDBSubLo

c

Protein Protein informationinformation

public source public source databasedatabase

Protein Protein informationinformation

public source public source databasedatabaseUniProtK

B

KEGGGO

Text Mining Tool:Text Mining Tool:

PubMed PubMed 초록파일에서 초록파일에서 PPIPPI 정보 추출정보 추출

PPI-Localization PPI-Localization Viewer:Viewer:

LocalizationLocalization 정보에 정보에 따라 단백질 따라 단백질 PPIPPI 정보를 정보를 가시화가시화

Page 33: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

TEXT mining Tool:TEXT mining Tool:

PubMed PubMed 초록 정보를 초록 정보를 정의된 정의된 wordword 및 및 patternpattern 분석분석

PubMedPubMed

SOAP: SOAP: 초록 추출초록 추출

유전자 이름유전자 이름Local DBLocal DB

Locus Link: Locus Link: gene infogene info

Local PPI Local PPI DB:DB:

Public PPIPublic PPI정보의 검증 및 정보의 검증 및 추가 추가 PPIPPI 정보 정보 제공 제공

사용자 정의 사용자 정의 WordWord

사용자 정의 사용자 정의 PatternPattern

결과 저장결과 저장

Viewer of PPI Viewer of PPI in in considering considering localization :localization :

localization localization 정보를 포함한 정보를 포함한 PPI PPI 가시화 및 가시화 및 TEXT TEXT mining mining 결과 적용결과 적용

가시화 가시화 및 검증및 검증

UniProt DB UniProt DB 유전자 및 동의어 유전자 및 동의어

Text Mining 툴의 개요

Page 34: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

Text Mining 을 통한 PPI 예측 개요

PubMed (http://www.ncbi.nlm.nih.gov/sites/entrez/) 초록 추출 전체 Flat 파일의 이용은 불가 HTTP 를 이용한 SOAP(Simple Object Access Protocol) 를 이용하여

word 검색 결과 다운 가능 해당 유전자 및 단백질 이름 정의 - 동의어 처리

Locus link 정보 이용 : Gene2pubmed, gene_history, gene_info 파일 이용

UniProt DB 로 부터 유전자 이름 , 동의어 , ORF 이름 추출 해당 pattern 정의 및 검색

Interaction 관련 동사 선택 :act, activate, affect, bind, coevolute, coexpress, compose, consist, contact, contribute, control, depend, effect, encode, enhance, form, function, generate, impact, increase, decrease, influence, inhibit, interact, inactivate, repress, synergize, translocate, associate, …

각 동사들의 변형되는 형태를 이용한 pattern 생성 Interaction 명사형 선택 : : interaction of A (with/and) B, interaction

(between/among) A and B, bind of A to B, bind between A and B, association of A (with/and) B …

Parse Tree 를 이용한 검색 (http://nlp.stanford.edu/software/lex-parser.shtml)

각 문장을 품사별로 구분하여 interaction 정보 추출

Page 35: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

-PPI PPI 리스트를 트리 형식으로 보여줌리스트를 트리 형식으로 보여줌-파일로 파일로 Open Open 혹은 혹은 DBDB 연결한 부분을 연결한 부분을 동시에 보여줄 수 있게 동시에 보여줄 수 있게 Open Open 혹은 혹은 DBDB연결한 모든 리스트를 한꺼번에 보여줌연결한 모든 리스트를 한꺼번에 보여줌-해당 해당 PPIPPI 를 선택하면 를 선택하면 PPI viewerPPI viewer탭에서 해당 탭에서 해당 PPIPPI 가 예측된 결과를 보여줌가 예측된 결과를 보여줌

PPI 검색 결과 리스트 및 PPI Viewer

Page 36: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

참여기업 제공 DB

Public database No. of proteins No. of protein-protein interactions

Total 980,058 60,344,728

DIP 19,872 96,460

MINT 26,869 117,752

BIND 29,684 108,056

INTACT 36,632 127,317

STRING 959,928 60,232,332

단백질 상호작용 및 Localization 관련 주요 데이터베이스 통합단백질 상호작용 및 Localization 관련 주요 데이터베이스 통합

Localization database 단백질 수 DIP & Localization 단백질 수

PSORTdb 1,805,233 725,206

eSLDB 198,649 69,970

DBSubLoc 64,106 35,678

WoLF_PSORT 17,355 8,425

Page 37: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

animal 122727 plant 27659 fungi 44885 bacteria 784787

extracellular 7741 extracellular 2344

extracellular 186

extracellular 7690

plasma membrane 14409

plasma membrane 6683

plasma membrane 1505

plasma membrane 127267

cytoplasm 12729 cytoplasm 4913 cytoplasm 1889 cytoplasm 282280

cytoskeleton 1017 cytoskeleton 89 cytoskeleton 153

nucleus 12064 nucleus 6385 nucleus 2261

E.R. 650 E.R. 60 E.R. 206

golgi 332 golgi 24 golgi 92

mitochondrion 3542 mitochondrion 1004

mitochondrion 1085

peroxisome 167 peroxisome 26 peroxisome 64

lysosome 196

chloroplast 4070

vacuole 15 vacuole 54

cell wall 4 cell wall 76 cell wall 1480

outer membrane 11135

periplasm 10300

Unknown 69880 Unknown 2042 Unknown 37314 Unknown 344635

참여기업 제공 DB

Page 38: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

IV. 수행 체계 및 지적 사항 보완

Page 39: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

3923年 4月 21日

추진 전략 및 체계

주관기관한국정보통신대학교과제책임자 한 동 수

주관기관한국정보통신대학교과제책임자 한 동 수

한국정보통신대학교한동수 외 6 명

한국정보통신대학교한동수 외 6 명

참여기관스몰소프트

이광희 외 1 명

참여기관스몰소프트

이광희 외 1 명

•상호작용 통합 DB 구성 •상호작용 네트워크 구성 및 기능 분석 •대사 경로 재구성 및 하위 대사 경로 추가기술

•상호작용 통합 DB 구성 •상호작용 네트워크 구성 및 기능 분석 •대사 경로 재구성 및 하위 대사 경로 추가기술

•도메인 분석 기반 상호작용 분석 시스템 •프로모터 분석 기반 상호작용 분석 시스템 •시스템 실용화 및 상용화

•도메인 분석 기반 상호작용 분석 시스템 •프로모터 분석 기반 상호작용 분석 시스템 •시스템 실용화 및 상용화

한국정보통신대학교 (ICU) 와의 산• 학 체계를 구축 - 대학은 연구작업 위주로 인력양성에 치중하고 기업은 연구결과의 구현 및 사업화에 치중

주관기관한국정보통신대학교과제책임자 한 동 수

주관기관한국정보통신대학교과제책임자 한 동 수

한국정보통신대학교한동수 외 5 명

한국정보통신대학교한동수 외 5 명

참여기관스몰 소프트

박기정 외 2 명

참여기관스몰 소프트

박기정 외 2 명

•상호작용 통합 DB 구성 •상호작용 네트워크 구성 및 기능 분석 •대사 경로 재구성 및 하위 대사 경로 추가기술

•상호작용 통합 DB 구성 •상호작용 네트워크 구성 및 기능 분석 •대사 경로 재구성 및 하위 대사 경로 추가기술

•도메인 분석 기반 상호작용 분석 시스템 •프로모터 분석 기반 상호작용 분석 시스템 •시스템 실용화 및 상용화

•도메인 분석 기반 상호작용 분석 시스템 •프로모터 분석 기반 상호작용 분석 시스템 •시스템 실용화 및 상용화

연구 추진 체계연구 추진 체계

한국정보통신대학교 (ICU) 및 스몰소프트와의 산• 학 체계를 구축 - 대학은 연구 위주로 인력양성에 치중하고 , 기업은 연구결과의 구현 및 사업화에 치중

Page 40: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

4023年 4月 21日

추진 전략 및 체계

한국정보통신대학교 (ICU) 와의 산• 학 체계를 구축 - 대학은 연구작업 위주로 인력양성에 치중하고 기업은 연구결과의 구현 및 사업화에 치중

연구 추진 전략연구 추진 전략

세부 연구 내용별 전문화 팀 구성 - 해당 문제에 대한 모듈 별 팀 구성으로 연구 수행이 병렬적으로 진행되도록 추진함

시각화 개발팀시각화 개발팀

단백질 기능 흐름 모델 구축 설계 팀단백질 기능 흐름 모델 구축 설계 팀

상호작용 네트워크 위상 분석 및 동적 상호작용 분석 팀

상호작용 네트워크 위상 분석 및 동적 상호작용 분석 팀

단백질 복합체 예측 방법 고안 및 틀 작성 팀

단백질 복합체 예측 방법 고안 및 틀 작성 팀

단백질 상호작용 네트워크 생성 팀( 텍스트 마이닝 및 ProNet 구현 )단백질 상호작용 네트워크 생성 팀( 텍스트 마이닝 및 ProNet 구현 )

Metabolic Pathway 검증

및 재구성

Metabolic Pathway 검증

및 재구성

위상분석 과 상호작용면 정보 제공

구현 위주의 작업을 해당 팀에서 전담

위상분석 과 상호작용면 정보 제공

현보라정휘성

정석훈 , 장우혁

김판규 , 서화정

정석훈 , 장우혁

동적 제약조건을 수용하는 상호작용 네트워크 생성 툴 제공

Page 41: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

실태조사 지적사항에 대한 보완

지 적 사 항 보 완 내 용

○ 본 사 업 의 취 지 인 인 력 양 성 을 위 한 산학공동연구가 적절히 이루어지지 않고 , 스몰소프트의 비중이 너무 높게 나타나 있으며 , 학생 교류 또한 미진한 것으로 판단됨 .

○ 현 장 실 습 실 적 이 과 장 보 고 되 었 으며 , 실습일지도 전혀 기록하지 않았음 .

○ 논문 , 취업 , 사업화 , 기술지도 , 공동 세미나 등 산학협력과 인력양성 부분의 실적이 매우 미약하며 남은기간 동안 철저한 보완이 필요함

○ 주관기관인 ICU 와 참여기업이 사업비를 별도로 관리하고 있으며 , 주관대학의 경우 인건비외에 사업비 집행이 이루어지지 않음

○ 참여기업이 당해연도 사업계획서 상의 서버를 구 입 하였으 나 참 여 기 업 이 아닌 곳에 서 관리하고 있으며 , 여비 집행관련 증빙이 불일치하여 시정조치함

○ 참 여 기 업 이 아닌 다른 기 업 에서 수 행한 현장실습을 본 과제 실적으로 인정하기 어려움

○ PPT 자료도 제시하지 않고 , 사업비 자료 이외에 현장실습 등 기타사업 성과를 확인할 증빙서류나 일지를 제시하지 않았음 .

○ 산학 공동 세미나 발표자료 첨부 , 주관기관의 연구내용 첨부 , 학생 인턴쉽 기업 이동

○ 실습 일지 미작성분에 대한 실적 제외 조치함 . 실태조사 이후의 현장실습에 대한 일지 작성 및 첨부함 .

○ 논문 목표치 초과 달성 및 수상 실적 첨부 , 특허 출원을 위한 선행 기술 조사 결과 첨부 , 공동 세미나 및 회의록 첨부함 .

○ 주관기관 연구 책임자의 판단으로 , 연구 중요도에 따른 예산 배정을 하였던 것임 . 참여기업은 인건비 및 간접비 계상이 불가능하여 , 주관기관의 예산 대부분은 인건비로 집행하는 것이 불가피함 .

○ 시정조치 전면 수용

○ 사업화 및 기술이전 등과 관련하여 시정조치를 받은바 , 3 차년도는 참여기업을 변경하기로 함 . 석사과정학생 2 인은 3 차년도 변경 예정 참여기업으로 인턴 수행중 .

○ 세미나 PPT 자료 및 회의록 , 사업비 자료 , 현장실습 일지 , 수상 내역 , 논문 증빙 자료 , 특허 출원을 위한 선행 기술 조사 의뢰 내용등을 첨부함 .

Page 42: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

V. 사업비 집행

Page 43: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

4323年 4月 21日

주관기관 사업비 집행

비 목계획예산 변경예산 증감 집행액 집행율

비고(A) (B) (B-A) (C) (C/B)

인건비

 

현금인건비36,000 36,000 0 33,000 91.7  

( 석사 , 박사 인건비 )

현물인건비18,200 18,200 0 18,200 100.0  

( 교수 , 기업 등 )

직접사업비

         

연구기자재 및 시설비

구입 0 0 0 0 0  

임차 0 0 0 0 0  

재 료 비 4,000 4,000 0 2,800 70.0  

시작품제작비 0 0 0 0 0  

기술정보활동비 2,500 2,500 0 0 0  

연구홍보비 0 0 0 0 0  

여비국내 1,500 1,500 0 470 31.3  

국외 3,000 3,000 0 0 0  

소 계 65,200 65,200 0 54,470 83.5  

중간보고서 제출 시점 (3 월 말 현재 )

중간보고서 제출 시점 (3 월 말 현재 )

Page 44: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

4423年 4月 21日

주관기관 사업비 집행

비 목 계획예산(A)

변경예산(B)

증감(A-B)

집행액(C)

집행율(C/B)

%비고

간접사업비

   

지적재산권 출원 , 등록비 0 0 0 0 0  

제잡비

공공요금 0 0 0 152 -  

사무용품비 800 800 0 327 40.9  

유인물비 0 0 0 0 0  

회 의 비 750 750 0 750 100.0  

위탁정산비 900 900 0 0 0  

간 접 경 비 9,050 9,050 0 9,050 100.0  

소 계 11,500 11,500 0 10,279 89.4  

총 계 76,700 76,700 0 64,755 84.4

Page 45: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

4523年 4月 21日

참여기관 사업비 집행

비 목 계획예산(A)

변경예산(B)

증감(A-B)

집행액(C)

집행율(C/B)%

비고

인건비

현금인건비( 석사 , 박사 인건비 )

0 0 0 0 0  

현물인건비( 교수 , 기업 등 )

6,000 6,000 0 5,590 93.2  

직접사업비

연구기자재 및 시설비구입 18,000 18,000 0 18,000 100  

임차 0 0 0 0 0  

재 료 비 5,600 5,600 0 5,600 100

시작품제작비 0 0 0 0 0 

기술정보활동비 13,700 13,700 0 7,193 52.5 

연구홍보비 0 0 0 0 0 

여비국내 2,500 2,500 0 7,393 295.7 

국외 5,200 5,200 0 3,085 59.3 

소 계 51,000 51,000 0 46,861 91.9 

Page 46: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

4623年 4月 21日

참여기관 사업비 집행

비 목 계획예산(A)

변경예산(B)

증감(A-B)

집행액(C)

집행율(C/B)

%비고

간접사업비

   

산업재산권 출원 , 등록비 0 0 0 0 0  

제잡비

공공요금 0 0 0 0 0  

사무용품비 0 0 0 0 0  

유인물비 0 0 0 0 0  

회 의 비 0 0 0 0 0  

위탁정산비 0 0 0 0 0  

간 접 경 비 0 0 0 0 0  

소 계 0 0 0 0 0  

총 계 51,000 51,000 0 46,861 91.9

Page 47: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

VI. 차년도 계획 및 참여기관 소개

Page 48: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

4823年 4月 21日

1, 2 차년도를 통해 완성된 기술의 통합을 통한 신호 전달 경로 예측1, 2 차년도를 통해 완성된 기술의 통합을 통한 신호 전달 경로 예측

개발된 기술의 통합을 통한 신호 전달 경로 검증 및 예측 상호작용 기여도 도메인 조합 쌍 예측을 통한 단백질

상호작용 쌍의 기능 발현 예측 Mutually Exclusive 관계의 단백질 상호작용 쌍

발견을 이용한 PPI routing rule 고안 KEGG 의 단백질 신호전달 경로 학습을 통하여 , 신호전달

경로의 특정한 기능적 Rule 추출 전체적인 통합을 통한 신호전달 경로 재구성 및 MAPK

신호전달 경로를 이용한 검증 개발된 기술의 특허 등록 및 제품화 방안 마련

3 차년도 연구 계획

X

X상호작용 네트워크 routing rule 고안

상호작용 네트워크 routing rule 고안

PreSPI

PreSPI

SPICSPIC

[Rule 9] [Pos cover = 23 Neg cover = 0]

fflow(A,B) :- featureofprotein(A,non_ter), keywordofprotein(B,kw_microsome).

[Rule 9] [Pos cover = 23 Neg cover = 0]

fflow(A,B) :- featureofprotein(A,non_ter), keywordofprotein(B,kw_microsome).

KEGG 상의 신호전달 경로 Rule 추출(ILP)

KEGG 상의 신호전달 경로 Rule 추출(ILP)

XX

XXX

X신호전달 경로 예측신호전달 경로 예측

Page 49: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

4923年 4月 21日

차년도 연구 목표의 성공적 수행을 위한 참여기관 변경차년도 연구 목표의 성공적 수행을 위한 참여기관 변경

3 차년도 연구 계획

상품화 실적 미진에 따른 실태조사 지적과 , 현 참여기관 의견 및 3차년도 연구 방향에 대한 주관기관 책임자의 판단에 따라 차년도 참여기관 변경 예정

1, 2 차년도 참여기관 연구 내용의 연계를 위하여 통합 DB 전반에 대한 주관 기관 이전 수행

바이오인포매틱스 관련 상품화 및 연구 수행 능력이 탁월한 ㈜엔솔테크를 차년도 참여기업으로 염두하고 , 주관기관의 석사과정 연구원 2 인을 약 한달간 파견함

㈜엔솔테크에서 기보유한 바이오인포매틱스 관련 기술 및 상품화 경험과 , 파견 인력의 경과 보고등을 종합한 결과 차년도 과제 수행에 차질이 없을 것으로 예상됨

Page 50: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

엔솔테크는 혁신적인 생명정보분석기술을 기반으로 바이오 신 물질을 발굴하는 바이오테크놀로지 전문 기업 .

엔솔테크의 핵심 기술은 ‘생명정보학’, ‘ 생물정보학’, ‘ 바이오인포매틱스’, ‘in silico biology’ 기술로 불리는 BT + IT 융합 기술임 .

‘in silico’ 기술은 생물학 , 화학 , 물리학 , 전산학 , 수학 및 통계학 등 다양한 학문적 이론과 원리들을 융합 (convergence) 하여 생명공학 연구개발 , 문제 해결 및 응용에 적용하는 첨단 생명과학 기술로 평가됨 .

㈜엔솔테크

Page 51: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

엔솔테크는 바이오 신물질 발굴기업으로서 신물질 발굴을 위한 ‘ in silico 분석 . 설계’ + ‘in vitro / in vivo 실험 . 동정’ 파이프라인 (pipeline) 을 갖추고 있음 .

바이오 신물질 발굴을 위한 ‘해결 기술’ (enabling solution technology) 을 가지고 대자연으로부터 유용 유전자 , 유용 단백질 , 유용 미생물을 발굴함 .

연구개발

Page 52: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

보유기술 및 서비스

http://www.ensoltek.co.krhttp://www.ensoltek.co.kr

Page 53: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

5323年 4月 21日

차년도 사업 목표

사업 목표의 정량적 분석 (2009.5.1 – 2010.4.30)사업 목표의 정량적 분석 (2009.5.1 – 2010.4.30)

인력 양성 및 산학협력

논문 /학회발표 22 건 석 /박사학위논문 3 건 전공분야 취업 3 건 특허 국내 /국외 출원 각 1 건 , 등록 1 건 기술이전 1 건 , 사업화 1 건 기업파견 / 현장실습 540 시간 기술 지도 1 건

기술개발

 단백질 기능 예측 정확도 (%)

80% 수준 달성단백질 기능 관계 분류 (%)

80% 수준 달성실제 대사 경로와 예측된 대사 경로의 유사성 (%)

50% 이상의 수준 달성재구성 및 확장된 대사경로의 case( 건 )

10 건 이상

Page 54: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

5423年 4月 21日

사업 추진 일정

내 용 5 월 6 월 7 월 8 월 9 월 10월

11월

12월

1 월 2 월 3 월 4 월

계획 수립 및 자료 조사

기능흐름모델 기반 단백질 기능 예측

기능 흐름 모델 기반 상호작용 기능 관계 분류

단백질 복합체 캐스케이드 기반 기능 모듈 에측

대사 경로 예측( 신호 전달 경로 )

대사경로 재구성 및 확장

예측된 대사 경로 검증

개발 완료 보고서 작성 및 산출물 정리

Page 55: 상호작용 정보에 기반한 단백질 기능 분석 환경 개발

5523年 4月 21日

결 론

당해연도의 연구에서는 본 과제의 최종 목표인 단백질 기능 분석 환경 개발을 위한 , 선행 기술을 집중적으로 개발 및 검증하였음

이를 위하여 , 단백질 상호작용의 분석 틀 마련 및 단백질 기능 흐름 모델 개발 , 상호배타적 상호작용 관계를 이용한 복합체 예측 기법등을 개발하였고 이 중 상당부분의 연구가 학계에서 크게 인정을 받고 있음

차년도에는 1, 2 차년도를 통하여 개발된 기술들의 체계적인 통합을

통하여 기술적인 목표를 달성하고 , 실제로 사용 가능한 수준의 제품 개발에 매진할 예정

현재까지의 개발 성과로 미루어 볼 때 , 차년도의 연구 결과가 크게 기대되며 국내외 관련 연구에 큰 기여를 함으로써 , 본 사업의 성공적인 수행이 예상됨 .