Download - 한남대학교 생명시스템과학과 생물정보학 (4강)
생물정보학Bioinformatics
2014 2 학기생명시스템과학과
한남대학교
4 강 2014.9.30
강의 계획서주 수업내용1 주 생물정보학의 개요 및 기본이론2 주차 추석 ( 휴강 )
3 주차 서열 분석의 원리 I
4 주차 서열 분석의 원리 II
5 주차 단백질의 구조및 기능 예측6 주차 지놈 시퀀싱 및 시퀀스 어셈블리7 주차 중간고사8 주차 차세대시퀀싱 (Next Generation Sequencing)
9 주차 유전체 발현분석10주차
개인유전체학 I
11주차
개인유전체학 II
12주차
메타지놈
13주차
최신 연구동향
14주차
기말고사
‘ 부품’
복잡한 기계는
‘ 부품’
다양한 부품으로 이루어지듯이
세포라는 복잡한 ‘기계’
세포라는 아주 복잡한 기계 역시 ‘ 단백질’ 이라는 다양한 부품으로 구성되어 있음
기계의 부품 하나하나를 뜯어서
자세히 내용을 검사하는 것처럼
부품의 구조
‘ 생명체의 부품’ 의 구조
단백질 ( 및 RNA) 구조를 이해하는 것
- 생명체의 부품의 구조를 이해하는 것은 이들의 작동 방식의 이해를 하는 첫걸음
• 인간 유전체의 단백질 : 약 20,000 만종
• 이들의 구조와 상호작용을 이해하는 것은 생명현상 이해의 핵심
- 휴먼 지놈 프로젝트 : 인간의 유전체 DNA 서열을 규명
• 단백질의 서열 (1 차 구조 ) 에 대한 서열은 대개 확보
• “ 생체 부품의 종류와 기본 성분에 대한 정보는 이미 가지고 있다”
• 그러나 부품 각각의 구조에 대한 정보는 어디 있는가 ?
단백질의 1 차 구조 (Primary Structure)
단백질의 서열 정보 = 단백질의 1 차 구조
단백질의 2 차 구조 (Secondary Structure)
단백질의 3 차 구조 (Tertiary Structure)
단백질의 4 차 구조 (Tertiary Structure)
단백질 서열 -> 구조 -> 기능
단백질의 서열은 단백질의 구조를 결정하며
단백질의 구조는 그 기능을 결정한다 .
단백질 구조를 실험적으로 결정하는 방법
X 선 결정학X-ray Crystallography
NMRNuclear Magnetic Resonance
전자현미경(Electron Microscope)
고해상도 구조 ( 최대 1-2Å)
결정화된 상태의 단백질의 스냅샷
단백질을 결정화해야 함
단백질 복합체 혹은 거대분자도 가능
중해상도 구조
수용액 상태에서의 동적인 단백질 움직임의 앙상블
수용액상에서 안정적으로 고농도로 유지가능해야 함
20-30kDa 이상의 단백질은 어려움
저해상도 구조
거대단백질 복합체를직접 관찰
거대복합체가 아닌경우 어려움
단백질 결정학에 의한 단백질 구조의 결정
Protein Productions
- You need to have enough (5-10mg) pure (at least 95% purity) protein
- Overexpression (Bacteria or Insect Cell or Mammalian Cell) or Natural Source
- Purification
Crystallization
- Concentrate Proteins (at least 5mg/ml)
- Crystallization happens in the boundary of soluble and precipitation
Strong X-ray generated from synchroton is essential
1 차 데이터 : 단백질 결정의 회절이미지
ComputerAnalysis
단백질의 전자밀도
Final Structure and Interpretations
실험적으로 단백질 구조를 푸는 방법을 알아야 하는가 ?
- 대개 그렇지는 않을 가능성이 많음 .
우리가 관심있는 단백질의 구조가 어떻게 생겼는지는 ?
- 알아야 한다
http://www.rcsb.org
In old days, you need very expensive workstation-level computerTo visualize Protein Structure..
Not anymore. Cheap PC or even your smartphone can do that.
Protein Visualization Software
Pymol :http://www.pymol.org
단백질을 표시하는 방법
저분자 물질의 경우에는
이런 식의 spacefilling model 로 표시해도 되지만…
단백질의 경우에는
??????
좀 더 간단한 표시방법이 필요하다 .
Line
단백질 전체의 표시에는 적절하지 않음
일부분 확대 표시에는 적절
Ribbon
단백질의 전체 윤곽을 표시할 때 좋음
Cartoon
Alpha-Helix
Beta-Sheet
단백질의 2 차구조를 표시할때 좋음
Surface Surface with Charge
DEMO
Pymol, RCSB PDB
실험을 거치지 않고 미지의 단백질 서열로부터 구조정보를 얻을수 있을까 ?
기존의 단백질 구조를 참조하지 않는 방법
Ab initio modeling
기존의 단백질 구조를 참조하는 방법
Homology modeling
3 차 구조 예측2 차 구조 / 기타 예측
- 2 차 구조 예측- Coiled-Coil 예측
- Membrane Topology 예측
GFCHIKAYTRLIMVG…
An
abaen
a 7120
An
acystis nid
ulan
s
Co
nd
rus crisp
us
Desu
lfovib
rio vu
lgaris
단백질의 2 차 구조 예측
단백질의 1 차 구조 ( 서열 ) 단백질의 2 차 구조 예측
Alpha Helix?Beta-sheet?Loop?
아미노산에 따른 2 차 구조 선호도
- 다음의 아미노산은 alpha-Helix 에 위치되는 것을 선호함
Ala, Leu, Met, Glu, Lun, His, Lys, Arg
- 다음의 아미노산은 대개 큰 Side chain 을 가지고 있으므로 beta-sheet 에 존재하는 것을 선호함
Tyr, Trp, Phe, Ile, Val, Thr, Cys
- 다음의 아미노산이 존재할 경우 대개 2 차 구조가 깨짐
GlyProAsp, Asn, Ser
MSA 에 의한 2 차 구조 예측
Alpha Helix
I, i+3, i+4, i+7
혹은 I, i+4, i+7 의 잔기에서의 보존
소수성 잔기 및 친수성 잔기가 엇갈리게 존재하는 경우
Beta-Sheet
연속된 보존된 소수성 잔기 : 단백질 내부에 위치한 beta-sheet
I, i+2, i+4 에 보존된 소수성 잔기 : 단백질 표면에 위치한 beta-sheet
MSA 에 의한 2 차 구조 예측Loop/Disordered Region
Usually not well conservedPresence of secondary structure breakers (P, G)
기계학습에 의한 2 차 구조 예측기계학습이란 ?
http://www.crazymind.net/28
기계학습에 의한 2 차 구조 예측
이미 2 차구조가 알려진 MSA 를 이용하여 (Training sets)
구조예측모델을 트레이닝
2 차 구조 예측의 예
Jpred :http://www.compbio.dundee.ac.uk/www-jpred/index.html
Jpred3
예측하고자 하는 서열을 입력BLAST search in Uniref90( 상동성이 있는 서열을 부르고 이를 이용하여 MSA 를 만듬 )
복수의 알고리즘을 이용하여 2 차구조를 예측하고 이들의 consensus 에 따라 최종결정을 함
일단 단백질 구조 DB 에 해당 단백질이 있는지 확인 .완전히 동일한 단백질이 3 차 구조가 나왔는데 2 차구조를 예측할 필요는 없다 .
http://www.compbio.dundee.ac.uk/www-jpred/results/jp_q1hwsUv/jp_q1hwsUv.results.html
Secondary Structure Prediction
Confidence for predictions
Alpha-Helix Beta-Sheet
기타 구조관련 정보 예측- Coiled-Coil 예측
Namgoong et al., Nature Struct Mol Biol. 2011
Coiled-Coil 예측
http://toolkit.tuebingen.mpg.de/pcoils
Membrane Spanning Region 예측
막단백질
친수성
소수성
친수성
친수성
소수성
Membrane 을 가로지르는 영역 예측
* 막을 가로지르는 부분은 상대적으로 소수성을 띈 아미노산이 많을 것이다 .
Hydropathy plot
>sp|P08908|5HT1A_HUMAN 5-hydroxytryptamine receptor 1A OS=Homo sapiens GN=HTR1A PE=1 SV=3MDVLSPGQGNNTTSPPAPFETGGNTTGISDVTVSYQVITSLLLGTLIFCAVLGNACVVAAIALERSLQNVANYLIGSLAVTDLMVSVLVLPMAALYQVLNKWTLGQVTCDLFIALDVLCCTSSILHLCAIALDRYWAITDPIDYVNKRTPRRAAALISLTWLIGFLISIPPMLGWRTPEDRSDPDACTISKDHGYTIYSTFGAFYIPLLLMLVLYGRIFRAARFRIRKTVKKVEKTGADTRHGASPAPQPKKSVNGESGSRNWRLGVESKAGGALCANGAVRQGDDGAALEVIEVHRVGNSKEHLPLPSEAGPTPCAPASFERKNERNAEAKRKMALARERKTVKTLGIIMGTFILCWLPFFIVALVLPFCESSCHMPTLLGAIINWLGYSNSLLNPVIYAYFNKDFQNAFKKIIKCKFCRQ
막단백질의 서열
각각의 아미노산이 얼마나소수성인가를 숫자화함
소수성
친수성
1.9,-3.5,4.2,3.8,-0.9,-1.6,-0.4,-3.5,-0.4,-3.5,-3.5,-0.7,-0.7,-0.9,-1.6,-1.6,1.8,-1.6,2.8,-3.5,-0.7,-0.4,-0.4,-3.5,-0.7,-0.7,-0.4,4.5,-0.9,-3.5,4.2,-0.7,4.2,-0.9,-1.3,-3.5,4.2,4.5,-0.7,-0.9,3.8,3.8,3.8,-0.4,-0.7,3.8,4.5,2.8,2.5,1.8,4.2,3.8,-0.4…
서열을 숫자로 변환
1.9,-3.5,4.2,3.8,-0.9,-1.6,-0.4,-3.5,-0.4,-3.5,-3.5,-0.7,-0.7,-0.9,-1.6,-1.6,1.8,-1.6,2.8,-3.5,-0.7,-0.4,-0.4,-3.5,-0.7,-0.7,-0.4,4.5,-0.9,-3.5,4.2,-0.7,4.2,-0.9,-1.3,-3.5,4.2,4.5,-0.7,-0.9,3.8,3.8,3.8,-0.4,-0.7,3.8,4.5,2.8,2.5,1.8,4.2,3.8,-0.4…
10 개 값씩 평균값
1.9,-3.5,4.2,3.8,-0.9,-1.6,-0.4,-3.5,-0.4,-3.5,-3.5,-0.7,-0.7,-0.9,-1.6,-1.6,1.8,-1.6,2.8,-3.5,-0.7,-0.4,-0.4,-3.5,-0.7,-0.7,-0.4,4.5,-0.9,-3.5,4.2,-0.7,4.2,-0.9,-1.3,-3.5,4.2,4.5,-0.7,-0.9,3.8,3.8,3.8,-0.4,-0.7,3.8,4.5,2.8,2.5,1.8,4.2,3.8,-0.4…
10 개 값씩 평균값
1.9,-3.5,4.2,3.8,-0.9,-1.6,-0.4,-3.5,-0.4,-3.5,-3.5,-0.7,-0.7,-0.9,-1.6,-1.6,1.8,-1.6,2.8,-3.5,-0.7,-0.4,-0.4,-3.5,-0.7,-0.7,-0.4,4.5,-0.9,-3.5,4.2,-0.7,4.2,-0.9,-1.3,-3.5,4.2,4.5,-0.7,-0.9,3.8,3.8,3.8,-0.4,-0.7,3.8,4.5,2.8,2.5,1.8,4.2,3.8,-0.4…
DEMO
JPREDCoilsHydrophathy plot
기존의 단백질 구조를 참조하지 않는 방법
Ab initio modeling
GFCHIKAYTRLIMVG…
An
abaen
a 7120
An
acystis nid
ulan
s
Co
nd
rus crisp
us
Desu
lfovib
rio vu
lgaris
단백질의 3 차 구조 예측
기존의 단백질 구조를 참조하는 방법Homology modeling
Ab initio Modeling
Ab initio : “ 처음부터”
기존에 실험적으로 알려진 단백질 구조정보를 전혀 참조하지 않고 , 물리화학적인 원리에 근거하여시퀀스로부터 단백질 구조를 예측
Anfinsen’s experiments (1973)
- Urea + mercaptoethanol 처리로 단백질의 입체 구조를 파괴
- 회복된 단백질의 입체 구조가 원상복귀될 수 있음
- 단백질의 3 차 구조를 결정하는 정보는 모두단백질 서열 안에 있음 !
따라서 단백질의 서열 정보만으로 단백질의 3 차원 구조를 예측 가능 !
Ab initio modeling
단백질은 열역학적으로 가장 안정된 상태
따라서 물리 , 화학적 시뮬레이션을 통해서 가장 안정된에너지 상태의 단백질을 찾으면 -> 그게 단백질의 3 차 구조 !
현실은 그리 간단하지 않음
Anfinsen 이 사용한 RNaseA 는 워낙 안정된 단백질이라서 그렇고 , 대개의 단백질은 일단 3 차구조가 변성되면 회복되기 힘듬
원래의 단백질보다 더 안정한 aggregate 가존재
Ab initio modeling
따라서 현실적으로 단백질 구조를 정확하게 예측하는데는 사용하기 어려움
기존에 실험적으로 밝혀진 서열이 유사한 단백질의 구조정보를 이용하여 미지의단백질 구조를 모델링
Homology Modeling
Template-Based Modeling
Homology Modeling
단백질의 구조는 서열보다 보존되어 있음
Identity = 4.7%
RMSD=3.99이것을 이용하여 구조가 알려져 있지 ㅇ낳은 단백질의 구조를 유추 !
Steps in Homology Modeling
1. 이미 실험적으로 규명된 단백질의 구조를 검색
2. 상동성이 높은 것중 가장 ‘고퀄’ 의 구조를 선택 (Template Selection)
3. 이미 알려진 구조의 서열과 미지의 서열과의 alignment
4. 모델링
5. Loop Modeling
6. 모델 평가 (Model Assessments)
- PSI-BLAST- HHpred
단백질 구조 검색
1. PSI-BLAST using PDB blast db
2. HHpred
Homology Modeling 에는 어느정도의 상동성이 필요한가 ?
~ 대략적으로 30% 정도의 상동성이 필요
가장 서열 상동성이 높은 구조가 최적의 모델링 Template 인가 ?
Template 1: 93% id, 3.5 Å vs Template 2: 90% id, 1.5 Å
Template 선택
가급적 고해상도의 구조를 선택하는 것이 필요
4 Å 2 Å3 Å 1 Å
NMR or X-ray Crystallography?
http://www.cbs.dtu.dk/courses/27614/Lectures/TBlicher_Homology_Modelling.ppt
http://www.cbs.dtu.dk/courses/27614/Lectures/TBlicher_Homology_Modelling.ppt
NMR 구조가 유일한 선택일때는 ..
NMR 구조에는 대개 미세한 차이가 있는 구조들이복수로 존재함 (Ensemble)
단백질 구조에서 변화가 심한 부분은 제거하고 , 고정된 부분만을 선택하는 것이 용이함
Alignment and Modeling
>gi|6513841|gb|AAD01939.2| homeobox protein HOXA7 [Homo sapiens]MSSSYYVNALFSKYTAGTSLFQNAEPTSCSFAPNSQRSGYGAGAGAFASTVPGLYNVNSPLYQSPFASGYGLGADAYGNLPCASYDQNIPGLCSDLAKGACDKTDEGALHGAAEANFRIYPWMRSSGPDRKRGRQTYTRYQTLELEKEFHFNRYLTRRRRIEIAHALCLTERQVKIWFQNRRMKWKKEHKDEGPTAAAAPEGAVPSAAATAAADKADEEDDDEEEEDEEE
>gi|34398398|gb|AAQ67266.1| antennapedia [Drosophila virilis]MTMSTNNCESMTSYFTNSYMGADMHHGHYPGNGVTDLDAQQMHHYSQNPNQQGNMPYPRFPPYDRMPYYNGQGMDQQQQQHQGYSRPDSPSSQVGGVMPQAQTNGQLVSVAQQQQQTQQQQQAQTQQQQAQQAPLQQQQHPQVTQQVTHPQQQQPVVYASCKLQAAVGGLGMVQEGGSPPLVDQMGGHHMNAQMTLPHHMGHPQAQLGYTDVGVPDVTEVHQNHHNMGMYGQQQTGVPPVVAPPQAMMHPGAGQGPPQMHQGHPGQHTPPSQNPSSQSSGMPSPLYPWMRSQFGKCQERKRGRQTYTRYQTLELEKEFHFNRYLTRRRRIEIAHALCLTERQIKIWFQNRRMKWKKENKTKGEPGSGGEGDEITPPNSPQ
119 IYPWMRS---SGPDRKRGRQTYTRYQTLELEKEFHFNRYLTRRRRIEIAH 16 :|||||| ...:||||||||||||||||||||||||||||||||||||285 LYPWMRSQFGKCQERKRGRQTYTRYQTLELEKEFHFNRYLTRRRRIEIAH 334
166 ALCLTERQVKIWFQNRRMKWKKEHKDEG 193 ||||||||:||||||||||||||:|.:|335 ALCLTERQIKIWFQNRRMKWKKENKTKG 362
119 IYPWMRS---SGPDRKRGRQTYTRYQTLELEKEFHFNRYLTRRRRIEIAH 16 :|||||| ...:||||||||||||||||||||||||||||||||||||285 LYPWMRSQFGKCQERKRGRQTYTRYQTLELEKEFHFNRYLTRRRRIEIAH 334
166 ALCLTERQVKIWFQNRRMKWKKEHKDEG 193 ||||||||:||||||||||||||:|.:|335 ALCLTERQIKIWFQNRRMKWKKENKTKG 362
?
Homology Modeling Tool
- Swiss-Model
- Modeller
- HHPred
https://salilab.org/modeller/about_modeller.html
http://swissmodel.expasy.org
http://toolkit.tuebingen.mpg.de/hhpred
Swiss-Model
Swiss-Model : Search Template
DEMO
Swiss-Prot