ch17. proteomics and protein identification

37
Ch17. Proteomics and Protein Identification IDB Lab. Seoul National University Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins, Third Edition

Upload: evelyn-rodriguez

Post on 03-Jan-2016

44 views

Category:

Documents


3 download

DESCRIPTION

Ch17. Proteomics and Protein Identification. Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins, Third Edition. IDB Lab. Seoul National University. Contents. Introduction MS for Protein Analysis The Major Proteomic Approaches Data Preprocessing - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Ch17. Proteomics and Protein Identification

Ch17. Proteomicsand Protein

Identification

IDB Lab.Seoul National University

Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins, Third Edition

Page 2: Ch17. Proteomics and Protein Identification

Contents

Introduction

MS for Protein Analysis

The Major Proteomic Approaches

Data Preprocessing

The Major Protein Identification Programs

Summary

Page 3: Ch17. Proteomics and Protein Identification

Introduction(1/3)

Proteomics 1994 년 Marc Wilkins 가 MS 를 이용한 protein 의

functional study 를 말하면서 최초로 용어 사용

<Types of proteomics and their applications to biology>from: Graves and Haystead, 2002

Page 4: Ch17. Proteomics and Protein Identification

Introduction(2/3)

복잡한 단백질 발현

Page 5: Ch17. Proteomics and Protein Identification

Introduction(3/3)

Protein 분석의 어려움 DNA, RNA 연구에서 서열을 무제한으로 복제해 주는

PCR 기법이 있다 Protein 은 생체내의 상대적으로 소량인 분자를 직접

분석해야함 하나의 유전자에서 온 단백질이 다양한 형태를 지님

질병을 해석하기 위한 일반적 접근법 질병이 걸린 조직과 정상 조직을 비교 중요한 차이를 보이는 단백질을 분석▶ Protein Identification

Page 6: Ch17. Proteomics and Protein Identification

MS for Protein Analysis(1/17)

Mass Spectrometer( 질량 분석법 ) 질량을 기초로 분자를 분석하는 방법

Ionizer

Sample

+_

Mass Analyzer Detector• MALDI• Electro-Spray

Ionization (ESI)

• Time-Of-Flight (TOF)• Quadrapole• FT/MS

Page 7: Ch17. Proteomics and Protein Identification

MS for Protein Analysis(2/17)

Time of Flight MS

Reflector

Page 8: Ch17. Proteomics and Protein Identification

MS for Protein Analysis(3/17)

Mass Spectrum

mass-to-charge ratiom/z

the numberof ion

Page 9: Ch17. Proteomics and Protein Identification

MS for Protein Analysis(4/17)

질량 분석법을 위한 단백질의 분해 Peptide Mass Fingerprinting(PMF) Tandem MS, or MS/MS

Page 10: Ch17. Proteomics and Protein Identification

MS for Protein Analysis(5/17)

Peptide Mass Fingerprinting(PMF) MS 를 하기 전 화학적 분리 수행

여러 단백질이 같이 있을 경우 이온화와 분석의 어려움 분석하고자 하는 하나의 단백질만 분리

Two-dimensional electrophoretic gel separation Liquid chromatography

단백질을 효소를 이용해 더 작은 단위로 단편화 여러 펩티드가 같이 있을 경우 이온화와 분석의 어려움 Trypsin

P 가 뒤따르지 않는 K, R 뒤를 분리해줌 질량 비교

단편화된 펩티드의 스펙트럼을 이용해 단백질의 질량 분석 계산된 질량과 database 에 있는 단백질의 질량과 비교

Page 11: Ch17. Proteomics and Protein Identification

MS for Protein Analysis(6/17)

2D Gel-Electrophoresis( 전기영동 ) Protein separation

Molecular weight (Mw) 등전점

Isoelectric point (pI) 단백질의 분포를

볼 수 있다 .

pl

Page 12: Ch17. Proteomics and Protein Identification

MS for Protein Analysis(7/17)

Peptide Mass Fingerprinting(PMF)

Cut out2D-GelSpot

Page 13: Ch17. Proteomics and Protein Identification

MS for Protein Analysis(8/17)

Peptide Mass Fingerprinting(PMF)

Trypsin Digest(P 가 뒤따르지 않는K, R 뒤를 분리해줌 )

Page 14: Ch17. Proteomics and Protein Identification

MS for Protein Analysis(9/17)

Peptide Mass Fingerprinting(PMF)

N CR R PRKR K

N C

M1M2 M3

M4

M5

M1M2M3M4M5

< Trypsin Digest >

Page 15: Ch17. Proteomics and Protein Identification

MS for Protein Analysis(10/17)

Tandem MS, or MS/MS

Enzymatic Digestand

Fractionation

Page 16: Ch17. Proteomics and Protein Identification

MS for Protein Analysis(11/17)

Tandem MS, or MS/MS

MS

Page 17: Ch17. Proteomics and Protein Identification

MS for Protein Analysis(12/17)

Tandem MS, or MS/MS

Precursor selection

Page 18: Ch17. Proteomics and Protein Identification

MS for Protein Analysis(13/17)

Tandem MS, or MS/MS

Precursor selection + Collision-induced dissociation

(CID)

MS/MS

Page 19: Ch17. Proteomics and Protein Identification

MS for Protein Analysis(14/17)

y3

b2

y2 y1

b3a2 a3

HO NH3+

| |

R1 O R2 O R3 O R4

| || | || | || |H -- N --- C --- C --- N --- C --- C --- N --- C --- C --- N --- C -- COOH | | | | | | | H H H H H H H

b2-H2O

y3 -H2O

b3- NH3

y2 - NH3

a1

Peptide Fragmentation with CID

Page 20: Ch17. Proteomics and Protein Identification

G V D L K

mass0

57 Da = ‘G’ 99 Da = ‘V’LK D V G

The peaks in the mass spectrum: Prefix and Suffix Fragments Fragments with neutral losses (-H2O, -NH3) Noise and missing peaks.

D

H2O

MS for Protein Analysis(15/17)

Protein Identification with MS/MS

Page 21: Ch17. Proteomics and Protein Identification

MS for Protein Analysis(16/17) Protein Identification with MS/MS

G V D L K

mass0

Inte

nsity

mass0

MS/MSPeptide Identification:

Page 22: Ch17. Proteomics and Protein Identification

MS for Protein Analysis(17/17)

De Novo vs. Database Search

S#: 1708 RT: 54.47 AV: 1 NL: 5.27E6T: + c d Full ms2 638.00 [ 165.00 - 1925.00]

200 400 600 800 1000 1200 1400 1600 1800 2000m/z

0

5

10

15

20

25

30

35

40

45

50

55

60

65

70

75

80

85

90

95

100

Re

lative

Ab

un

da

nce

850.3

687.3

588.1

851.4425.0

949.4

326.0524.9

589.2

1048.6397.1226.9

1049.6489.1

629.0

WR

A

C

VG

E

K

DW

LP

T

L T

WR

A

C

VG

E

K

DW

LP

T

L T

De Novo

AVGELTK

Database Search

Database of all peptides = 20n

AAAAAAAA,AAAAAAAC,AAAAAAAD,AAAAAAAE,AAAAAAAG,AAAAAAAF,AAAAAAAH,AAAAAAI,

AVGELTI, AVGELTK , AVGELTL, AVGELTM,

YYYYYYYS,YYYYYYYT,YYYYYYYV,YYYYYYYY

Database ofknown peptides

MDERHILNM, KLQWVCSDL, PTYWASDL, ENQIKRSACVM, TLACHGGEM, NGALPQWRT,

HLLERTKMNVV, GGPASSDA, GGLITGMQSD, MQPLMNWE,

ALKIIMNVRT, AVGELTK, HEWAILF, GHNLWAMNAC,

GVFGSVLRA, EKLNKAATYIN..

Database ofknown peptides

MDERHILNM, KLQWVCSDL, PTYWASDL, ENQIKRSACVM, TLACHGGEM, NGALPQWRT,

HLLERTKMNVV, GGPASSDA, GGLITGMQSD, MQPLMNWE,

ALKIIMNVRT, AVGELTK, HEWAILF, GHNLWAMNAC,

GVFGSVLRA, EKLNKAATYIN..

Mass, Score

Page 23: Ch17. Proteomics and Protein Identification

The Major Proteomic Approaches

PMF, or Tandem MS 단백질 분석의 일반적 방법 젤에서 분리된 하나의 단백질을 효소에 의해서

단편화하고 질량 분석을 통한 단백질 분석 Bottom-up, or shotgun proteomics

샘플에 있는 단백질들을 효소에 의해서 단편화 단편화된 펩티드들을 크로마토그래피를 통한 분리 Tandem MS 를 통한 분석 펩티드 분석이 더 정확하다는 이점 때문에 더 많은

단백질을 발견할 수 있음 해당 단백질의 계산의 어려움

Page 24: Ch17. Proteomics and Protein Identification

Data Preprocessing

MS 는 이온의 질량이 아니라 Mass-to-Charge Ratio(m/z) 를 측정 이온화기로 MALDI 를 사용 또는 ESI 를 쓸 경우 별도의 처리 알고리즘 사용

동위 원소의 처리문제 평균 vs 가장 많은 동위원소

데이터 처리상의 어려움 이온화가 어려운 원소 Peptide 의 화학적 변화 샘플 속에 여러 단백질이 존재 단백질이 비교되는 Database 에 아직 없을 수 있음

Page 25: Ch17. Proteomics and Protein Identification

The Major Protein Identification Programs

프로그램의 공통된 단계 Database 내의 각 서열로부터 가능한 이온 산물 계산 계산된 이온들과 MS 로 발견된 이온들과 비교 , 점수화

프로그램 간의 차이점개발사 지원 DB

PMFMS/MS

Scoring

MASCOT Matrix Science

MSDBNCBInr

SwissProtdbEST

둘 다 지원 MOWSE

ALDENTE(PeptIdent)

SIB(ExPASy)

SwissProtTrEMBL

PMF Tunable

ProteinProspector UCSFNCBInr

SwissProtdbEST

둘 다 지원 Masses matchedMOWSE

GFSGiddings Lab.

UNC15 genomes 둘 다 지원

Page 26: Ch17. Proteomics and Protein Identification

MASCOT(1/4)

764.21231.012841944.82020.22100.35

Or

764.2 20101231.0 23451284 4561944.8 10122020.2 232100.35 566

database

Fixed modifications :해당 residue 에 대해서이미 알려진 변형된다른 질량값을 사용

Variable modification :해당 residue 에 대해서일어나는 모든 경우변형된 질량값을 조합함

Page 27: Ch17. Proteomics and Protein Identification

MASCOT(2/4)

Significant matchesp < 0.05

Non-significantmatches

Page 28: Ch17. Proteomics and Protein Identification

MASCOT(3/4)

~

일정 확률이 넘어의미있는 값 만 빨간색

Page 29: Ch17. Proteomics and Protein Identification

MASCOT(4/4)

Page 30: Ch17. Proteomics and Protein Identification

ALDENTE(PeptIdent)(1/3)

Page 31: Ch17. Proteomics and Protein Identification

ALDENTE(PeptIdent)(2/3)

Page 32: Ch17. Proteomics and Protein Identification

ALDENTE(PeptIdent)(3/3)

점수화를 튜닝할 수 있다 .

Page 33: Ch17. Proteomics and Protein Identification

ProteinProspector(1/2)

Page 34: Ch17. Proteomics and Protein Identification

ProteinProspector(2/2)

Page 35: Ch17. Proteomics and Protein Identification

GFS(1/2)

Page 36: Ch17. Proteomics and Protein Identification

GFS(2/2)

Page 37: Ch17. Proteomics and Protein Identification

Summary

Proteomics 에 사용되는 프로그램들의 문제점 휴리스틱에 기반 선택된 파라미터에 의존 제공된 데이터에 의존

일반적 해결책 파라미터를 적절하게 조절하라 여러 프로그램들을 이용해보고 결과를 비교하라