gene expression classification by kernel-based plm 응용화학부 2004-31012 서 주 현...

20
Gene Expression Classification by Kernel-based PLM 응응응응응 2004-31012 응 응 응 응응응응응응응 2003-21710 응 응 응 응응응응응응 2004-21440 응 응 응

Upload: shonda-waters

Post on 16-Dec-2015

225 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Gene Expression Classification by Kernel-based PLM 응용화학부 2004-31012 서 주 현 전기전자공학부 2003-21710 조 율 원 컴퓨터공학과 2004-21440 강 성 구

Gene Expression Classification

by Kernel-based PLM

응용화학부 2004-31012 서 주 현

전기전자공학부 2003-21710 조 율 원

컴퓨터공학과 2004-21440 강 성 구

Page 2: Gene Expression Classification by Kernel-based PLM 응용화학부 2004-31012 서 주 현 전기전자공학부 2003-21710 조 율 원 컴퓨터공학과 2004-21440 강 성 구

Strategy in This Study

1. Tandem selection

- programmable, no need of index

2. Enhancing the specificity and confidence using “zinc-finger protein”

- Making molecular kernel-based PLM with high confidence

Page 3: Gene Expression Classification by Kernel-based PLM 응용화학부 2004-31012 서 주 현 전기전자공학부 2003-21710 조 율 원 컴퓨터공학과 2004-21440 강 성 구

Zinc-Finger Protein 1. DNA binging protein

2. ~30 amino acid

3. used transcriotional regulator domain in cell

4. Codon specific (5’-NNN-3’)

5. Able to expand to recognize 6 or 9 base pair if connected tandemly.

- number of attribute increases in 64n

Page 4: Gene Expression Classification by Kernel-based PLM 응용화학부 2004-31012 서 주 현 전기전자공학부 2003-21710 조 율 원 컴퓨터공학과 2004-21440 강 성 구

형광Magnetic BeadAttribut

e

Biotin 형광 T*6 Attribute classification

Library Data and Attribute Data DNA Design

Library DNA

learning data DNA DNA library with various DNA length

Page 5: Gene Expression Classification by Kernel-based PLM 응용화학부 2004-31012 서 주 현 전기전자공학부 2003-21710 조 율 원 컴퓨터공학과 2004-21440 강 성 구

형광Magnetic Bead Attribute 1 형광 Attribute 2

Magnetic Bead

자석을

이용해

Attribute 1 DNA 회수

Attribute 1 의 값에 특이적인 zinc-finger 단백질

Attribute 2 의 값에 특이적인 zinc-finger 단백질

자석을

이용해

Attribute 2 DNA 회수

....

Machine Learning with DNA (1)

Page 6: Gene Expression Classification by Kernel-based PLM 응용화학부 2004-31012 서 주 현 전기전자공학부 2003-21710 조 율 원 컴퓨터공학과 2004-21440 강 성 구

형광 Attribute n

Magnetic Bead

Attribute n의 값에 특이적인 zinc-finger 단백질

자석을

이용해

Attribute n DNA 회수

형광 ClassMagnetic Bead

Class 의 값에 특이적인 zinc-finger 단백질

자석을

이용해

Class DNA 회수

Machine Learning with DNA (2)

Page 7: Gene Expression Classification by Kernel-based PLM 응용화학부 2004-31012 서 주 현 전기전자공학부 2003-21710 조 율 원 컴퓨터공학과 2004-21440 강 성 구

Biotin 형광 T*6 Attribute

classification

Class codonExtension

TTTTTTExtension

Data Amplification by PCR

Page 8: Gene Expression Classification by Kernel-based PLM 응용화학부 2004-31012 서 주 현 전기전자공학부 2003-21710 조 율 원 컴퓨터공학과 2004-21440 강 성 구

Classification Prediction by Kernel-Based PLM

형광Magnetic Bead Attribute 1 형광 Attribute 2

Magnetic Bead

자석을

이용해

Attribute 1 DNA 회수

Attribute 1 의 값에 특이적인 zinc-finger 단백질

Attribute 2 의 값에 특이적인 zinc-finger 단백질

자석을

이용해

Attribute 2 DNA 회수

....

streptavidin 으로 library DNA 회수library

Page 9: Gene Expression Classification by Kernel-based PLM 응용화학부 2004-31012 서 주 현 전기전자공학부 2003-21710 조 율 원 컴퓨터공학과 2004-21440 강 성 구

형광 Attribute n

Magnetic Bead

Attribute n의 값에 특이적인 zinc-finger 단백질

자석을

이용해

Attribute n DNA 회수

형광 ClassMagnetic Bead

Class 의 값에 특이적인 zinc-finger 단백질

형광

Classification Prediction by Kernel-Based PLM

librarystreptavidin 으로 library DNA 회수

Page 10: Gene Expression Classification by Kernel-based PLM 응용화학부 2004-31012 서 주 현 전기전자공학부 2003-21710 조 율 원 컴퓨터공학과 2004-21440 강 성 구

Library Design

(b) Previous Library Design (c) New Library Design

Positive

Negative

attribute1

AAA

AAC

attribute2

AAG

AAT

attribute3

ACA

ACC

class value

TTA

TTC

(a) encoding for zinc-finger Protein

Positive Positive Negative

AAA AAA AATAAC ACT ACA

AAA TTA AAA AAT TTAAAC ACT TTA

AAA TTC AAA AAT TTCAAC ACT TTC

Page 11: Gene Expression Classification by Kernel-based PLM 응용화학부 2004-31012 서 주 현 전기전자공학부 2003-21710 조 율 원 컴퓨터공학과 2004-21440 강 성 구

Learning Algorithmnew example e

e is positive ?

Positive Negative

yes no

Find SuperSet thatdiffer in 2 attributes

Find SuperSet thatdiffer in 2 attributes

(a) Learning Algorithm

Why Separation ?

Why 2 attribute ?

[Tradeoff Negative Pruning]

[noise of example]

Page 12: Gene Expression Classification by Kernel-based PLM 응용화학부 2004-31012 서 주 현 전기전자공학부 2003-21710 조 율 원 컴퓨터공학과 2004-21440 강 성 구

Classification of New Datanew data

Positive Negative

(a) Classification Algorithm

a = # of positive datab = # of negative data

a > b * ratio

positive value negative value

yes

no

ratio = size of positive Library/ size of negative Library

Page 13: Gene Expression Classification by Kernel-based PLM 응용화학부 2004-31012 서 주 현 전기전자공학부 2003-21710 조 율 원 컴퓨터공학과 2004-21440 강 성 구

Experimental Result

0

10000

20000

30000

40000

50000

60000

70000

1 2 3 4 5 6 7 8 9 10 11 12 13

# of example

file

siz

e (

Byte

)

1계열2계열

(a) Variation of Library size

Page 14: Gene Expression Classification by Kernel-based PLM 응용화학부 2004-31012 서 주 현 전기전자공학부 2003-21710 조 율 원 컴퓨터공학과 2004-21440 강 성 구

Experimental Result

Corrent(120)

1

112

2

112

3

112

4

112

Avg

112

(a) Correctness of 120 example data

Corrent(60)

1

59

2

59

3

59

4

59

Avg

59

(b) Correctness of 60 example data

Corrent(120)

1

118

2

118

3

118

4

118

Avg

118

(a) Correctness of 60 example data

Page 15: Gene Expression Classification by Kernel-based PLM 응용화학부 2004-31012 서 주 현 전기전자공학부 2003-21710 조 율 원 컴퓨터공학과 2004-21440 강 성 구

Conclusion

• Zinc-finger Protein• No indexing• Reasonable Classification • 2 Sub Library

Page 16: Gene Expression Classification by Kernel-based PLM 응용화학부 2004-31012 서 주 현 전기전자공학부 2003-21710 조 율 원 컴퓨터공학과 2004-21440 강 성 구
Page 17: Gene Expression Classification by Kernel-based PLM 응용화학부 2004-31012 서 주 현 전기전자공학부 2003-21710 조 율 원 컴퓨터공학과 2004-21440 강 성 구
Page 18: Gene Expression Classification by Kernel-based PLM 응용화학부 2004-31012 서 주 현 전기전자공학부 2003-21710 조 율 원 컴퓨터공학과 2004-21440 강 성 구
Page 19: Gene Expression Classification by Kernel-based PLM 응용화학부 2004-31012 서 주 현 전기전자공학부 2003-21710 조 율 원 컴퓨터공학과 2004-21440 강 성 구
Page 20: Gene Expression Classification by Kernel-based PLM 응용화학부 2004-31012 서 주 현 전기전자공학부 2003-21710 조 율 원 컴퓨터공학과 2004-21440 강 성 구