no slide title...kromosom dna. vad är en gen? protein rna dna transkription translation...

Post on 03-Feb-2020

6 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Marina Axelson-FiskMatematisk orientering, 30 nov 2015

Bioinformatik

Bioinformatik

Bioinformatik

DNA analys

Medicin

• DNA-sekvensering och assemblering

• Sekvensanalys

• Proteinstruktur och funktion

• Expression- och nätverksanalys

• Sjukdomsgener

• Drug target

• Lead compound

• Kliniska försök

Var används bioinformatik?

Grundläggande genetik

KärnaCell

Kromosom DNA

Vad är en gen?

Protein

RNA

DNA

transkription

translation

CCTGAGCCAACTATTGAT

PEPTID

CCUGAGCCAACUAUUGAU

Proteinfunktioner• Enzym – matsmältningssystemet

• Strukturella komponenter – senor, ligament

• Skydd – antikroppar, blodkoagulering

• Regulatoriska hormon – insulin, tillväxt-

• Rörelse – aktin, myosin

• Transport – hemoglobin, albumin

1977: Phi X174 (5’400 bp)

Sekvenserings-historia

1999: kromosom 22q (33.4)

2000: Bananflugan (180)

2003: Människan (3,200)

1995: Två mikrober (1.8, 0.6)

1996: Jästsvamp (12)

1997: E. coli (4.6)

1998: C. elegans (97)

2001: The human genome

Och det kommer mer…

Genom-analys

• Sekvensjämförelser

• Genletning

• Regulatoriska element

Sekvensjämförelser

Sekvensjämförelser

• Är sekvenserna evolutionärt besläktade?

• Vilka regioner är likartade?

• Hur stort är det evolutionära avståndet?

• Hur verkar den evolutionära processen?

Mutationer

Normal THE BIG DOG RAN OUT.

Missense THE BIG DAG RAN OUT.

Nonsens THE BIG DOG.

Deletion THE BGD OGR ANO.

Inversion THE BIG RAN DOG OUT.

Insertion THE BIG RED DOG RAN OUT.

Tree of life: mammals

Mammals

Triconodonts

Multituberculata

Monotremata

(platypus,

echidnas)

Marsupialia

(opossums,

kangaroos)

Eutheria

(placental

animals)

Edentata (anteaters,

sloths, armadillos)

Lagomorpha

(rabbits)

Rodentia (mice,

rats, squirrels)

Primates

Tree shrews

Bats

Colugos

Carnivora (dogs, cats, bears, raccoons, weasels,

mongooses, hyenas)

Artiodactyla (pigs, deer, cattle, goats, sheep,

hippopotamuses, camels, etc.)

Cetacea (whales, dolphins, porpoises)

Perissodactyla (horses, tapirs, rhinoceroses)

Proboscidea (elephants, mammoths)

New World monkeys

Old World monkeys

humans, gorilla,

chimpanzee, bonobo,

orangutan

gibbons

lemurs, galagos,

lorises

Sekvens-alignment50 . : . : . : . : . :

247 GGTGAGGTCGAGGACCCTGCA CGGAGCTGTATGGAGGGCA AGAGC

|: || ||||: |||| --:|| ||| |::| |||---||||

368 GAGTCGGGGGAGGGGGCTGCTGTTGGCTCTGGACAGCTTGCATTGAGAGG

100 . : . : . : . : . :

292 TTC CTACAGAAAAGTCCCAGCAAGGAGCCACACTTCACTG

|||----------|| | |::| |: ||||::|:||:-|| ||:| |

418 TTCTGGCTACGCTCTCCCTTAGGGACTGAGCAGAGGGCT CAGGTCGCGG

150 . : . : . : . : . :

332 ATGTCGAGGGGAAGACATCATTCGGGATGTCAGTG

---------------||||||||||||||||||||||:||||||||||||

467 TGGGAGATGAGGCCAATGTCGAGGGGAAGACATCATTTGGGATGTCAGTG

200 . : . : . : . : . :

367 TTCAACCTCAGCAATGCCATCATGGGCAGCGGCATCCTGGGACTCGCCTA

|||||:||||||||:||||||||||||||:|| ||:|||||:||||||||

517 TTCAATCTCAGCAACGCCATCATGGGCAGTGGAATTCTGGGGCTCGCCTA

Strängjämförelser

• Exakt strängsökning

• Exakt mängdsökning

• Sökning av delsträngar

• Längsta gemensamma delsträng

• Gemensamma delsträngar i fler än två

• Förorenat DNA

Svårigheter

• Algoritmerna behöver vara:

– Snabba

– Robusta

– Minneseffektiva

• Hantera omkastningar, dupliceringar, och

repetitiva element

Genletning

Genstruktur

TATA

exon3promoter

introntranslation

start

translation

stop

exon4 exon5exon1 exon2

transcription

start

transcription

stop

transkription

splicing

translation

Genletning

exon1 exon3promoter

introntranslation

start

translation

stop

exon4 exon5exon2

transcription

start

transcription

stop

5’UTR 3’UTR

start codon

ATG

stop codon

TAA/TAG/TGA

splice sites

TATA

Den genetiska koden

Splice site detection

Position

% -8 … -2 -1 0 1 2 … 17

A 26 … 60 9 0 1 54 … 21

C 26 … 15 5 0 1 2 … 27

G 25 … 12 78 99 0 41 … 27

T 23 … 13 8 1 98 3 … 25

donor site

Dolda Markov-modeller

Hidden Markov models (HMMs)

Markov-kedjor

• Markov-egenskapen:

– Sannolikheten för nästa position beror bara på

den nuvarande (minneslös process)

Stokastiska processer

• En stokastisk variabel är en variabel som

påverkas av slump. Den kan anta vissa

värden enligt en sannolikhetsfördelning.

• En stokastisk process är en utvecklingen av

en stokastisk variabel i tid (eller rum)

Stokastiska processer

• Ankomst av kunder i ett kösystem

• Förändringar i aktiekursen

• Ledningsväxling under en rösträkning

• Växling mellan olika tillstånd

En Markov-kedja

bA(i) 1 / 6

bB(i) 1/ 4

(A,B)Initial fördelning:

A

PBB

PAA

P = 1-PAB AA

P = 1-PBA BB

En dold Markov-modell

A

B

1 4 3 6 6 4

Observerad sekvens:

BA A ABB

Dold sekvens:

DNA-sekvenser

A C

G T

Tillståndssekvenser (durations)

p

duration

Geometrisk fördelning

1-p

p

A

Observerade exoner och introner

Intron Start-exon

Intern exon Slut-exon

HMM i genletning

Exon1 Exon2 Exon3

A AT TG GGC C CTAAT A AT TTG G G A A ATT TG GGGC C C A AT TTG G G A AAT TGC AATG

Som lattice:

Två fundamentala problem

• Sannolikheten av observerade data, givet

modellen.

• Den bästa dolda sekvensen givet

observerade data.

forward-algoritmen

Viterbi-algoritmen

Dynamisk programmering

• Rekurrens relation

• Tabulär beräkning

• Traceback

Dynamisk programmering

f (n) =

0

1

f (n-1) + f (n-2)

om n = 0

om n = 1

om n > 1

Fibonacci-tal:

Dynamisk programmering

f (5)

f (4) f (3)

f (3) f (2)

f (2)

f (2) f (1)

f (1) f (1) f (1)

f (1)

f (0) f (0)

f (0)

Dynamisk programmering

• Rekurrens-relation

• Tabulär beräkning

• Traceback

f (n) =

0

1

f (n-1) + f (n-2)

om n = 0

om n = 1

om n > 1

f (0), f (1), f (2), f (3),…

HMM algoritmer

t

t

1 4 3 6 6 4

BA A ABB

Dynamisk programmering

Observation

Til

lstå

nd

1 T

1

N

Forward-algoritmen

t(j) (

t 1(i)

i 1

N p

ij)b

j(Y

t)

(tillstånd j vid tidpunkt t)

Forward-algoritmen

...

tillstånd

1

2

3

N

j

t-1 t

t 1(i) t( j)

övergångssannolikheter

fördelning för utdata

Forward-algoritmen

Observation

Til

lstå

nd

1 T

1

N

Forward-algoritmen

Observation

Til

lstå

nd

......

...

. . .

. . .

. . .

. . .

1 2 3 T

1

2

3

N

Viterbi-algoritmen

Viterbi-algoritmen

...

tillstånd

1

2

3

N

j

t-1 t

Traceback

Observation

Til

lstå

nd

......

...

. . .

. . .

. . .

. . .

1 T

1

2

3

N

T-1T-2

HMM i sekvens-alignment50 . : . : . : . : . :

247 GGTGAGGTCGAGGACCCTGCA CGGAGCTGTATGGAGGGCA AGAGC

|: || ||||: |||| --:|| ||| |::| |||---||||

368 GAGTCGGGGGAGGGGGCTGCTGTTGGCTCTGGACAGCTTGCATTGAGAGG

100 . : . : . : . : . :

292 TTC CTACAGAAAAGTCCCAGCAAGGAGCCACACTTCACTG

|||----------|| | |::| |: ||||::|:||:-|| ||:| |

418 TTCTGGCTACGCTCTCCCTTAGGGACTGAGCAGAGGGCT CAGGTCGCGG

150 . : . : . : . : . :

332 ATGTCGAGGGGAAGACATCATTCGGGATGTCAGTG

---------------||||||||||||||||||||||:||||||||||||

467 TGGGAGATGAGGCCAATGTCGAGGGGAAGACATCATTTGGGATGTCAGTG

200 . : . : . : . : . :

367 TTCAACCTCAGCAATGCCATCATGGGCAGCGGCATCCTGGGACTCGCCTA

|||||:||||||||:||||||||||||||:|| ||:|||||:||||||||

517 TTCAATCTCAGCAACGCCATCATGGGCAGTGGAATTCTGGGGCTCGCCTA

Human:

Mouse:

Human:

Mouse:

Human:

Mouse:

Human:

Mouse:

Pair HMMs

M

X

Y

M = (mis)match

X = insert seq1

Y = insert seq2

Observerade sekvenser:

ATCGG

ACGTCA

Utdata:

ATCG--G

AC-GTCA

Pair HMMs

M X YM M Y M

Dold sekvens:

A

A

T

C

C

-

G

G

-

T

-

C

G

A

Observerad sekvens:

ATCGG

ACGTCA

Utdata:

ATCG--G

AC-GTCA

Komparativ genletning50 . : . : . : . : . :

247 GGTGAGGTCGAGGACCCTGCA CGGAGCTGTATGGAGGGCA AGAGC

|: || ||||: |||| --:|| ||| |::| |||---||||

368 GAGTCGGGGGAGGGGGCTGCTGTTGGCTCTGGACAGCTTGCATTGAGAGG

100 . : . : . : . : . :

292 TTC CTACAGAAAAGTCCCAGCAAGGAGCCACACTTCACTG

|||----------|| | |::| |: ||||::|:||:-|| ||:| |

418 TTCTGGCTACGCTCTCCCTTAGGGACTGAGCAGAGGGCT CAGGTCGCGG

150 . : . : . : . : . :

332 ATGTCGAGGGGAAGACATCATTCGGGATGTCAGTG

---------------||||||||||||||||||||||:||||||||||||

467 TGGGAGATGAGGCCAATGTCGAGGGGAAGACATCATTTGGGATGTCAGTG

200 . : . : . : . : . :

367 TTCAACCTCAGCAATGCCATCATGGGCAGCGGCATCCTGGGACTCGCCTA

|||||:||||||||:||||||||||||||:|| ||:|||||:||||||||

517 TTCAATCTCAGCAACGCCATCATGGGCAGTGGAATTCTGGGGCTCGCCTA

Human:

Mouse:

Human:

Mouse:

Human:

Mouse:

Human:

Mouse:

Komparativ genletning

exon3promoter

introntranslation

start

translation

stop

exon4 exon5exon1 exon2

transcription

start

transcription

stopTATA

Generalized Pair HMMs

A AT TG GGC C CTAAT A AT TTG G G A A ATT TG GGGC C C A AT TTG G G A AAT TGC AATG

A AT TG TGA C CCTG ATT TG GG T C GTT AGC G G ATG G G A AAT TGC T CTGC CT C G

Exon1 Exon2 Exon3

Som lattice:

tillstånd

Beräkningsproblem

Modell Tid Minne

HMM N2T NT

PHMM N2TU NTU

GHMM D2N

2T NT

GPHMM D4N

2TU NTU

N antal tillstånd

D max duration

T längd sekv1

U längd sekv2

Approximate alignment

Reduces

TU -factor

to

hT

Jämförelse: människa – mus

Feb 2001 Dec 2002

Why mouse?

Varför mus?

Mus

Människa

RNA folding

Helix

Tillstånd

Single-branched loop

Multi-branched loop

Hairpin

Viterbi-algoritmen

Hur många gener har vi?

27,462

top related