no slide title...kromosom dna. vad är en gen? protein rna dna transkription translation...
Post on 03-Feb-2020
6 Views
Preview:
TRANSCRIPT
Marina Axelson-FiskMatematisk orientering, 30 nov 2015
Bioinformatik
Bioinformatik
Bioinformatik
DNA analys
Medicin
• DNA-sekvensering och assemblering
• Sekvensanalys
• Proteinstruktur och funktion
• Expression- och nätverksanalys
• Sjukdomsgener
• Drug target
• Lead compound
• Kliniska försök
Var används bioinformatik?
Grundläggande genetik
KärnaCell
Kromosom DNA
Vad är en gen?
Protein
RNA
DNA
transkription
translation
CCTGAGCCAACTATTGAT
PEPTID
CCUGAGCCAACUAUUGAU
Proteinfunktioner• Enzym – matsmältningssystemet
• Strukturella komponenter – senor, ligament
• Skydd – antikroppar, blodkoagulering
• Regulatoriska hormon – insulin, tillväxt-
• Rörelse – aktin, myosin
• Transport – hemoglobin, albumin
1977: Phi X174 (5’400 bp)
Sekvenserings-historia
1999: kromosom 22q (33.4)
2000: Bananflugan (180)
2003: Människan (3,200)
1995: Två mikrober (1.8, 0.6)
1996: Jästsvamp (12)
1997: E. coli (4.6)
1998: C. elegans (97)
2001: The human genome
Och det kommer mer…
Genom-analys
• Sekvensjämförelser
• Genletning
• Regulatoriska element
Sekvensjämförelser
Sekvensjämförelser
• Är sekvenserna evolutionärt besläktade?
• Vilka regioner är likartade?
• Hur stort är det evolutionära avståndet?
• Hur verkar den evolutionära processen?
Mutationer
Normal THE BIG DOG RAN OUT.
Missense THE BIG DAG RAN OUT.
Nonsens THE BIG DOG.
Deletion THE BGD OGR ANO.
Inversion THE BIG RAN DOG OUT.
Insertion THE BIG RED DOG RAN OUT.
Tree of life: mammals
Mammals
Triconodonts
Multituberculata
Monotremata
(platypus,
echidnas)
Marsupialia
(opossums,
kangaroos)
Eutheria
(placental
animals)
Edentata (anteaters,
sloths, armadillos)
Lagomorpha
(rabbits)
Rodentia (mice,
rats, squirrels)
Primates
Tree shrews
Bats
Colugos
Carnivora (dogs, cats, bears, raccoons, weasels,
mongooses, hyenas)
Artiodactyla (pigs, deer, cattle, goats, sheep,
hippopotamuses, camels, etc.)
Cetacea (whales, dolphins, porpoises)
Perissodactyla (horses, tapirs, rhinoceroses)
Proboscidea (elephants, mammoths)
New World monkeys
Old World monkeys
humans, gorilla,
chimpanzee, bonobo,
orangutan
gibbons
lemurs, galagos,
lorises
Sekvens-alignment50 . : . : . : . : . :
247 GGTGAGGTCGAGGACCCTGCA CGGAGCTGTATGGAGGGCA AGAGC
|: || ||||: |||| --:|| ||| |::| |||---||||
368 GAGTCGGGGGAGGGGGCTGCTGTTGGCTCTGGACAGCTTGCATTGAGAGG
100 . : . : . : . : . :
292 TTC CTACAGAAAAGTCCCAGCAAGGAGCCACACTTCACTG
|||----------|| | |::| |: ||||::|:||:-|| ||:| |
418 TTCTGGCTACGCTCTCCCTTAGGGACTGAGCAGAGGGCT CAGGTCGCGG
150 . : . : . : . : . :
332 ATGTCGAGGGGAAGACATCATTCGGGATGTCAGTG
---------------||||||||||||||||||||||:||||||||||||
467 TGGGAGATGAGGCCAATGTCGAGGGGAAGACATCATTTGGGATGTCAGTG
200 . : . : . : . : . :
367 TTCAACCTCAGCAATGCCATCATGGGCAGCGGCATCCTGGGACTCGCCTA
|||||:||||||||:||||||||||||||:|| ||:|||||:||||||||
517 TTCAATCTCAGCAACGCCATCATGGGCAGTGGAATTCTGGGGCTCGCCTA
Strängjämförelser
• Exakt strängsökning
• Exakt mängdsökning
• Sökning av delsträngar
• Längsta gemensamma delsträng
• Gemensamma delsträngar i fler än två
• Förorenat DNA
Svårigheter
• Algoritmerna behöver vara:
– Snabba
– Robusta
– Minneseffektiva
• Hantera omkastningar, dupliceringar, och
repetitiva element
Genletning
Genstruktur
TATA
exon3promoter
introntranslation
start
translation
stop
exon4 exon5exon1 exon2
transcription
start
transcription
stop
transkription
splicing
translation
Genletning
exon1 exon3promoter
introntranslation
start
translation
stop
exon4 exon5exon2
transcription
start
transcription
stop
5’UTR 3’UTR
start codon
ATG
stop codon
TAA/TAG/TGA
splice sites
TATA
Den genetiska koden
Splice site detection
Position
% -8 … -2 -1 0 1 2 … 17
A 26 … 60 9 0 1 54 … 21
C 26 … 15 5 0 1 2 … 27
G 25 … 12 78 99 0 41 … 27
T 23 … 13 8 1 98 3 … 25
donor site
Dolda Markov-modeller
Hidden Markov models (HMMs)
Slumpvandring
Markov-kedjor
• Markov-egenskapen:
– Sannolikheten för nästa position beror bara på
den nuvarande (minneslös process)
Stokastiska processer
• En stokastisk variabel är en variabel som
påverkas av slump. Den kan anta vissa
värden enligt en sannolikhetsfördelning.
• En stokastisk process är en utvecklingen av
en stokastisk variabel i tid (eller rum)
Stokastiska processer
• Ankomst av kunder i ett kösystem
• Förändringar i aktiekursen
• Ledningsväxling under en rösträkning
• Växling mellan olika tillstånd
En Markov-kedja
bA(i) 1 / 6
bB(i) 1/ 4
(A,B)Initial fördelning:
A
PBB
PAA
P = 1-PAB AA
P = 1-PBA BB
En dold Markov-modell
A
B
1 4 3 6 6 4
Observerad sekvens:
BA A ABB
Dold sekvens:
DNA-sekvenser
A C
G T
Tillståndssekvenser (durations)
p
duration
Geometrisk fördelning
1-p
p
A
Observerade exoner och introner
Intron Start-exon
Intern exon Slut-exon
HMM i genletning
Exon1 Exon2 Exon3
A AT TG GGC C CTAAT A AT TTG G G A A ATT TG GGGC C C A AT TTG G G A AAT TGC AATG
Som lattice:
Två fundamentala problem
• Sannolikheten av observerade data, givet
modellen.
• Den bästa dolda sekvensen givet
observerade data.
forward-algoritmen
Viterbi-algoritmen
Dynamisk programmering
• Rekurrens relation
• Tabulär beräkning
• Traceback
Dynamisk programmering
f (n) =
0
1
f (n-1) + f (n-2)
om n = 0
om n = 1
om n > 1
Fibonacci-tal:
Dynamisk programmering
f (5)
f (4) f (3)
f (3) f (2)
f (2)
f (2) f (1)
f (1) f (1) f (1)
f (1)
f (0) f (0)
f (0)
Dynamisk programmering
• Rekurrens-relation
• Tabulär beräkning
• Traceback
f (n) =
0
1
f (n-1) + f (n-2)
om n = 0
om n = 1
om n > 1
f (0), f (1), f (2), f (3),…
HMM algoritmer
t
t
1 4 3 6 6 4
BA A ABB
Dynamisk programmering
Observation
Til
lstå
nd
1 T
1
N
Forward-algoritmen
t(j) (
t 1(i)
i 1
N p
ij)b
j(Y
t)
(tillstånd j vid tidpunkt t)
Forward-algoritmen
...
tillstånd
1
2
3
N
j
t-1 t
t 1(i) t( j)
övergångssannolikheter
fördelning för utdata
Forward-algoritmen
Observation
Til
lstå
nd
1 T
1
N
Forward-algoritmen
Observation
Til
lstå
nd
......
...
. . .
. . .
. . .
. . .
1 2 3 T
1
2
3
N
Viterbi-algoritmen
Viterbi-algoritmen
...
tillstånd
1
2
3
N
j
t-1 t
Traceback
Observation
Til
lstå
nd
......
...
. . .
. . .
. . .
. . .
1 T
1
2
3
N
T-1T-2
HMM i sekvens-alignment50 . : . : . : . : . :
247 GGTGAGGTCGAGGACCCTGCA CGGAGCTGTATGGAGGGCA AGAGC
|: || ||||: |||| --:|| ||| |::| |||---||||
368 GAGTCGGGGGAGGGGGCTGCTGTTGGCTCTGGACAGCTTGCATTGAGAGG
100 . : . : . : . : . :
292 TTC CTACAGAAAAGTCCCAGCAAGGAGCCACACTTCACTG
|||----------|| | |::| |: ||||::|:||:-|| ||:| |
418 TTCTGGCTACGCTCTCCCTTAGGGACTGAGCAGAGGGCT CAGGTCGCGG
150 . : . : . : . : . :
332 ATGTCGAGGGGAAGACATCATTCGGGATGTCAGTG
---------------||||||||||||||||||||||:||||||||||||
467 TGGGAGATGAGGCCAATGTCGAGGGGAAGACATCATTTGGGATGTCAGTG
200 . : . : . : . : . :
367 TTCAACCTCAGCAATGCCATCATGGGCAGCGGCATCCTGGGACTCGCCTA
|||||:||||||||:||||||||||||||:|| ||:|||||:||||||||
517 TTCAATCTCAGCAACGCCATCATGGGCAGTGGAATTCTGGGGCTCGCCTA
Human:
Mouse:
Human:
Mouse:
Human:
Mouse:
Human:
Mouse:
Pair HMMs
M
X
Y
M = (mis)match
X = insert seq1
Y = insert seq2
Observerade sekvenser:
ATCGG
ACGTCA
Utdata:
ATCG--G
AC-GTCA
Pair HMMs
M X YM M Y M
Dold sekvens:
A
A
T
C
C
-
G
G
-
T
-
C
G
A
Observerad sekvens:
ATCGG
ACGTCA
Utdata:
ATCG--G
AC-GTCA
Komparativ genletning50 . : . : . : . : . :
247 GGTGAGGTCGAGGACCCTGCA CGGAGCTGTATGGAGGGCA AGAGC
|: || ||||: |||| --:|| ||| |::| |||---||||
368 GAGTCGGGGGAGGGGGCTGCTGTTGGCTCTGGACAGCTTGCATTGAGAGG
100 . : . : . : . : . :
292 TTC CTACAGAAAAGTCCCAGCAAGGAGCCACACTTCACTG
|||----------|| | |::| |: ||||::|:||:-|| ||:| |
418 TTCTGGCTACGCTCTCCCTTAGGGACTGAGCAGAGGGCT CAGGTCGCGG
150 . : . : . : . : . :
332 ATGTCGAGGGGAAGACATCATTCGGGATGTCAGTG
---------------||||||||||||||||||||||:||||||||||||
467 TGGGAGATGAGGCCAATGTCGAGGGGAAGACATCATTTGGGATGTCAGTG
200 . : . : . : . : . :
367 TTCAACCTCAGCAATGCCATCATGGGCAGCGGCATCCTGGGACTCGCCTA
|||||:||||||||:||||||||||||||:|| ||:|||||:||||||||
517 TTCAATCTCAGCAACGCCATCATGGGCAGTGGAATTCTGGGGCTCGCCTA
Human:
Mouse:
Human:
Mouse:
Human:
Mouse:
Human:
Mouse:
Komparativ genletning
exon3promoter
introntranslation
start
translation
stop
exon4 exon5exon1 exon2
transcription
start
transcription
stopTATA
Generalized Pair HMMs
A AT TG GGC C CTAAT A AT TTG G G A A ATT TG GGGC C C A AT TTG G G A AAT TGC AATG
A AT TG TGA C CCTG ATT TG GG T C GTT AGC G G ATG G G A AAT TGC T CTGC CT C G
Exon1 Exon2 Exon3
Som lattice:
tillstånd
Beräkningsproblem
Modell Tid Minne
HMM N2T NT
PHMM N2TU NTU
GHMM D2N
2T NT
GPHMM D4N
2TU NTU
N antal tillstånd
D max duration
T längd sekv1
U längd sekv2
Approximate alignment
Reduces
TU -factor
to
hT
Jämförelse: människa – mus
Feb 2001 Dec 2002
Why mouse?
Varför mus?
Mus
Människa
RNA folding
Helix
Tillstånd
Single-branched loop
Multi-branched loop
Hairpin
Viterbi-algoritmen
Hur många gener har vi?
27,462
top related