andrea g. b. tettamanzi, 2003 filogenetica andrea g. b. tettamanzi
TRANSCRIPT
![Page 1: Andrea G. B. Tettamanzi, 2003 Filogenetica Andrea G. B. Tettamanzi](https://reader036.vdocuments.pub/reader036/viewer/2022062300/5542eb57497959361e8c1c04/html5/thumbnails/1.jpg)
Andrea G. B. Tettamanzi, 2003
FilogeneticaFilogenetica
Andrea G. B. Tettamanzi
![Page 2: Andrea G. B. Tettamanzi, 2003 Filogenetica Andrea G. B. Tettamanzi](https://reader036.vdocuments.pub/reader036/viewer/2022062300/5542eb57497959361e8c1c04/html5/thumbnails/2.jpg)
Andrea G. B. Tettamanzi, 2003
Scopi
Data una famiglia di sequenze,
• trovare l’albero di mutazione più parsimonioso
• ricostruire l’albero filogenetico
• valutare la significatività di un dato albero filogenetico
![Page 3: Andrea G. B. Tettamanzi, 2003 Filogenetica Andrea G. B. Tettamanzi](https://reader036.vdocuments.pub/reader036/viewer/2022062300/5542eb57497959361e8c1c04/html5/thumbnails/3.jpg)
Andrea G. B. Tettamanzi, 2003
Memorizzazione efficiente di sequenze
1. AGGATGAATGGGCGAACAGC2. TGCTCGCGGGTAGAAGAAC3. TAGATGAATGGTAGAACAAC4. TGCAGCGTGATAGAACAAC5. TGGAGAAATGATAGAACAAC6. TGCACGCGGCATAGAACGAC7. TGGATAGATGATACCACAAT
m. TGGATGAATGATAGAACAAC (majority rule)
![Page 4: Andrea G. B. Tettamanzi, 2003 Filogenetica Andrea G. B. Tettamanzi](https://reader036.vdocuments.pub/reader036/viewer/2022062300/5542eb57497959361e8c1c04/html5/thumbnails/4.jpg)
Andrea G. B. Tettamanzi, 2003
1. AGGATGAATGGGCGAACAGC2. TGCTCGCGGG TAGAAGAAC3. TAGATGAATGGTAGAACAAC4. TGCAG CGTGATAGAACAAC5. TGGAGAAATGATAGAACAAC6. TGCACGCGGCATAGAACGAC7. TGGATAGATGATACCACAAT
m. TGGATGAATGATAGAACAAC (majority rule)
Memorizzazione efficiente di sequenze
![Page 5: Andrea G. B. Tettamanzi, 2003 Filogenetica Andrea G. B. Tettamanzi](https://reader036.vdocuments.pub/reader036/viewer/2022062300/5542eb57497959361e8c1c04/html5/thumbnails/5.jpg)
Andrea G. B. Tettamanzi, 2003
1. A=========GGC=====G=2. ==CTC=CGG=.=====G===3. =A========G=========4. ==C=G.CG============5. ====GA==============6. ==C=C=CGGC=======G==7. =====AG======CC====T
m. TGGATGAATGATAGAACAAC (majority rule)
Memorizzazione efficiente di sequenze
![Page 6: Andrea G. B. Tettamanzi, 2003 Filogenetica Andrea G. B. Tettamanzi](https://reader036.vdocuments.pub/reader036/viewer/2022062300/5542eb57497959361e8c1c04/html5/thumbnails/6.jpg)
Andrea G. B. Tettamanzi, 2003
1. A=========GGC=====G=2. ==CTC=CGG=.=====G===3. =A========G=========4. ==C=G.CG============5. ====GA==============6. ==C=C=CGGC=======G==7. =====AG======CC====T
m. TGGATGAATGATAGAACAAC {1, 3, 5, 7, m’}m’. ==C=C=CGG=========== {2, 4, 6}
Memorizzazione efficiente di sequenze
![Page 7: Andrea G. B. Tettamanzi, 2003 Filogenetica Andrea G. B. Tettamanzi](https://reader036.vdocuments.pub/reader036/viewer/2022062300/5542eb57497959361e8c1c04/html5/thumbnails/7.jpg)
Andrea G. B. Tettamanzi, 2003
m. TGGATGAATGATAGAACAAC1. A=========GGC=====G=3. =A========G=========5. ====GA==============7. =====AG======CC====T
m’. ==C=C=CGG===========2. ===T======.=====G===4. ====G.==T===========6. =========C=======G==
Memorizzazione efficiente di sequenze
m
g
m’
a
7
2 4 6
315
![Page 8: Andrea G. B. Tettamanzi, 2003 Filogenetica Andrea G. B. Tettamanzi](https://reader036.vdocuments.pub/reader036/viewer/2022062300/5542eb57497959361e8c1c04/html5/thumbnails/8.jpg)
Andrea G. B. Tettamanzi, 2003
Spazio delle sequenze
},,,{ TGCAS alfabeto:
insieme delle sequenze },,1,:{* 1 niSsssS in
diventa uno spazio quando è dotato di operazioni, distanza
),(),(),(
),(),(
0),(
tudusdtsd
stdtsd
tsd
![Page 9: Andrea G. B. Tettamanzi, 2003 Filogenetica Andrea G. B. Tettamanzi](https://reader036.vdocuments.pub/reader036/viewer/2022062300/5542eb57497959361e8c1c04/html5/thumbnails/9.jpg)
Andrea G. B. Tettamanzi, 2003
Similarità di sequenze
(Ovvero, distanza genetica)• Efficiente• Plausibile biologicamente
Mutazione puntuale distanza di Hamming
Cancellazione/inserimento metriche di Hamming con salti
Rimescolamento, inversione, ecc. ...
Considerando diversi tipi di mutazione con probabilità differenti distanze di Hamming pesate = edit distance
![Page 10: Andrea G. B. Tettamanzi, 2003 Filogenetica Andrea G. B. Tettamanzi](https://reader036.vdocuments.pub/reader036/viewer/2022062300/5542eb57497959361e8c1c04/html5/thumbnails/10.jpg)
Andrea G. B. Tettamanzi, 2003
Edit Distances
Edit Operations:(a, a) Match(a, b) Replace(a, _) Delete(_, a) Insert
Rw EOp:
Levenshtein Distance (after В. Левенштейн):
1)(_,_),(
,1),(
0),(
awaw
babaw
aaw
operation weight or cost
Cost of an alignment:sum of the costs of all edit operationsthat lead from s to t.
Optimal alignment
Edit distance: cost of the optimal alignment
![Page 11: Andrea G. B. Tettamanzi, 2003 Filogenetica Andrea G. B. Tettamanzi](https://reader036.vdocuments.pub/reader036/viewer/2022062300/5542eb57497959361e8c1c04/html5/thumbnails/11.jpg)
Andrea G. B. Tettamanzi, 2003
Costruzione di alberi filogenetici
0
0
0
0
21
221
112
jiij
NN
N
N
dd
dd
dd
dd
D
21 N
![Page 12: Andrea G. B. Tettamanzi, 2003 Filogenetica Andrea G. B. Tettamanzi](https://reader036.vdocuments.pub/reader036/viewer/2022062300/5542eb57497959361e8c1c04/html5/thumbnails/12.jpg)
Andrea G. B. Tettamanzi, 2003
Algoritmi di “linkage”
ijjidji
,minarg),( 1
2
},{ ji
i j
3 ),(},,{ jkikkji ddfd
funzione di combinazione
![Page 13: Andrea G. B. Tettamanzi, 2003 Filogenetica Andrea G. B. Tettamanzi](https://reader036.vdocuments.pub/reader036/viewer/2022062300/5542eb57497959361e8c1c04/html5/thumbnails/13.jpg)
Andrea G. B. Tettamanzi, 2003
Assunzione di fondo
• La distanza genetica tra due sequenze è direttamente proporzionale al tempo che le separa dalla loro sequenza progenitrice comune
},{ ji
i jijd
ijTijij Td
![Page 14: Andrea G. B. Tettamanzi, 2003 Filogenetica Andrea G. B. Tettamanzi](https://reader036.vdocuments.pub/reader036/viewer/2022062300/5542eb57497959361e8c1c04/html5/thumbnails/14.jpg)
Andrea G. B. Tettamanzi, 2003
Minimum linkage
},min{},,{ jkikkji ddd
},{ ji
i jijd
kkjid },,{
},,,,{ kji
![Page 15: Andrea G. B. Tettamanzi, 2003 Filogenetica Andrea G. B. Tettamanzi](https://reader036.vdocuments.pub/reader036/viewer/2022062300/5542eb57497959361e8c1c04/html5/thumbnails/15.jpg)
Andrea G. B. Tettamanzi, 2003
Maximum linkage
},max{},,{ jkikkji ddd
},{ ji
i jijd
kkjid },,{
},,,,{ kji
![Page 16: Andrea G. B. Tettamanzi, 2003 Filogenetica Andrea G. B. Tettamanzi](https://reader036.vdocuments.pub/reader036/viewer/2022062300/5542eb57497959361e8c1c04/html5/thumbnails/16.jpg)
Andrea G. B. Tettamanzi, 2003
Average linkage
2},,{jkik
kji
ddd
},{ ji
i j kkjid },,{
},,,,{ kji
![Page 17: Andrea G. B. Tettamanzi, 2003 Filogenetica Andrea G. B. Tettamanzi](https://reader036.vdocuments.pub/reader036/viewer/2022062300/5542eb57497959361e8c1c04/html5/thumbnails/17.jpg)
Andrea G. B. Tettamanzi, 2003
Average linkage: esempio
1 2 3 4 5 6 7 8- 2 4 4 6 8 10 11 1
- 4 4 7 7 10 11 2- 2 6 6 11 12 3
- 7 8 12 10 4- 3 7 7 5
- 7 7 6- 2 7
- 8
![Page 18: Andrea G. B. Tettamanzi, 2003 Filogenetica Andrea G. B. Tettamanzi](https://reader036.vdocuments.pub/reader036/viewer/2022062300/5542eb57497959361e8c1c04/html5/thumbnails/18.jpg)
Andrea G. B. Tettamanzi, 2003
{1,2} {3,4} 5 6 7 8- 4 6.5 7.5 10 11 {1,2}
- 6.5 7 11.5 11 {3,4}- 3 7 7 5
- 7 7 6- 2 7
- 8
1 2 3 4 5 6 7 8- 2 4 4 6 8 10 11 1
- 4 4 7 7 10 11 2- 2 6 6 11 12 3
- 7 8 12 10 4- 3 7 7 5
- 7 7 6- 2 7
- 8
{1,2} 3 4 5 6 7 8- 4 4 6.5 7.5 10 11 {1,2}
- 2 6 6 11 12 3- 7 8 12 10 4
- 3 7 7 5- 7 7 6
- 2 7- 8
{1,2} 3 4 5 6 7 8- 4 4 6.5 7.5 10 11 {1,2}
- 2 6 6 11 12 3- 7 8 12 10 4
- 3 7 7 5- 7 7 6
- 2 7- 8
{1,2} 3 4 5 6 7 8- 4 4 6.5 7.5 10 11 {1,2}
- 2 6 6 11 12 3- 7 8 12 10 4
- 3 7 7 5- 7 7 6
- 2 7- 8
{1,2} {3,4} {5,6} {7,8}- 4 7 10.5 {1,2}
- 6.75 11.25 {3,4}- 7 {5,6}
- {7,8}
{1,2,3,4} {5,6} {7,8}- 6.875 10.875 {1,2,3,4}
- 7 {5,6}- {7,8}
{1-6} {7,8}- 8.9375 {1-6}
- {7,8}
{1,2} {3,4} 5 6 {7,8}- 4 6.5 7.5 10.5 {1,2}
- 6.5 7 11.25 {3,4}- 3 7 5
- 7 6- {7,8}
![Page 19: Andrea G. B. Tettamanzi, 2003 Filogenetica Andrea G. B. Tettamanzi](https://reader036.vdocuments.pub/reader036/viewer/2022062300/5542eb57497959361e8c1c04/html5/thumbnails/19.jpg)
Andrea G. B. Tettamanzi, 2003
1 2 3 4 5 6 7 8
![Page 20: Andrea G. B. Tettamanzi, 2003 Filogenetica Andrea G. B. Tettamanzi](https://reader036.vdocuments.pub/reader036/viewer/2022062300/5542eb57497959361e8c1c04/html5/thumbnails/20.jpg)
Andrea G. B. Tettamanzi, 2003
Algoritmi di Linkage: discussione
• Nessuno dei tre algoritmi garantisce di ottenere il “vero” albero filogenetico delle sequenze prese in esame
• Se tutti e tre gli algoritmi producono lo stesso albero, è molto plausibile che quello sia il “vero” albero filogenetico
• Se un certo raggruppamento/sottoalbero (ingl. clade, da gr. κλάδος, “gruppo”) compare in tutti e tre gli alberi, è molto plausibile che si tratti di un’unità valida filogeneticamente.
![Page 21: Andrea G. B. Tettamanzi, 2003 Filogenetica Andrea G. B. Tettamanzi](https://reader036.vdocuments.pub/reader036/viewer/2022062300/5542eb57497959361e8c1c04/html5/thumbnails/21.jpg)
Andrea G. B. Tettamanzi, 2003
Trasformata di Farris (1)
Tutti e tre gli algoritmi di linkage forniscono sempre il risultatocorretto se
},{ ji
i j
jjiijiij mmd },,{},,{
ijim },,{ jjim },,{
Idea: usiamo una mappa reale Rnf },,1{:
ik
ij
dkfifki
djfifji
)()(::
)()(:,Esempio: idif 1)(
![Page 22: Andrea G. B. Tettamanzi, 2003 Filogenetica Andrea G. B. Tettamanzi](https://reader036.vdocuments.pub/reader036/viewer/2022062300/5542eb57497959361e8c1c04/html5/thumbnails/22.jpg)
Andrea G. B. Tettamanzi, 2003
Trasformata di Farris (2)
ijfij djfifS )()(
2
1similarità
0i
i
j
)(if)( jf
ijd
ji
jiSCd
fijf
ij0
distanzaaggiustata
soddisfa la diseguaglianza ultrametrica:
fjkfik
fij ddd ,max
![Page 23: Andrea G. B. Tettamanzi, 2003 Filogenetica Andrea G. B. Tettamanzi](https://reader036.vdocuments.pub/reader036/viewer/2022062300/5542eb57497959361e8c1c04/html5/thumbnails/23.jpg)
Andrea G. B. Tettamanzi, 2003
Algoritmo di linkage additivo
fissare arbitrariamente una sequenza k1
2 ijjkikji
dddji ,maxarg),(
3 ijjkiklji dddd 2
1},,{
N.B.: il risultato è un albero senza radice
![Page 24: Andrea G. B. Tettamanzi, 2003 Filogenetica Andrea G. B. Tettamanzi](https://reader036.vdocuments.pub/reader036/viewer/2022062300/5542eb57497959361e8c1c04/html5/thumbnails/24.jpg)
Andrea G. B. Tettamanzi, 2003
Neighbor-Joining Method
• N. Saitou e M. Nei. Molecular Biology and Evolution, 4:406-425, 1987
0
0
0
0
21
221
112
jiij
NN
N
N
dd
dd
dd
dd
D
1
2
i
j Nla lunghezza degli archi deve essere“una buona approssimazione” delledistanze
![Page 25: Andrea G. B. Tettamanzi, 2003 Filogenetica Andrea G. B. Tettamanzi](https://reader036.vdocuments.pub/reader036/viewer/2022062300/5542eb57497959361e8c1c04/html5/thumbnails/25.jpg)
Andrea G. B. Tettamanzi, 2003
Neighbor-Joining Method
• Basato sulla ricerca di unità tassonomiche operative (UTO)– che minimizzino la lunghezza totale dei rami dell’albero
– e questo ad ogni passo dell’algoritmo di raggruppamento
• Scopo: ottenere un albero additivo senza radice che approssimi la matrice delle distanze tra le sequenze
• Si procede in N – 2 cicli, ripetendo i passi seguenti:– raggruppare le due UTO più prossime, creando un arco interno tra
quella coppia e le altre UTO, seguendo un criterio di minimizzazione della lunghezza dell’abero ottenuto;
– calcolare la valutazione intermedia
– ricalcolare la matrice delle distanze raggruppando secondo l’average linkage.
![Page 26: Andrea G. B. Tettamanzi, 2003 Filogenetica Andrea G. B. Tettamanzi](https://reader036.vdocuments.pub/reader036/viewer/2022062300/5542eb57497959361e8c1c04/html5/thumbnails/26.jpg)
Andrea G. B. Tettamanzi, 2003
NJ: Albero iniziale “a stella”
x
i
j
1
2
3
N
...
ji
ijdNL
1
1)0(
![Page 27: Andrea G. B. Tettamanzi, 2003 Filogenetica Andrea G. B. Tettamanzi](https://reader036.vdocuments.pub/reader036/viewer/2022062300/5542eb57497959361e8c1c04/html5/thumbnails/27.jpg)
Andrea G. B. Tettamanzi, 2003
NJ: Selezione delle OTU più prossime
lunghezza dell’albero per una topologia in cui i e j sonoraggruppati insiemeijl
N
jihkhk
khij
N
jikk
jkikij dN
dddN
l
,,,1 2
1
2
1
)2(2
1
i
j
{i, j} ijjilji
,minarg),( x
k
h
![Page 28: Andrea G. B. Tettamanzi, 2003 Filogenetica Andrea G. B. Tettamanzi](https://reader036.vdocuments.pub/reader036/viewer/2022062300/5542eb57497959361e8c1c04/html5/thumbnails/28.jpg)
Andrea G. B. Tettamanzi, 2003
NJ: Lunghezze degli archi
jZiZijjii dddL 2
1},{,
iZjZijjij dddL 2
1},{,
ad ogni iterazione, si calcolano solo le lunghezze di questidue nuovi archi.
jikikiZ d
Nd
,2
1
jikjkjZ d
Nd
,2
1
![Page 29: Andrea G. B. Tettamanzi, 2003 Filogenetica Andrea G. B. Tettamanzi](https://reader036.vdocuments.pub/reader036/viewer/2022062300/5542eb57497959361e8c1c04/html5/thumbnails/29.jpg)
Andrea G. B. Tettamanzi, 2003
NJ: Ricalcolo della matrice delle distanze
2},,{jkik
kji
ddd
NN )1()1( NN
![Page 30: Andrea G. B. Tettamanzi, 2003 Filogenetica Andrea G. B. Tettamanzi](https://reader036.vdocuments.pub/reader036/viewer/2022062300/5542eb57497959361e8c1c04/html5/thumbnails/30.jpg)
Andrea G. B. Tettamanzi, 2003
PHYLIP
http://cmgm.stanford.edu/phylip/index.html
Phylogeny Inference Package
Una collezione di metodi e algoritmi per la filogenetica molecolarefree, public domain e open-source.
![Page 31: Andrea G. B. Tettamanzi, 2003 Filogenetica Andrea G. B. Tettamanzi](https://reader036.vdocuments.pub/reader036/viewer/2022062300/5542eb57497959361e8c1c04/html5/thumbnails/31.jpg)
Andrea G. B. Tettamanzi, 2003
Massima Verosimigianza
• Assume un tasso di mutazione costante• Tra tutti i possibili alberi, sceglie quello che soddisfa il criterio di
massima verosimigianza (probabilità massima).• Approccio perfezionato da Felsenstein (1973) e Thompson
(1975).• Casi particolari sono l’algoritmo di Fitch e Margoliash (1967),
minimi errori standard, e di Cavali-Sforza ed Edwards (1967), minimi quadrati.
• Anche se non esiste allo stato attuale una dimostrazione, si pensa che questo approccio alla costruzione di alberi filogenetici sia NP-difficile (è simile alla costruzione di alberi di Steiner).
![Page 32: Andrea G. B. Tettamanzi, 2003 Filogenetica Andrea G. B. Tettamanzi](https://reader036.vdocuments.pub/reader036/viewer/2022062300/5542eb57497959361e8c1c04/html5/thumbnails/32.jpg)
Andrea G. B. Tettamanzi, 2003
Algoritmi Evolutivi
Numero di alberi possibili di n sequenze:
1
1
32n
i
i
Approcci alla costruzione di alberi filogenetici basata sul criteriodi massima verosimiglianza con algoritmi genetici sono stati propostida Lewis (1998) e Matsuda (1996)
![Page 33: Andrea G. B. Tettamanzi, 2003 Filogenetica Andrea G. B. Tettamanzi](https://reader036.vdocuments.pub/reader036/viewer/2022062300/5542eb57497959361e8c1c04/html5/thumbnails/33.jpg)
Andrea G. B. Tettamanzi, 2003
Split Decomposition
Invece di tentare a tutti i costidi ricostruire un albero, è possibileprodurre un grafo più generaleche riassume tutti gli alberifilogenetici plausibili sulla base deidati.
SplitsTree
http://www.mathematik.uni-bielefeld.de/~huson/phylogenetics/splitstree.html
![Page 34: Andrea G. B. Tettamanzi, 2003 Filogenetica Andrea G. B. Tettamanzi](https://reader036.vdocuments.pub/reader036/viewer/2022062300/5542eb57497959361e8c1c04/html5/thumbnails/34.jpg)
Andrea G. B. Tettamanzi, 2003
Phylogenetic Split (Fissione Filogenetica)
ANAAN \,,2,1,,,2,1
è un d-split se e solo se AlkAji ,,,
iljkjlikklij dddddd ,max
Indice di isolamento di uno split AAS ,
klijiljkjlik
AlkAji
S dddddd
,maxmin2
1
,,
misura quanto una fissione è supportata dai dati, e idealmentecoincide con la lunghezza del ramo che unisce i due sottoalberi
![Page 35: Andrea G. B. Tettamanzi, 2003 Filogenetica Andrea G. B. Tettamanzi](https://reader036.vdocuments.pub/reader036/viewer/2022062300/5542eb57497959361e8c1c04/html5/thumbnails/35.jpg)
Andrea G. B. Tettamanzi, 2003
Split Metric
altrimenti0
,1),(
AjAijiS
split-d
),(S
SSij jid soddisfa ijij dd
distanza residua: 00 ijijij ddddefinisce una metrica che non ammette ulteriori fissioni con indicedi isolamento positivo: è il rumore non scomponibile per fissioni.
jiij
jiij
d d
d
,
, percentuale scomponibile per fissioni dellamatrice delle distanze
![Page 36: Andrea G. B. Tettamanzi, 2003 Filogenetica Andrea G. B. Tettamanzi](https://reader036.vdocuments.pub/reader036/viewer/2022062300/5542eb57497959361e8c1c04/html5/thumbnails/36.jpg)
Andrea G. B. Tettamanzi, 2003
Split Decomposition: Algoritmo
• Ricorsivamente: posto che tutti i d-split relativi al sottoinsieme {1,…, i – 1} siano già stati determinti;
• per ogni split S = (A, B) di questo sottoinsieme, verificare se
BiA },{ }{, iBA o
siano ammissibili come d-split dell’insieme allargato a i.
• La procedura termina quando i = N.• Si può dimostrare che la complessità di questo algoritmo è
)( 6NO
![Page 37: Andrea G. B. Tettamanzi, 2003 Filogenetica Andrea G. B. Tettamanzi](https://reader036.vdocuments.pub/reader036/viewer/2022062300/5542eb57497959361e8c1c04/html5/thumbnails/37.jpg)
Andrea G. B. Tettamanzi, 2003
Metodi Basati sui Caratteri
• Tutti i metodi visti fin qui utilizzano una matrice di distanze tra sequenze
• Metodi basati sulle distanze guardano all’evoluzione “da lontano”, ignorando informazioni di dettaglio
• Metodi basati sui caratteri partono dal dettaglio• Cercano di ripercorrere le traiettorie seguite dall’evoluzione• Ricostruzione “filologica” delle sequenze dei progenitori comuni• Siccome i metodi basati sulle distanze e sui caratteri sono
fondamentalmente differenti, una loro concordanza nelle conclusioni è considerata una forte prova a favore di un albero filogenetico
![Page 38: Andrea G. B. Tettamanzi, 2003 Filogenetica Andrea G. B. Tettamanzi](https://reader036.vdocuments.pub/reader036/viewer/2022062300/5542eb57497959361e8c1c04/html5/thumbnails/38.jpg)
Andrea G. B. Tettamanzi, 2003
Parsimonia
• Premesse di fondo:– Le mutazioni sono eventi estremamente rari
– Più eventi improbabili un modello deve assumere, meno è probabile che il modello sia corretto
• Allineamento multiplo di sequenze• Concetto di “sito informativo”: per essere informativa, una
posizione deve:– contenere almeno due nucleotidi diversi
– ciascuno di questi nucleotidi deve comparire almeno due volte
• Parsimonia “pesata”
![Page 39: Andrea G. B. Tettamanzi, 2003 Filogenetica Andrea G. B. Tettamanzi](https://reader036.vdocuments.pub/reader036/viewer/2022062300/5542eb57497959361e8c1c04/html5/thumbnails/39.jpg)
Andrea G. B. Tettamanzi, 2003
Esempio
1 2 3 4 5* 6*
1. G G G G G G
2. G G G A G T
3. G G A T A G
4. G A T C A T
1
2
3
4
1
3
2
4
1
4
2
3
![Page 40: Andrea G. B. Tettamanzi, 2003 Filogenetica Andrea G. B. Tettamanzi](https://reader036.vdocuments.pub/reader036/viewer/2022062300/5542eb57497959361e8c1c04/html5/thumbnails/40.jpg)
Andrea G. B. Tettamanzi, 2003
Ricostruzione
TG G AA
G
G
A
G~A
GG A TA
G
G~A
A
G~A~T
GG T AA
G
G~T
A
G~T~A
IF S T THENR = S T
ELSER = S T
TS
R
![Page 41: Andrea G. B. Tettamanzi, 2003 Filogenetica Andrea G. B. Tettamanzi](https://reader036.vdocuments.pub/reader036/viewer/2022062300/5542eb57497959361e8c1c04/html5/thumbnails/41.jpg)
Andrea G. B. Tettamanzi, 2003
Strategie di Ricerca
• La ricerca esaustiva su tutti gli alberi non è proponibile• Metodo branch and bound (Hardy e Penny 1982):
– Costruzione incrementale dell’albero
– Limite superiore della lunghezza di un albero parsimonioso
– Non si esplorano strade che portano ad alberi peggiori
– Garanzia di trovare l’ottimo, ma miglioramento solo di scala temporale, non di complessità, che resta esponenziale
• Metodi euristici, approssimati– Essenzialmente basati su hillclimbing o simulated annealing
– L’ottimo globale non è garantito
![Page 42: Andrea G. B. Tettamanzi, 2003 Filogenetica Andrea G. B. Tettamanzi](https://reader036.vdocuments.pub/reader036/viewer/2022062300/5542eb57497959361e8c1c04/html5/thumbnails/42.jpg)
Andrea G. B. Tettamanzi, 2003
Bootstrapping
• Serve a misurare il grado di confidenza nell’albero ricostruito• Creazione di insiemi di sequenze artificiali, ottenuti estraendo a
caso le colonne delle sequenze reali con reimbussolamento• Costruzione per ciascun insieme artificiale, di un albero• Se gli alberi ricostruiti sono sempre uguali o molto simili =>
buona confidenza• Risultati da trattare con molta attenzione:
– Necessità di eseguire moltissimi test, altrimenti rumore;
– Tende a sottostimare la confidenza a livelli alti, e a sovrastimarla a livelli bassi
– “Fallacy of multiple tests” = semplici fluttuazioni statistiche sembrano avere significatività statistica