Download - Statistische Tests in der Phylogenie
Statistische Tests in der Phylogenie
Likelihood-Based Tests of Topologies in Phylogenetics
Nick Goldman, Jon P. Anderson, Allen G. Rodrigo
-Lisha Naduvilezhath
2
Gliederung
1. Hintergrund-“wissen“- Signifikanz-/ Hypothesentest- Bootstrap
2. Verschiedene Tests- KH- / SH- / SOWH- Test- Beispiel HIV-1 / Säugetiere
3. Zusammenfassung/ Ausblick
3
Thema
Seq1 : CGGTTCA… Seq2 : AGGTTCA… Seq3 : ATGTTCA… Seq4 : AGGTTCT…Seq5 : CGATTGA…
T1/ L1
T2/ L2LX ist log- Likelihood für TX
4
Signifikanz-/ Hypothesentest Statistische Hypothese: Annahme
über Wahrscheinlichkeitsverteilung der Grundgesamtheit, die wahr oder falsch sein kann
Nullhypothese (H0): statistische Hypothese, die meist verworfen wirdz.B.: Aussage: „Münze präpariert“
Hypothese: Münze fairH0: p= 0,5 für Kopf
5
Signifikanz-/ Hypothesentest
Alternativhypothese (HA, H1): jede von H0 andere Hypothese (z.B.: p<0,5)
Signifikanztest: Verfahren zum Errechnen, ob beobachtete Daten unter Annahme von H0 signifikant sind
Beobachtete Daten sind signifikant, wenn geneigt H0 abzulehnen
6
Signifikanz-/ Hypothesentest
Signifikanzlevel/ -niveau/ Irrtumswahrscheinlichkeit (α): maximale WS mit der Hypothese abgelehnt wurde, die akzeptiert werden sollte; oft α=5% oder 1%
P-Wert: WS den beobachteten oder extremeren Wert anzutreffen/ kleinstes α, auf dem H0 abgelehnt wird
7
Signifikanz-/ Hypothesentest
Einseitiger Test
Zweiseitiger Test
8
Bootstrap Bootstrap- Gedanke: Neu erzeugte
Parameter sind genauso weit entfernt vom ML- Schätzer wie ML- vom wahren Parameter.
Nichtparametrischer (NP) Bootstrap: Bootstrap- Stichproben durch Ziehen mit Zurücklegen aus Originaldaten erzeugen
Parametrischer (P) Bootstrap (Monte Carlo Simulation): durch zugrunde gelegte Verteilung für benötigten Parameter Schätzung einsetzen und Bootstrap- Daten simulieren
9
Bootstrap
In der Phylogenie:
Aufgrund der Verteilungsannahme parametrischer Tests abhängiger von zugrunde gelegten Modellen
Seq1 : C G G T T C A… Seq2 : A G G T T C A… Seq3 : A T G T T C A… Seq4 : A G G T T C T…Seq5 : C G A T T G A…
Site
10
Kishino- Hasegawa Test (KH-Test)
Gegeben: Topologien T1 (L1) und T2(L2) Fragestellung: Unterstützen T1 und T2
die Daten gleichermaßen? H0: E[δ] =0 mit δ = L1 - L2
(HA: E[δ] =0)
keine Verteilung für δ gegeben in H0 nichtparametrischer Bootstrap
11
KH- Test (=Test priNPfcd)1. Test Statistik: δ = L1 - L2 2. Mit NP-Bootstrap Datenmengen i
erzeugen3. Für jedes i:
- Schätzen von Θ1 und Θ2 für maximale log-likelihoods L1,(i) und L2,(i)
- δ(i)= L1,(i) - L2,(i)
4. Zentrieren der δ(i) Δ(i)
(Verteilung der Δ(i) ist Schätzung für δ- Verteilung)
5. Zwei-seitiger Test: Fällt δ in Konfidenz-intervall für E[δ]?
12
Resampling estimated log-likelihood (RELL- Methode)
Zeitgewinn RELL-Methode:
für L1,(i) - bzw. L2,(i) - Berechnung stets
ΘML,1 und ΘML,2 verwenden (ΘML,X: optimierter Parameter für
Originaldaten) Vorrausetzung für Anwendung:
Korrektes Evolutionäres Modell Ausreichend große Datenmengen
13
Test priNPncd1. Test Statistik: δ = L1 - L2 2. Mit NP-Bootstrap Datenmengen i
erzeugen3. Für jedes i:
- Mit ΘML,1 und ΘML,2 bestimmen von Ľ1,(i) und Ľ2,(i) („΄“ bedeutet
Schätzung) - δ̛(i)= Ľ1,(i) - Ľ2,(i)
4. Zentrieren der δ̛(i) Δ̛(i)5. Zwei-seitiger Test: Fällt δ in Konfidenz-
intervall für E[δ]?
14
Test priNPncn Kishino und Hasegawa (1989):
δ ist normalverteilt (mit Varianz und Mittel abhängig von δ(i)) Zentralem Grenzwertsatz:
(normierte) Summe einer großen Zahl von unabhängigen, identisch verteilten Zufallsvariablen ist fast (standard) normalverteilt
15
Test priNPncn
Im Test priNPncd letzten Schritt mit folgendem austauschen:
5. Berechne Varianz von Δ̛(i)
(=ν²) und teste, ob δ bei N(0, ν²)- Verteilung im Konfidenzintervall liegt
16
Test priNPnca
:= log- Wahrscheinlichkeit am Site k von Baum TX
(k= 1,2,… S)
Zusätzliche Annahme: Varianz von δ mit Varianz über δ(k) berechenbar
17
Test priNPnca
1. Test Statistik: δ = L1 - L2
2. Mit ΘML,1 und ΘML,2 bestimmen von L1(k) und L2(k) der Sites k der Originaldaten δ(k) = L1(k) - L2(k)
3. Zentrieren der δ(k) Δ(k)
18
Test priNPnca
4. Schätzen der Varianz von Δ(k) (=Var(δ(k))) mit ν²= ΣK(Δ(k))²/(S-1) Varianz von δ = S * ν²
5. Zweiseitiger Test: Liegt δ im Konfidenzintervall bei einer N(0, S*ν²)- Verteilung?
Implementiert in PHYLIP, PUZZLE (MOLPHY)
19
Test priNPncs Letzte beiden Schritte von Test
priNPnca ersetzen mit:4. paired- t- Test von L1(k) und L2(k)
(Paare {L1(1), L2(1)}, {L1(2), L2(2)},…,
{L1(S), L2(S)})
zur Überprüfung, ob Mittelwerte
gleich sind (E[μ1 - µ2] =0)
20
Students t- Verteilung Nach dem
Pseudonym des „Entdeckers“ William S. Gosset benannt
m = Anzahl Freiheitsgrade (m ∞: Normverteilung)
21
Test priNPncs
implementiert in PAUP*
Keine theoretische Erklärung
denkbar für zusätzliche Annahme Trotzdem ähnliche Signifikanzlevels
in Anwendung wie bei DNAML (Unterprogramm von PHYLIP)
22
Falscher Gebrauch des KH-Tests
T1 und T2 müssen unabhängig voneinander UND ohne vorherige Analyse der Daten ausgewählt sein zur Rechtfertigung von H0
Falls TX = TML INKORREKTER KH-T
- Keine Ergebnisse stützen E[δ] =0, stattdessen E[δ] >0
! einseitige Tests erforderlich
23
Korrektes Vorgehen Trainer: Unterscheiden
sich die Zeiten von Asterix und Obelix im 100m Sprint im Mittel signifikant?
Vorgehen: Über viele Rennen δ(Asterix, Obelix)= t(Asterix)- t(Obelix) (wenn gleich gut E[δ] 0)
24
Korrektes Vorgehen
Team- Statistiker: H0: E[δ(Asterix, Obelix)] =0 HA: E[δ(Asterix, Obelix)] =0
25
Verdeutlichen des Fehlers Trainer glaubt Idefix ist
schnellster δ(Idefix, schnellster)=
t(Idefix) – t(schnellster) Vermutung: wenn gleich
gut E[δ] 0 Team-Statistiker: Falsch!!
- Grund: Es gilt stets δ(Idefix, schnellster) ≥ 0
26
Shimodaira- Hasegawa Test (SH- Test)
Vergleicht gleichzeitig alle Topologien einer Menge M (= Menge aller möglichen Topologien)
a priori Wahl der Topologien in M H0: alle Tx ε M sind gleichgute
Erklärungen
27
SH- Test (=Test posNPfcd)
1. Für jedes TX ε M: δX:=LML – LX
2. Mit NP-Bootstrap Datenmengen i erzeugen
3. Für jedes i und jedes TX :
maximiere LX,(i) über ΘX
4. Für jedes TX : LX,(i) L ̃X,(i) durch Zentrieren (=Abziehen der Mittel über i von LX,(i))
28
SH- Test (=Test posNPfcd)
5. Für jedes i:- Finde L ̃ML,(i) (Maximum über L ̃X,(i))- Bootstrap-Statistik: δX,(i)= L ̃ML,(i) - LX,(i)
6. Einseitiger Test (da, L ̃ML,(i) ≥ LX,(i)) :Liegt δX im Konfidenzintervall für E[δX] bei einer δX,(i)- Verteilung?
29
Test posNPncd
Zeitgewinn mit RELL-Methode1. Für jedes TX ε M: δX:= LML – LX
2. Mit NP-Bootstrap Datenmengen i erzeugen
3. Für jedes i und jedes TX :
approximiere LX,(i) mit ΘML,X
4. Rest wie bei Test posNPncd
30
SH- Test …
… schätzt gleichzeitig Signifikanzlevels für jede Topologie TX
… als modifizierte Version des KH- Tests mit a priori- gewählte T1 und a posteriori- gewählte TML (Unterschied: bei Verteilungsbestim-mung Menge aller Topologien M betrachtet)
31
Rettung falscher KH- Test- Ergebnisse
Wenn P-Wert mindestens doppelt so groß wie Signifikanzlevel ist
Vorgehen: P-Wert des zweiseitigen Tests zu dem eines einseitigen abändern
den P-Wert p des falsch angewandten KH- Tests halbieren, da im SH- Test P- Wert ≥ p/2 beträgt
Beispiel: p/2 > 0,05 SH- Test erlaubt ebenfalls keine Ablehnung von H0
32
Keine Rettung der KH- Ergebnisse
Wenn p/2 zu klein ist, d.h. p führt zur Ablehnung im KH-Test oder lag in der Nähe des Signifikanzlevels
Grund: SH- Test liefert Ergebnis ≥ p/2 Beispiel:
a. p< 0,05 p/2<0,025b. 0,05< p< 0,1 (keine H0-Ablehnung)
0,025< p/2< 0,05
Wie viel größer?
33
SOWH- Test (=Test posPfud)
Von Swofford et al. beschrieben und Hillis et al. implementiert
Schätzt, ob a priori- gewählte Topologie T1 Daten unterstützt oder für andere verwerfen werden sollte
H0: T1 ist wahre TopologieHA: wahre Topologie ist andere
34
SOWH- Test (=Test posPfud)
1. Test Statistik: δ = LML – L1
2. Mit P- Bootstrap und ML-Schätzer ΘML,1 Datenmengen i erzeugen
3. Für alle Tx: Schätzen von ΘX für maximale LX,(i)
4. Finde LML,(i)
5. δ(i) = LML,(i) - L1,(i) (Verteilung für δ)6. Einseitiger Test: δ signifikant?
35
SOWH- Test (=Test posPfud)
Test Statistik δ wie bei KH und SH-Test Da TML benutzt Annahme E[δ] =0
nicht möglich Da P- Bootstrap keine Zentrierung Zeit für Maximierung über alle TX
Vorschlag 1: RELL-like für (a priori) T1
36
Test posPpud (Schätzung unter H0)
1. Schritte 1 und 2 siehe Test posPfud 2. Für alle Tx/{T1}: Schätzen von ΘX
für maximale LX,(i)
3. Für T1 benutze ΘML,1 Ľ1,(i)
4. Finde LML,(i)
5. δ̛(i)= LML,(i) – Ľ1,(i) (Verteilung für δ)6. Einseitiger Test: δ signifikant?
37
Test posPpud (Schätzung unter H0)
nicht besonders schneller Test posPnud unvernünftig, da
original TML (ΘML) weit entfernt von optimalen Werten der Bootstrap-Daten (mit T1 und Θ1 geschätzt)
Bekannt: Es gibt über verschiedene Topologien stabile Parameter (Bsp. Basenhäufigkeit)
38
Test posPpud (Schätzung unter HA)
Alle Parameterkomponenten, die gleich für alle TX sind, feste Werte (von ΘML,1) zuweisen
Unterschied zum vorigen Test:- nur „freie“ Parameterwerte (Astlängen) werden maximiert
Wenn beide Tests H0 nicht verwerfen Wenn beide Tests H0
verwerfen ?
39
Beispiel HIV-1 - DNA
Geg: 6 homologe DNA Sequenzen à 2000 bp von gag und pol Gen von HIV (A1, A2, B, D, E1, E2)
Alignieren Konventionelle Phylogenie:
T1= ((A1,A2), (B,D), (E1,E2))L1= -5073,75
40
Beispiel HIV-1 - DNA ML Phylogenie:
TML=(A1, (B,D), (A2, (E1,E2)))LML= -5069,9
SH-Test: M enthält alle 105 möglichen Tx
Für ML-Berechnungen: Zeitreversibles Modell mit Γ- Verteilung unter den Sites zur Ratenheterogenitätsmodellierung
41
Gamma (Γ) - Verteilung Kontinuierliche, reproduktive
Wahrscheinlichkeitsverteilung über positive reelle Zahlen
Wahrscheinlichkeitsdichte gegeben durch
E(X)= α/β V(X)= α/β²
42
Gamma (Γ) - Verteilung
43
Beispiel HIV-1 - DNA ΘX: Astlängen, Basenhäufigkeiten, relative
Substitutionsrate zwischenNukleotidpaaren, α (Parameter für Γ- Verteilung)
1000 Bootstrap-Datenmengen erzeugt Für alle Test: Teststatistik
δ= LML -L1 = 3,90 α = 0,05
Da TML posteriori gewählt wurde KH- Test FALSCH!! (nur zum Vergleich)
44
Beispiel HIV-1 - DNA
45
Beispiel HIV-1 - DNA Mögliche Erklärungen für Unterschied in
SH- und SOWH- Testergebnis:- unterschiedliche H0- Hypothesen(- parametrische (SOWH-) Tests sind mächtiger als
nichtparametrische (SH-))
- parametrische Tests vom zugrunde gelegten Modell abhängig
46
Beispiel HIV-1 - DNA
47
Beispiel Säugetiere - aa
Geg: - 6 mt Proteinsequenzen à 3414 Aminosäuren (aa): Mensch(H), Seehund(S), Kuh(C), Hase(R), Maus(M), Opossum(O)
- (S, C) 15 mögliche TX
SH- Test: 15 TX gleichzeitig verglichen 7 TX nicht verworfen
48
Beispiel Säugetiere - aa SOWH- Test:
- T1= ((H, ((S, C), R)), M, O) (a priori)- TML= (((H, (S, C)), R), M, O)
Mit „model of mammalian mt aa replacement + F + Γ “ (Yang et al. 1998):L1 = - 21727,26LML = - 21724,60
Teststatistik δ= LML -L1 = 2,66
49
Beispiel Säugetiere - aa
50
Zusammenfassung/ Ausblick Veröffentlichte KH- Test Ergebnisse mit
Vorsicht behandeln!! Alle zukünftigen Tests mit SH- oder
SOWH- Tests ausführen Untersuchung von Ergebnissen mit
kombinierten Tests Untersuchung der Unterschiede
zwischen SH- und SOWH- Testergebnissen