metóda t yp dát tvorby dna sekvencie stromov vzdialenosti (alebo iné znaky)

metóda typ dáttvorby DNA sekvenciestromov vzdialenosti (alebo iné znaky)

zhlukovací UPGMA algoritmus

neighbor-joining tree

optimalizačné minimum parsimóniakritérium evolution

tree maximum likelihood

Bayesova analýza

Metódy tvorby evolučných stromov

Metóda najväčšej vierohodnosti (maximum likelihood (ML) method)

Vierohodnosť evolučného stromu (L) je pravdepodobnosť, že sa vyvinú pozorované sekvencie DNA pri danej topológii stromu a pri danom evolučnom modeli. Cieľom metódy najväčšej vierohodnosti je nájsť strom s čo najväčšou hodnotou L.Pri tejto metóde sa zostrojí východiskový strom parsimonickou metódou alebo metódou najbližšieho suseda a potom sa prehľadávajú blízke stromy a hľadá sa pravdepodobnejší strom než ten, ktorý máme k dispozícii.Je možné aj prehľadanie všetkých možných stromov ale to, podobne ako pri parsimonických stromoch je časove náročné a realistické lenpri menšom počte sekvencií.Metóda je časovo náročná.Chybný evolučný model môže viesť k chybným výsledkom.

Modely zmeny (evolúcie) sekvencií DNA

Parametre, ktoré vplývajú na evolúciu sekvencií:

- frekvencie báz

- typy substitúcie (tranzície, tranzverzie)

- heterogenita rýchlosti substitúcií

Klasické substitučné modely:

Jukes-Cantor (1969)

Kimura 2 parameter (1980)

Felsenstein (1981)

Hasegawa, Kishino & Yano (1985)

General time-reversible model (Lavane et al. 1984)

Každý model vychádza z iných predpokladov

A

CT

G puríny

pyrimidíny

Substitučné modely

JC – rovnaké rýchlosti substitúcie; rovnaké frekvencie báz

A

CT

G

a

aa

a

a

a

A

CT

G

a

aa

a

a

a

A

CT

G

a

aa

b

b

a

A

CT

G

a

aa

b

b

a

A

CT

G

d

ce

f

a

b

K2P – dve rôzne rýchlosti substitúcie; rovnaké frekvencie báz

F81 – rovnaké rýchlosti substitúcie;nerovnaké frekvencie báz

HKY – dve rôzne rýchlosti substitúcie; nerovnaké frekvencie báz

GTR – 6 rôznych rýchlostí substitúcie; nerovnaké frekvencie báz

Zvy

šujú

ci s

a p

oče

t p

aram

etro

v m

od

elu

ti

tv

Funkcia gama distribúcie ( ) f(r) rýchlosti substitúcie na pozíciách sekvencie DNA

– parameter tvaru, 1 – funkcia má tvar L, 1 – funkcia má zvonovitý tvar

– parameter škály

rýchlosť substitúcií (r)

pro

po

rcia

po

zíc

ií f(r)

Yang, Z., 1996, TrendsEcol. Evol. 11: 367-372.

Sekvencia W: A C G C G T T G G G Sekvencia X: A C G C G T T G G G Sekvencia Y: A C G C A A T G A A Sekvencia Z: A C A C A G G G A A

W X Y Z

strom 1

W Y X Z

strom 2

W Z X Y

strom 3

Niektoré z možných stromov


T T A G

strom 1

T A T G

strom 2

T G T A

strom 3

Sekvencia W: A C G C G T T G G G Sekvencia X: A C G C G T T G G G Sekvencia Y: A C G C A A T G A A Sekvencia Z: A C A C A G G G A A

Niektoré z možných stromov


T T A G

T T A G

GT

G

T T A G

CA

G

T T A G

AT

T

T T A G

AT

A

Niektoré z možných evolučných ciest k jednému zo stromov (rôzne topológie)


T T A GATGC

ATGC

ATGC

počet evol. ciest k jednému stromu / 1 pozícia:

(počet stavov)(počet uzlov)

= (počet stavov)(počet taxónov -1)

= 43 = 64

Možné evolučné cesty k jednému zo stromov


T T A G

GT

G

L = L(koreň/root) x L(konáre/branches)

Vierohodnosť (likelihood) jednej evolučnej cesty

závisí od konkrétneho modelu


T T A G

L(strom z jednej pozície) = L(všetky evolučné cesty k stromu z jednej pozície)

= L(strom 1) + L(strom 2) + L(strom 3) + … + L(strom 64)

- stromy rovnakej topológie čo do taxónov na koncoch vetiev ale s inými nukleotidmi v uzloch

Vierohodnosť (likelihood) jedného stromu z jednej pozície DNA sekvencie


W X Y Z

L(strom za celú sekvenciu)

= L(strom za určitú pozíciu)

Vierohodnosť (likelihood) jedného stromu z celej DNA sekvencie


ML analýza začína stromom vytvoreným napr. NJ a potom sa prehľadávajú blízke stromy a hľadajú sa tie, ktoré majú vyššiu vierohodnosť.

Pre väčšie dátové súbory heuristická analýza ML je počítačovo veľmi náročná, navyše podpora jednotlivých clades by mala byť overená metódou bootstrapu, čo násobí potrebný čas na analýzu.

Pokiaľ ML analýza nájde lokálne optimum, ešte to neznamená,že ide zároveň aj o globálne optimum v stromovom priestore.


- program na porovnanie log likelihood scores testovaných modelov, výber vhodného evolučného modelu pre daný dátový súbor- príručka: modeltest3.6.pdf

Posada D and Crandall KA 1998. Modeltest: testing the model of DNA substitution. Bioinformatics 14 (9): 817-818.

Posada D and Buckley TR. 2004. Model selection and model averaging in phylogenetics: advantages of the AIC and Bayesian approaches over likelihood ratio tests. Systematic Biology 53: 793-808

MODELTEST (http://darwin.uvigo.es/software/modeltest.html)

Metóda najväčšej vierohodnosti (maximum likelihood, ML)

ML analýza zahŕňa:- testovanie evolučných modelov pre daný dátový súbor, výpočet skóre (log likelihood scores) vzhľadom na model a dáta - PAUP- výber vhodného modelu na základe log likelihood scores podľa určitých testovacích

kritérií - MODELTEST- výpočet (hľadanie) najpravdepodobnejšieho stromu podľa vybraného modelu – PAUP

podrobné a jednoduché inštrukcie pre výpočet: http://www.rhizobia.co.nz/phylogenetics/modeltest.html

MODELTESThttp://darwin.uvigo.es/software/modeltest.html

modely sú vyjadrené parametrami: - frekvencia báz, - typy substitúcie a ich rýchlosti, - homogenita/heterogenita mutačných rýchlostí na rôznych pozíciách, - podiel invariabilnýchpozícií

rýchlosti mutácií a(A-C), b(A-G), c(A-T), d(C-G), e(C-T), f(G-T)

1. nexus súbor s pridaným textovým blokom (príkazmi) na hodnotenie 56 evolučných modelova výpočet skóre (výpočet v PAUP-e)


výpočet počiatočného stromu (NJ)


výpočet log likelihood scores pre NJ strom vzhľadom na dáta a model

Lscores 1... výpočet log likelihood scorepre NJ strom pre daný model, vyjadrený: nst...number of substitution types (1-6)base...frekvencia bázrates...heterogenita mutačnej rýchlosti na rôznych pozíciáchshape...alfa parameter funkcie gamma distribúciepinv...proporcia invariabilných pozícií

2. načítanie nexus súboru v programe PAUP a výpočet skóre (log likelihood scores) pre jednotlivé modely

2. výpočet likelihood skóre (log likelihood scores) pre jednotlivé modely -> model.scores

2. model.scores

3. načítanie súboru model.scores v programe MODELTEST vzájomné testovanie modelov na základe log likelihood scores, výber vhodného modelu podľa dvoch testovacích kritérií

3. načítanie súboru model.scores v programe MODELTEST

-> výstup v súbore *.outfile

- definovanie cesty a adresára, kde je uložený spúšťací súbor Modeltest3.6.exe(cd – change directory)

- príkaz na spustenie programu MODELTEST a výpočet

4. súbor *.outfileobsahuje vzájomné testovanie modelov na základe log likelihood scores, výber vhodného modelu podľa dvoch testovacích kritérií – AIC (Akaike information criterion), hLRT (hierarchical likelihood ratio test)

hLRT – vzájomné porovnávanie dvoch modelovAIC – simultánne porovnanievšetkých modelov

nie model s najvyšším skóre, ale s najoptimálnejším (t.j. ak pridanie parametrov, zvýšenie komplexity len nepatrne zvýši skóre, vyberá sa menej komplexný model)

niekedy navrhnú odlišné modely,

je na užívateľovi, ktorý si vyberie, preferované AIC

4. súbor *.outfileobsahuje vzájomné testovanie modelov na základe log likelihood scores, výber vhodného modelu podľa dvoch testovacích kritérií – AIC, hLRT

4. súbor *.outfile

špecifikované parametre vybraného modelu pre ML výpočet

lset...špecifikácia vybraného modeluBase...frekvencia báz A, C, G (T)Nst... počet typov substitúciíRmat... rýchlosti mutácií a(A-C), b(A-G), c(A-T), d(C-G), e(C-T), f(G-T)Rates...funkcia gama distribúcie (rýchlosť mutácií na nukleotidových pozíciách)Shape...parameter tvaru fumkciePinvar...proporcia invariabilných pozícií

5. nexus súbor s pridanou špecifikáciou vybraného modelu a príkazmi na ML výpočet

6. výpočet samotnej ML analýzy v programe PAUP

MrMTgui

http://www.genedrift.org/mtgui.php

http://www.bio.utexas.edu/faculty/antisense/garli/Garli.htmlhttp://www.nescent.org/informatics/download.php?software_id=4

program TCShttp://darwin.uvigo.es/software/tcs.html

Clement M, Posada D and Crandall K. 2000. TCS: a computer program to estimate gene genealogies. Molecular Ecology 9(10): 1657-1660

tvorba siete haplotypov (cpDNA dáta)- štatistická parsimónia

Templeton, A.R., Crandall, K.A., Sing, C.F., 1992. A cladistic analysis of the phenotypic associations with haplotypes inferred from restriction endonuclease mapping and DNA sequence data. III. Cladogram estimation.

Genetics 132, 619–633Templeton, A.R., 1998. Nested clade analyses of phylogeographic data: testing hypotheses about gene flow and population history. Mol. Ecol. 7, 381–397.

program TCS

TCS

Connection limit: percentuálne 90-95%počet mutačných krokov

Gaps = missingGaps = 5th state

TCSuloženie siete haplotypov ako - *.gml súborako - *.ai súbor

TCSlog súbor:

metóda t yp dát tvorby dna sekvencie stromov vzdialenosti (alebo iné znaky)

Documents