В.В. Алёшин 30 сентября 2014 года
DESCRIPTION
Молекулярная филогенетика (лекция 1) Принципы построения филогенетических деревьев по молекулярным данным. В.В. Алёшин 30 сентября 2014 года. - PowerPoint PPT PresentationTRANSCRIPT
Молекулярная филогенетика (лекция 1) Принципы построения филогенетических деревьев по молекулярным даннымВ.В. Алёшин30 сентября 2014 года
Истинное филогенетическое дерево – объективные родственные связи всех существующих и существовавших на Земле живых форм;
дерево, сконструированное на основании нуклеотидных (аминокислотных) последовательностей современных форм с помощью правил вывода, основанных на теоретических положениях.
Сконструированное дерево – это математический объект – связный граф без циклов. Он состоит из вершин (узлов) и соединяющих их ребер. Узлы бывают внутренние – с ним соединено три ребра (или более) и висячие («листья» дерева) – с ними соединено одно ребро. Неформально, висячая вершина – это нуклеотидная (аминокислотная) последовательность современного вида, определенная экспериментально. Ей дают имя и она ОТЕ (англ. OTU). Внутренние узлы дерева можно интерпретировать как гипотетического предка.
Дерево – связный граф. Это значит, что из любого узла в любой другой узел существует путь (последовательность соединенных ребер). Это отражает факт, что все нынешние и вымершие виды родственны между собой. Дерево – граф без циклов. Это значит, что путь в дереве между двумя узлами всегда единственный. Таким образом, степень родства каждой пары видов (вершин графа) не произвольная, а строго определенная – определяемая путем между ними по дереву. В частности, любая пара узлов, соединенная в дереве непосредственно, соединена единственным ребром: если ребро соединяет два рассматриваемых узла, то такое ребро единственное. Это отражает эволюционную трансформацию любого вида из вида-предка, причем как единственное событие.
Эквивалентные изображения одного и того же немасштабированного
бескорневого дерева ((А, В), (С, D)); из четырех ОТЕ
Два дерева имеют одинаковую топологию, если они состоят из одинаковых ОТЕ, соединенных в том же самом порядке (т. е. их внутренние вершины можно занумеровать так, чтобы любому пути в одном дереве был такой же точно путь в другом).
((A:0.2,B:0.25):0.05,(C:0.4,D:0.1));
#NEXUS [File saved Fri Nov 07 09:01:17 2008] BEGIN TAXA; DIMENSIONS NTAX = 4; TAXLABELS A B C D ; ENDBLOCK; BEGIN TREES; TRANSLATE 1 A, 2 B, 3 C, 4 D ; UTREE * PHYLIP_1= ((1:0.2,2:0.25):0.05,(3:0.4,4:0.1)); ENDBLOCK;
B
A C
D 0.1
б в
а
Примеры текстовой и графической записи одного и того же масштабированного дерева:
Willi Hennig
Филогеномика
Филогенетическая система
Кладистика
1990 2000 2010
100000
150000
50000
Кумулятивный рост числа публикаций со словами ‘molecular’ AND ‘phylogeny’ в резюме, согласно базе данных ISI
% СВЯЗАВШИХСЯ ФРАГМЕНТОВ ДНК
% НУКЛЕОТИДНЫХ ЗАМЕН В ГИБРИДНЫХ ДНК
матрицы:
матрица попарных расстояний
выравнивание (матрица)
ДНК-матрица
...
Выравнивание.
Насколько схожи между собой первичные структуры?
Основания (биохимические и генетические) гипотезы молекулярных часов.
Выравнивание.
Насколько схожи между собой первичные структуры?
Основания (биохимические и генетические) гипотезы молекулярных часов.
|s| < 1/2Ne ; => скорость эволюции = скорости мутирования (независимо от размера популяции)
tфикс.=4Ne
Выравнивание.
Насколько схожи между собой первичные структуры?
Основания (биохимические и генетические) гипотезы молекулярных часов.
p-дистанции и почему это не всегда хорошая мера сходства.
50
время
Идентичность 100%
0
A
†C
†C†C
ОТЕ1 ОТЕ2 ОТЕ3
†G
AT G†T
†T
T
†A
A
†G
G
†G
†A
†T
C
†T
†AT
1
Неравноценность различий между близкими и далекими видам
Возникает вопрос: насколько сконструированное дерево соответствует исходным данным (даже не истинному дереву, а данным!).
Аддитивные (по отношению к матрице) деревья. Свойство аддитивности проявляет и матрица: в этом случае для любых четверок ОТЕ A, B, C, D выполняется условие, что из трех сумм дистанций dAB + dCD, dAC + dBD, dAD + dBC две суммы должны быть равны и больше третьей. Доказано, что если матрица дистанций может быть отображена аддитивным деревом, то такое дерево единственное. Другими словами, для аддитивного дерева матричная и масштабированная графическая форма представления эквивалентны, а для неаддитивного дерева нет. Для большинства природных ОТЕ деревья получаются неаддитивные.
Acyrthosiphon pisum 100%
Drosophila melanogaster 98%Phlebotomus papatasi 98%
0.1
Aedes aegypti 100%
Nilaparvata lugens 98%Hodotermopsis sjoestedti 70%
Apis mellifera 95%Tribolium castaneum 100%
Pediculus humanus 90%
Daphnia pulex 97%
Folsomia candida 42%
Парафилия Crustacea относительно Hexapoda
Onychiurus arcticus 69%
Diaphorina citri 98% Hexapoda
Lepeophtheirus salmonis 44%Artemia franciscana 99%
Homarus americanus 81%
Peracarida 31%
Richtersius coronifer 60%
Litopenaeus vannamei 92%
outgroup
Acanthoscurria gomesiana 70%Mesobuthus gibbosus 31%
Ixodes scapularis 97%Carcinoscorpius rotundicauda 13%
Anoplodactylus eroticus 98%Scutigera coleoptrata 85%
Onychophora 84%
Toxocara canis 82%
Priapulus caudatus 55%
0.50
0.50
Xiphinema index 90%
Echinoderes horni 85%
0.59
0.50
Chelicerata
Myriapoda
Ecd
ysoz
oa б
ез
Art
hrop
oda
Spinochordodes tellinii 19%
Hypsibius dujardini 86%
Caenorhabditis elegans 100%
Collembola
“En
tom
os
tra
ca
”M
ala
co
str
ac
a
Gryllus bimaculatus 100%Locusta migratoria 98%
# rank item obs au np | bp pp kh sh wkh wsh |# 1 а -9.1 0.861 0.616 | 0.612 1.000 0.806 0.994 0.806 0.999 |# 2 б 9.1 0.312 0.118 | 0.115 1e-004 0.194 0.912 0.194 0.761 |# 3 в 9.6 0.298 0.109 | 0.109 7e-005 0.178 0.902 0.178 0.726 |# 4 г 19.2 0.271 0.086 | 0.086 5e-009 0.152 0.830 0.152 0.697 |# 5 д 25.0 0.191 0.038 | 0.040 1e-011 0.117 0.771 0.117 0.644 |# 6 е 25.2 0.172 0.034 | 0.035 1e-011 0.115 0.765 0.115 0.622 |# 7 ж 35.1 0.021 0.002 | 0.002 6e-016 0.016 0.636 0.016 0.126 |# 8 з 40.9 0.014 0.001 | 0.001 2e-018 0.016 0.574 0.016 0.151 |# 9 и 41.4 0.017 0.001 | 0.001 1e-018 0.015 0.569 0.015 0.144 |# 10 - 140.0 1e-007 2e-007 | 0 2e-061 0 0.054 0 6e-005 |
Malacostraca
Hexapoda
Maxillopoda
MyriapodaChelicerata
Branchiopoda
outgroup MalacostracaHexapoda
Maxillopoda
MyriapodaChelicerata
Branchiopoda
outgroup
Malacostraca
Hexapoda
Maxillopoda
MyriapodaChelicerata
Branchiopoda
outgroup
Malacostraca
HexapodaMaxillopoda
MyriapodaChelicerata
Branchiopoda
outgroup
MalacostracaHexapoda
Maxillopoda
MyriapodaChelicerata
Branchiopoda
outgroup
Malacostraca
HexapodaMaxillopoda
MyriapodaChelicerata
Branchiopoda
outgroup
Malacostraca
Hexapoda
Maxillopoda
MyriapodaChelicerata
Branchiopoda
outgroup
MalacostracaHexapoda
Maxillopoda
MyriapodaChelicerata
Branchiopoda
outgroup
Malacostraca
HexapodaMaxillopoda
MyriapodaChelicerata
Branchiopoda
outgroup
а б в
г д е
ж з и
к
Длина Числодеревьев деревьев
2689 1 2690 4 2691 4 2692 10 2693 27 2694 51 2695 113 2696 189 2697 344 2698 517 2699 933 2700 1448 2701 2260 2702 >2850
MP
BP
минимальная длина ветви
“Scolecida”
Ecdysozoa
133 белоккодирующих генов (31 089 позиций аминокислотного выравнивания)
Baurain et al.
Lack of resolution in the animal phylogeny: Closely spaced cladogeneses or undetected systematic errors? Mol. Biol. Evol. 24(1):6–9. (2007)
133 protein-coding genes (31,089 amino acid positions)
133 белок-кодирующих генов
(31,089 позиций аминокислотного выравнивания)
Рис. 15. Дистанционное NJ дерево рабдитидных нематод в присутствие составной внешней группы. Дерево выведено программой TREECON с коррекцией на гетерогенность скоростей, значение параметра p = 0,49 определено по результатам пяти итераций с учетом инвариантных сайтов.
0.1
CNIDARIA (Atolla) GASTROTRICA (Chaetonotusi
NEMATOMORPHA (Gordius) Longidorus
Paracantonchus Desmodora
Daptonema Cylindrolaimus
Myolaimus Rhabditoides inermiformis
Cuticularia
Diplogaster
Rhabditiodes regina
Haemonchus
Pelodera teres
Caenorhabditis elegans
PRIAPULIDA (Priapulus)
Cruznema
Steinernema
Pellioditis marina Pellioditis typica
Protorhabditis Diploscapter
Teratorhabditis Mesorhabditis
Pelodera strongyloides
Pelodera punctata Rhabditioides inermis Brevibucca
Zeldia Meloidogyne
Strongyloides Panagrolaimus
Teratocephalus Plectus Ascaris
Gnathostoma
Prismatolaimus Trichodorus
Trefusia Enoplus
ARTHROPODA (Craterostigma) TARDIGRADA (Macrobiotus)
ROTIFERA (Brachious) ANNELIDA (Glycera)
100 58
74
98
92 65
98 64
98
50 62
60
68
100
97
85
54
64
80
52
59
100
86
100
61
63
76
100
100
94
66
Joe Felsenstein
Felsenstein J. 1978. Cases in which parsimony or compatibility methods will be positively misleading. Syst. Zool. V. 27. № 4. P. 401-410.
Эффект притяжения длинных ветвей (по: Felsenstein, 1978). (а) Схема возникновения неправильного объединения на бескорневом дереве. При вероятности мутации p, меньшей q2, метод максимальной экономии дает устойчивое объединение неродственных длинных ветвей (1 и 3). (b) На корневом дереве внешняя группа 1 притягивает к себе длинную ветвь 3, маскируя её длину и затрудняя распознавание. При этом нарушается топология дерева.
Условия притяжения длинных ветвей (Long Branch Attraction)
Число признаков не является параметром!
Acyrthosiphon pisum 100%
Drosophila melanogaster 98%Phlebotomus papatasi 98%
0.1
Aedes aegypti 100%
Nilaparvata lugens 98%Hodotermopsis sjoestedti 70%
Apis mellifera 95%Tribolium castaneum 100%
Pediculus humanus 90%
Daphnia pulex 97%
Folsomia candida 42%
Парафилия Crustacea относительно Hexapoda
Onychiurus arcticus 69%
Diaphorina citri 98% Hexapoda
Lepeophtheirus salmonis 44%Artemia franciscana 99%
Homarus americanus 81%
Peracarida 31%
Richtersius coronifer 60%
Litopenaeus vannamei 92%
outgroup
Acanthoscurria gomesiana 70%Mesobuthus gibbosus 31%
Ixodes scapularis 97%Carcinoscorpius rotundicauda 13%
Anoplodactylus eroticus 98%Scutigera coleoptrata 85%
Onychophora 84%
Toxocara canis 82%
Priapulus caudatus 55%
0.50
0.50
Xiphinema index 90%
Echinoderes horni 85%
0.59
0.50
Chelicerata
Myriapoda
Ecd
ysoz
oa б
ез
Art
hrop
oda
Spinochordodes tellinii 19%
Hypsibius dujardini 86%
Caenorhabditis elegans 100%
Collembola
“En
tom
os
tra
ca
”M
ala
co
str
ac
a
Gryllus bimaculatus 100%Locusta migratoria 98%
Huelsenbeck et al. (1996: Figs 2 and 3)
Монофилию многоклеточных и воротничковых жгутиконосцев выявить ТРУДНО
Монофилию Holozoa выявить ЛЕГКО
outgroup
Ctenophora
Bilateria
Dunn et al. Nature, 452, (2008)
PoriferaCnidaria
150 белоккодирующих генов
PlacozoaPorifera: Homoscleromorpha
outgroup
Ctenophora
Bilateria
Porifera: Demospongia
Cnidaria
1487 белоккодирующих генов
Hejnol et al. Proc. R. Soc. B, (2009)
outgroup
Placozoa
Bilateria
Srivastava et al., Nature, 454, (2008)
Porifera
Cnidaria
104 белоккодирующих гена
outgroup
Placozoa
Bilateria
Sierwater et al., PLoS Biol, 7:1, (2009)
Porifera
CnidariaCtenophora
51 генов (РНК- и белоккодирующие гены)
outgroup
Placozoa
Bilateria
Pick et al., Mol. Biol. Evol., 27:1983-1987, (2010)
Porifera
CnidariaCtenophora
150 белоккодирующих генов
o
A
G
C
CUGGU U GAUCCUGCCAGUA
GUCAUAUCU
UG
UC U C A A
AG
AUUA
AGCCAUGC A U
GUC
UA A
GU
AC
A CACUGAUU
AAU
AG
UGAAG
CUG
U
GA
AU
GGCUC
AU
UAC
AA
CAGC
CGU A
GUUU
AU
UUGA U U U A U AGA
GU
UACACGG
AU ACCUGUGGUA
ACCUAA
GAGC
UAAUA
CA
CG
CA
AUUAAGU
CC A
GA
CCUCAC
GGA
AC
GGACGCG
GU
UA
UUAGA
CCAAAAC
CA
AUCG
GG
CUUGC
CCGG
UUUUUU
GG
UGACU
CUG AAU
AA
CU
CUGCAGAUCGC
ACGGUCC
UCGCACCGGCGA
CA
UG
UCAU
UCA
AAUG
UCUGC
CUUAUCAACU
UUCG
AUGGUAGUUUAUGCGCCUACCAU GGU
UGUA
ACGGGUAACGGAGAAUUA
GGGUUCGAC
UCCGGAG
AGGGAGC
CUGAGAAACG
GCUACCACAUCC
AAGGAAG
GCAGCAGGCACGCA
AA
UUA
CC
CACU
CC
CAAU
ACG
GGGA G
GU
AG
UG
AC
GA
AA
AA
UA
A
CG
AG
AC
GG
UU
CU
CAAAG
AGG
CCCG
UCAU
CG
GAAU
GG
GUACAAU
UUAAAUCCUU
UAAC
GAGG A U C U A UUGGAGGGC
A
A
G
U CUGGUGC
CAGCAGCCGCGGU
AAUUCCAG
CUCCAA
U
AGCGUAUAUUAAAGUUGU
UG
CG
UUUA
AA
AAGCUC
GUAGUU
GGA
UCUGCG
CCUUAGGUU
UGCGGUCC
CC
UAACGGGAGGUA
CU
GCUUUACC
UGGGCUUAUCCU
CC
GG
U
UUU
CC
CU
UGG
UG
CU
CU
UUACCG
AGUGCUCUG
GGUG
ACUGGAACU
UUUA
CU
UUGAAA
AA
AU
UAG A GU
G CUCAAAGC
AGGCGUCA
GCCUGAAUA
G
U
GG U
G
C
A
UGGAAUA A
UA A A AA
AG
GA
CU
UC
GG
UU
CU
AUUUUG
U
UG
G U U UU
C
GG
AAC
AG
AAG
U A A U G AUUAAG
AGGGACAGA
CGGGG
GCA
UUC
GUAU
UG
CG
AC
GUUAG
AGG
UG
AAAU
UC
UUGGAU
CG
UCG
CAAG
ACGU A C U AU
UGCG
GAAGC
AUUUGCCA
AGA
AUGUUUUCA
UU
A AUC A A
GA ACG
AAAGUUAGAGG
UU CGAAG
GCGA
UC
AGAUACC
GCCC
UAG
UUCUAACCGUAAACGAUG
CCA
G CU
AGCG
AUCCGCGG
GAG
UUA
GAUAU
AUGAC
UU
CGCGGGC
AGCUUCCGGGA
AACCAAAGC
GU
UUGG
GUUC
CG
GG
G
G A
AG
UAU
GG
UUGCA
AAU
CU
GAAA
CU
UA
AAGGA
A UUGAC
GGA AGGGCA
CC
AC C A G
GAG
UGGA
GC
CU
GC
GG
CU
UAAUU
UGA
CUCAACGC
GG
GGAAACU
CAC
CCGGCCCG
GAC
AC
CGUA
AGGA
UU
GA
CA
GAUU
GAGAG
CU
CU
UU
CUU
GAU
U CG
GUG G U
UGGUGGU
G CAU
GGCCGUUCUU
A
GUUG
GUGGAG
CGAUUUG
UC
UGGUU
AAUUCCG
AUAACG
A ACG
A G ACUC
U A GCCU
ACUA A
ACUAG
G C AGCA A AUUU
UG
UUGUUUGUUGAA
CUUC
UUAGAGGGACAGAGGGUU
UCUA
GC
CC
UACGAG
AUUGA
GC
AAUAACAGGUCUG
UGAUGCCCU
UAG
AU
GUUCGGG G
C
C
GCA
CG
CG
CG
CU
AC A C U
GAAGGAAUC
AGCGAGCAU
G A A A A CCUUGUCCGGAAGGACUGGG
UA
ACCCGU
UGAAAC
UCCUUCG
UGCUUGG
GA
UAG
GG
AUUUGCA
AUUAUCU
CC
CUUGAAC
GA
GGAA
UU
CC
UA
G
U
A
AAUGUGGGUCA
UCAUCUCGCGUUGAUUAC
GU
CCCUGCCCUUUGU
ACA
CACCGCCCG
UCG
CUACUACCGA
UUGGAUGAUUUAGUGA
GGCCCUCG GACUGGU
GCCGAUGCGGUUUAGC
ACUGCGUCGGUUUCCGGAA
AGACGGCCUA
ACUUGAUCAUUUAGAGGAAGUA
AA
AG
UC
GU
AA
CA
AG
GUUUCCGUAGGU
GAACCUGCAGAAG
GA
UC
Ao
oo
o
1
2
3
4
5
6
7
8
9
10
E10_1
11
12
13
14
1516
17
18
1920
21
22
23
E23_1E23_4
E23_7
E23_8
E23_9
E23_10
E23_11
E23_12E23_13 E23_14
24
25
26
27
28
29
30
31
32
33
3435
36
37
38
39
40
41 42 43
44
45
46
47
48
49
50
18S рРНК Enoplus brevis U88336
UPGMA – Uweighted Pair Group Method using Arithmetic averages (невзвешенный парно-групповой метод с арифметическим усреднением)
Если гипотеза молекулярных часов правильно описывает эволюцию, то правильно построенное дерево будет не только аддитивным, но будет выполнено дополнительное, более строгое условие: в дереве будет точка (корень), равноудаленная от всех висячих вершин. Такое дерево называют ультраметрическим.
Все пути по ультраметрическому дереву (ориентированному графу) к любым висячим вершинам, выходящие из любого внутреннего узла, также будут равны (все современные виды прошли в точности одинаковое расстояние от их общего предка). Если в таком дереве взять за точку отсчета вид (висячую вершину), не принадлежащую к некоторой подгруппе (поддереву), то расстояние от него до всех видов подгруппы должно быть в точности одинаковым (тест относительной скорости (Sarich, Wilson, 1973).
Понятие ультраметричности относится не только к дереву, но и к данным. Если для любой тройки ОТЕ расстояния в матрице либо все равны, либо два равны, а третье меньше, то матрица ультраметрическая. Доказано, что по ультраметрической матрице всегда можно построить ультраметрическое дерево.
таксон A таксон B
таксон AB таксон X
OTE Y
0
1
2
3
4
1 2 4 5 6 7 3 8 10 9
Тест относительной скорости на соотвествие эволюции гипотезе молекулярных часов
0,1
b
x
a c
d
D
C A
B dAB + dCD < dAC + dBD
dAB + dCD < dAD + dBC
+ = + dAD dBC dAC dBD
Условие «четырех точек»
Условие «четырех точек» позволяет находить соседние ОТЕ на дереве, несмотря на то, что расстояние между ними не минимальное. Расстояния между ОТЕ известны из матрицы, но заранее не известно, какие ОТЕ соседние. Длина пути между ОТЕ в аддитивном дереве равна значениям в матрице парных расстояний. Сравним суммы расстояний между двумя парами ОТЕ, согласно правилу, понятному из приведенной записи. Следуя этому правилу, из четырех ОТЕ (и шести парных дистанций в матрице) можно составить три пары для суммирования. Пусть А и В соседние (см. рис.), тогда известное расстояние dAB между ними в дереве представлено в виде суммы отрезков a и b. Аналогично, известное расстояние dAC между видами A и C – это в дереве сумма отрезков a, x, c. Если в сумму войдет дистанция между А и В – парой соседних ОТЕ, то, согласно выбранному правилу, другим слагаемым (dCD) автоматически окажется тоже дистанция между парой (другой) соседних между собой ОТЕ. Такая сумма будет меньше, чем сумма расстояний между ОТЕ, не являющихся соседними, так как в последнюю, к сумме длин ребер, ведущих в висячим вершинам, добавляется удвоенная длина внутреннего ребра x. Сумма двух пар дистаниций между ОТЕ, не являющимися соседними, будет, как легко в этом убедиться, одинаковая. Метод UPGMA объединил бы ОТЕ A и C, поскольку между ними минимальное расстояние, но такая топология не удовлетворяет условию «четырех точек». Применяя это условие, можно не только найти правильную топологию, но и, при условии аддитивности, однозначно вычислить длины всех ребер дерева. Поскольку получаемое при этой процедуре дерево бескорневое, из него нельзя сделать вывод, что, например, соседние ОТЕ A и B сестринские. Для такой филогенетической интерпретации недостаточно данных, именно, не указано положение корня, которое необходимо установить дополнительными методами. Если корень не попадет на отрезки a и b, то A и B будут сестринскими. При любом из 5 возможных положений корня (по числу ребер на дереве) OTE, например, A и C сестринскими не будут (по: Li, 1997).
A A
AA
B B
B B
C C
C C
D D
D D
E E
E E
а б в
г ед
A B C D E FF
FA B C D E F F
F
Деревья с мультифуркациями: примеры совместимых и несовместимых деревьев.
Дерево а совместимо с любым из деревеьев б, в, г, д; из последних совместимы только б и в; дерево г совместимо с тремя не изображенными бинарными деревьями, а дерево е не совместимо ни с каким другим на рис. 6.
A B D E F A C D E F A E D F
а б в
GH H H
Расширение понятия совместимости на деревья с частично несовпадающим набором ОТЕ.
После исключения специфических ОТЕ B, C, G деревья, производные от а и б, приобретут идентичную топологию; с деревом, производным от в, этого не произойдет.