第五章 种群历史和动态
DESCRIPTION
第五章 种群历史和动态. 统计量. Statistic is anything that can be calculated from the data. 溯祖模拟和置信区间. 除了估计参数外,还需要给出置信区间。. A 95% confidence interval is an interval that contains the true value of the parameter With 95% probability. 进化树. 最大简约法 距离法 最大似然法和贝叶斯法. 最大简约法. 能够用最小突变来解释 DNA 序列差异。. 距离法. - PowerPoint PPT PresentationTRANSCRIPT
第五章 种群历史和动态
统计量 Statistic is anything that can be
calculated from the data.
AEST NHF ,,,
溯祖模拟和置信区间 除了估计参数外,还需要给出置信区间。
AA Aa aasample1 12 22 6sample2 32 6 2
A 95% confidence interval is an interval that contains the true value of the parameterWith 95% probability.
进化树 最大简约法 距离法 最大似然法和贝叶斯法
最大简约法 能够用最小突变来解释 DNA 序列差异。
距离法不需要推出所有的树,然后找到最好的树。
最大似然法 XPr 给定模型参数的条件下,得到数据的概率。
如果数据量够大,且模型正确,似然法可首选。
假设:无限位点模型,两条序列,三个核苷酸变异θ 似然方程?
贝叶斯法 目标:估测某一个溯祖树是正确的概率。 似然方程和先验分布 The probability of the
parameter given the data 贝叶斯系统发育,最好的树一般是后验概率最高的树。
XPr
贝叶斯原理 贝叶斯定理由英国数学家贝叶斯 ( Thomas Bayes 1702-1763
) 发展,用来描述两个条件概率之间的关系,比如 P(A|B) 和 P(B|A) 。按照乘法法则: P(A∩B)=P(A)*P(B|A)=P(B)*P(A|B) ,可以立刻导出: P(B|A)=P(A|B)*P(B)/P(A)
Pr(A) 是 A 的先验概率或边缘概率。之所以称为 " 先验 " 是因为它不考虑任何 B 方面的因素。
Pr(A|B) 是已知 B 发生后 A 的条件概率,也由于得自 B 的取值而被称作 A的后验概率。
Pr(B|A) 是已知 A 发生后 B 的条件概率,也由于得自 A 的取值而被称作 B的后验概率。 Pr(B) 是 B 的先验概率或边缘概率,也作标准化常量( normalized
constant )。
实例 1 如果一个人的基因型是 A1A2 ,那么他把 A1 基因传给后代的概率?
如果一个人向后代传递 A1 ,那么他的基因型是A1A2 的概率?
5.0
2PrPrPr
Pr21
1211211
pqpq
AAAAAA
AAA
q
ppq
AAAAAA
AAA
5.02
PrPrPr
Pr1
21121121
实例 2 溯祖模型,无限位点模型,如果两条基因序列相同,共祖时间的后验分布?
11
110Pr
0PrPr0Pr t
tt
eeeS
tTStSt
基因树和物种树
如果分化时间很长,祖先有效群体较小
分化时间约等于共祖时间
如果分化时间很短,祖先有效群体较大
分化时间小于共祖时间
Incomplete lineage sorting
Reciprocal monophyly
如果内部支系小于祖先有效群体大小,基因树与物种树不等。
基因树≠物种树 Incomplete lineage sorting Estimation uncertainty Horizontal gene transfer Gene duplication or loss
解读树
似然值和 Felsenstein equationCoalescence trees
the probability of the data given a particular tree
The distribution of coalescence treesGiven the parameters.
MCMC 和 Bayesian 法 模拟的方法评价所有的树,前提是这些树穷尽了所有可能性。 似然方程的求解:直接 Ewens sampling
formula; 贝叶斯法。 Approximate Bayesian computation: 只利用一部分数据信息。
重组 不同位点之间发生重组,不同位点间的溯祖树会不同。 意味着目前的理论和方法是不适合核基因的任何区段,但线粒体和 Y 染色体除外。 以建树为基础的分析方法不适合诸如 SNP 等数据,可以利用一些不用假设“所有位点共有一个溯祖树”的方法,如 SFS.
Population assignment, clustering and admixture
Match probability 如果一个体在某位点的基因型 AA ,种群 1 中
match probability , 种群 2 中
计算这个个体来自种群 1 或种群 2 的概率?
当有多个位点参与,即便位点间等位基因频率差别很小,也可以很准确的对个体分组。 如果个体的遗传组成来源多个种群,称为
admixed.
Chloroplast fragment
sequrncing length
sequrncing length(no
gap)variation
sitestrnHGUG-psbA 237-332 228 9rpL16 875-892 872 12
trnLUAA-trnFGAA 796-809 795 10trnSGCU-trnGUUC 689-779 682 11
sum:2577 sum:42
主成分分析 (Principle Component Analysis)
Principal Coordinates (PCoA)
Pop1Pop2Pop3
Coord. 1
Coor
d. 2