第四章 计算生物学研究方法计算生物学研究方法 i · 中级层面...

51
计算生物学研究方法 计算生物学研究方法 I 计算生物学研究方法 计算生物学研究方法 I § §41 41 计算生物学 计算生物学/生物信息学 生物信息学 § §4.1 4.1 计算生物学 计算生物学/生物信息学 生物信息学 的三个层面 的三个层面 初级层面 的三个层面 的三个层面 基于现有的生物信息数据库和资源,利用成熟的计算生物学 和生物信息学工具(专业网站、软件)解决生物学问题 ——生物信息数据库NCBIEBIPDB等) ——基因组序列分析、序列比对软件GCGBLASTCLUSTALCLUSTAL——转录组数据分析软件BowtieBLAT)、代谢组数据分析 软件SIMCA P软件SIMCA-P——系统发育树构造软件PHYLIPPALM等) 分子动力学模拟软件GROMACS NAMD——分子动力学模拟软件GROMACSNAMD——搜集、整理有特色的生物学数据集

Upload: others

Post on 09-Oct-2020

39 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 第四章 计算生物学研究方法计算生物学研究方法 I · 中级层面 利用数理统计方法、数值计算方法和相关的工具,研究计 算生物学和生物信息学问题

第第 章章第第四四章章

计算生物学研究方法计算生物学研究方法 II计算生物学研究方法计算生物学研究方法 II

§§4 14 1 计算生物学计算生物学//生物信息学生物信息学§§4.1 4.1 计算生物学计算生物学//生物信息学生物信息学的三个层面的三个层面

初级层面的三个层面的三个层面

基于现有的生物信息数据库和资源,利用成熟的计算生物学和生物信息学工具(专业网站、软件)解决生物学问题——生物信息数据库(NCBI、EBI、PDB等)

——基因组序列分析、序列比对软件(GCG、BLAST、CLUSTAL等)CLUSTAL等)

——转录组数据分析软件(Bowtie、BLAT)、代谢组数据分析软件(SIMCA P)软件(SIMCA-P)

——系统发育树构造软件(PHYLIP、PALM等)

分子动力学模拟软件(GROMACS NAMD等)——分子动力学模拟软件(GROMACS、NAMD等)

——搜集、整理有特色的生物学数据集

Page 2: 第四章 计算生物学研究方法计算生物学研究方法 I · 中级层面 利用数理统计方法、数值计算方法和相关的工具,研究计 算生物学和生物信息学问题

中级层面利用数理统计方法、数值计算方法和相关的工具,研究计算生物学和生物信息学问题

——概率、数理统计基础

科学计算基础——科学计算基础

——现有的数理统计和科学计算工具(EXCEL、SPSS、SAS、MATLAB等)MATLAB等)

——建立有特色的生物学数据库

高级层面提出有重要意义的计算生物学和生物信息学问题;自主创新,发展新型方法,开发新型工具,引领计算生物学和生物信息学领域研究方向。

——面向生物学领域,解决生物学问题,wet & dry lab-面向生物学领域,解决生物学问题,we & d y bbased,关键是获得和理解特定的生物学数据

——数学、物理、化学、计算科学等思想和方法数学、物理、化学、计算科学等思想和方法

——建立模型,发展算法

——自行编程,开发软件,建立网页(Linux系统、C/C++、PERL、数据库技术)

Page 3: 第四章 计算生物学研究方法计算生物学研究方法 I · 中级层面 利用数理统计方法、数值计算方法和相关的工具,研究计 算生物学和生物信息学问题

系统生物学的研究方法

从事计算生物学与生物信息学研究应具备多方面的科学基础:础:

(1)一定的计算能力,包括相应的软、硬设备。要有各种数据库或者能与国际、国内的数据库系统进行有效的交流。数据库或者能与国际、国内的数据库系统进行有效的交流。要有发达、稳定的互联网络系统;

(2)强有力的创新算法和软件 没有算法创新 计算生物(2)强有力的创新算法和软件。没有算法创新,计算生物学就无法获得持续的发展;

(3)与实验科学 特别是与自动化的大规模高通量的生物(3)与实验科学,特别是与自动化的大规模高通量的生物学研究方法与平台技术建立广泛、紧密的联系。这些技术,既是产生生物信息数据的主要方法,又是验证计算生物学既是产 物信息数据的 要方法,又是验证计算 物学研究结果的关键手段。

必须具备多学科交叉的知识。必须具备多学科交叉的知识。

Page 4: 第四章 计算生物学研究方法计算生物学研究方法 I · 中级层面 利用数理统计方法、数值计算方法和相关的工具,研究计 算生物学和生物信息学问题

§§4 24 2 计算生物学的数学基础计算生物学的数学基础§§4.2 4.2 计算生物学的数学基础计算生物学的数学基础

44.2.1 .2.1 概率基础概率基础

TGACCATGAGCATGAAATTGCCTGGTTCACTGAGCGCTTGACCATGAGCATGAAATTGCCTGGTTCACTGAGCGCTTGACCATGAGCATGAAATTGCCTGGTTCACTGAGCGCTCTGATAAGAGCTACGAGCACCAGACACCCTTCGAAATTCTGATAAGAGCTACGAGCACCAGACACCCTTCGAAATTCTGATAAGAGCTACGAGCACCAGACACCCTTCGAAATTAAGAGTGCCAAGAAATTTGACACTTTCAAAGGGGAATGAAGAGTGCCAAGAAATTTGACACTTTCAAAGGGGAATGAAGAGTGCCAAGAAATTTGACACTTTCAAAGGGGAATG

“生活中最重要的问题 , 其中绝大多数在实质上只是概率的问题 ”AAGAGTGCCAAGAAATTTGACACTTTCAAAGGGGAATGAAGAGTGCCAAGAAATTTGACACTTTCAAAGGGGAATGAAGAGTGCCAAGAAATTTGACACTTTCAAAGGGGAATG

CCCAAAGTTTGTGTTTCCTCTTAACTCAAAAGTCAAAGTCCCAAAGTTTGTGTTTCCTCTTAACTCAAAAGTCAAAGTCCCAAAGTTTGTGTTTCCTCTTAACTCAAAAGTCAAAGTCATTCAACCACGTGTTGAAAAGAAAAAGACTGAGGGTTCATTCAACCACGTGTTGAAAAGAAAAAGACTGAGGGTTCATTCAACCACGTGTTGAAAAGAAAAAGACTGAGGGTT

只是概率的问题.——Laplace (1749~1827)

(French mathematician and physicist)

TCATGGGGCGTATACGCTCTGTGTACCCTGTTGCATCTCTCATGGGGCGTATACGCTCTGTGTACCCTGTTGCATCTCTCATGGGGCGTATACGCTCTGTGTACCCTGTTGCATCTCCACAGGAGTGTAACAATATGCACTTGTCTACCTTGATGACACAGGAGTGTAACAATATGCACTTGTCTACCTTGATGACACAGGAGTGTAACAATATGCACTTGTCTACCTTGATGA“概率论是生活真正的领路人,如果没有对概率的某种估计 那么我们就寸步难行无所作为 ”AATGTAATCATTGCGATGAAGTTTCATGGCAGACGTGCAATGTAATCATTGCGATGAAGTTTCATGGCAGACGTGCAATGTAATCATTGCGATGAAGTTTCATGGCAGACGTGC

GACTTTCTGAAAGCCACTTGTGAACATTGTGGCACTGAGACTTTCTGAAAGCCACTTGTGAACATTGTGGCACTGAGACTTTCTGAAAGCCACTTGTGAACATTGTGGCACTGAAAATTTAGTTATTGAAGGACCTACTACATGTGGGTACCTAAATTTAGTTATTGAAGGACCTACTACATGTGGGTACCTAAATTTAGTTATTGAAGGACCTACTACATGTGGGTACCT

某种估计, 那么我们就寸步难行,无所作为.”——英国经济学家W. S. Jevons

AAATTTAGTTATTGAAGGACCTACTACATGTGGGTACCTAAATTTAGTTATTGAAGGACCTACTACATGTGGGTACCTAAATTTAGTTATTGAAGGACCTACTACATGTGGGTACCTACCTACTAATGCTGTAGTGAAAATGCCATGTCCTGCCTGACCTACTAATGCTGTAGTGAAAATGCCATGTCCTGCCTGACCTACTAATGCTGTAGTGAAAATGCCATGTCCTGCCTGTCAAGACCCAGAGATTGGACCTGAGCATAGTGTTGCAGTCAAGACCCAGAGATTGGACCTGAGCATAGTGTTGCAGTCAAGACCCAGAGATTGGACCTGAGCATAGTGTTGCAG

“Most of the problems in computational l i ti ll t ti ti l ”ATTATCACAACCACTCAAACATTGAAACTCGACTCCGCAATTATCACAACCACTCAAACATTGAAACTCGACTCCGCAATTATCACAACCACTCAAACATTGAAACTCGACTCCGCA

GTAGGCCTAGGGAGGTAGGACTAGATGTTTTGGAGTAGGCCTAGGGAGGTAGGACTAGATGTTTTGGAGTAGGCCTAGGGAGGTAGGACTAGATGTTTTGGA

sequence analysis are essentially statistical.”“Biological sequence analysis”

Page 5: 第四章 计算生物学研究方法计算生物学研究方法 I · 中级层面 利用数理统计方法、数值计算方法和相关的工具,研究计 算生物学和生物信息学问题

概率(概率(ProbabilityProbability))

GAAAATTTAGTTATTGAAAATTTAGTTATTGAAAATTTAGTTATT

point 1: 1/6point 2: 1/6point 3: 1/6

GAAGGACCTACTACAGAAGGACCTACTACAGAAGGACCTACTACATGTGGGTACCTACCTTGTGGGTACCTACCTTGTGGGTACCTACCTACTAATGCTGTAGTGACTAATGCTGTAGTGACTAATGCTGTAGTG

ppoint 4: 1/6point 5: 1/6point 6: 1/6

ACTAATGCTGTAGTGACTAATGCTGTAGTGACTAATGCTGTAGTGAAAATGCCATGTCCTAAAATGCCATGTCCTAAAATGCCATGTCCTGCCTGTCAAGACCCAGCCTGTCAAGACCCAGCCTGTCAAGACCCA

GGG

p…54162336541…

GCCTGTCAAGACCCAGCCTGTCAAGACCCAGCCTGTCAAGACCCAGAGATTGGACCTGAGGAGATTGGACCTGAGGAGATTGGACCTGAGCATAGTGTTGCAGATCATAGTGTTGCAGATCATAGTGTTGCAGAT“DNA序列”C

AAAGGG

TATCACAACCACTCATATCACAACCACTCATATCACAACCACTCAAACATTGAAACTCGAAACATTGAAACTCGAAACATTGAAACTCGACTCCGCAAGGGAGGCTCCGCAAGGGAGGCTCCGCAAGGGAGG

AAA

DNA 骰子CTCCGCAAGGGAGGCTCCGCAAGGGAGGCTCCGCAAGGGAGGTAGGACTAGATGTTTAGGACTAGATGTTTAGGACTAGATGTT

11))随机试验随机试验 ((random experiment)random experiment)

研究随机现象的基本方法是进行随机试验E 满足:研究随机现象的基本方法是进行随机试验E,满足:

(1)试验的所有可能结果不止一个,且可以事先明确;(2)试验结果的不确定性:不可预言; 随机性(3)试验的重复性:试验的条件可重复实现。 统计规律

GGG …GCATGGCTAA…

CAAA

GGG …GCATGGCTAA…

…ACGCTGCTGA…

点数1~6中的任意之一发生

ACGT中的任意之一发生AC、AG、…中的任意之一发生任意之一发生

Page 6: 第四章 计算生物学研究方法计算生物学研究方法 I · 中级层面 利用数理统计方法、数值计算方法和相关的工具,研究计 算生物学和生物信息学问题

22)基本事件、样本空间)基本事件、样本空间

基本事件基本事件(elementary event)(elementary event) :随机试验E的基本结果基本事件基本事件(elementary event)(elementary event) :随机试验E的基本结果。样本空间样本空间(sample space)(sample space) :全体基本事件组成的集合, = 。 。

(1)完备性:每次试验必出现一个基本事件, 每次 验 事 何(2)互斥性:每次试验只出现一个基本事件,任何两个不同

的基本事件不同时发生(3)最简性:基本事件是最简单的试验结果 不能划分为更(3)最简性:基本事件是最简单的试验结果,不能划分为更简单的情形

全部点数 1 2 3 4 5 6全部点数:1;2;3;4;5;6奇数点数:1;3;5接连两次奇数:11;13;15;31;33;35;51;53;55

33)随机事件、事件域)随机事件、事件域

随机事件随机事件(random event)(random event) A:样本空间的子集,A 。(1)基本事件是最简单的随机事件;(2)随机事件是若干基本事件的集合;(2)随机事件是若干基本事件的集合;(3)若 A,则的发生A的发生;

事件域事件域 ℱ:某个随机试验相关的所有随机事件的集合,是样本空间的子集族。

投掷3次:1;1;5一次随机事件

Page 7: 第四章 计算生物学研究方法计算生物学研究方法 I · 中级层面 利用数理统计方法、数值计算方法和相关的工具,研究计 算生物学和生物信息学问题

44))、频数、频数(Occurrence)(Occurrence)、频率、频率(Frequency)(Frequency)

频数频数 在 次重复试验中 事件A的出现次数 称为事件A的频数频数:在n次重复试验中,事件A的出现次数nA称为事件A的频数

频率频率:f = n / n频率频率:fA= nA / n

频率的性质频率的性质:(1)非负性: fA 0(2)归一性: f =1(3)可加性 若事件A B不同时发生(不相容) 则f(3)可加性:若事件A、B不同时发生(不相容),则fAB =

fA + fB

55))、概率的统计定义、概率的统计定义

频率的稳定性频率的稳定性频率的稳定性频率的稳定性:在大量次数的试验中,在大多数情况下,随着试验次数的增加 随机事件A发生的频率将稳定在某个常数附近加,随机事件A发生的频率将稳定在某个常数附近。

概率的统计定义概率的统计定义:设A是随机事件,由于频率稳定性,在大多数情况下, fA将稳定在某个常数附近,称此常数为事件A的概率,记为P(A)。

概率概率的描述性定义的描述性定义

概率是随机事件发生的可能性大小的数量表示 是定义于事件概率是随机事件发生的可能性大小的数量表示,是定义于事件域ℱ上取值于[0, 1]的函数。

Page 8: 第四章 计算生物学研究方法计算生物学研究方法 I · 中级层面 利用数理统计方法、数值计算方法和相关的工具,研究计 算生物学和生物信息学问题

概率与频率的关系概率与频率的关系频率频率:(1)在一定程度上反映了随机事件发生的可能性;(1)在一定程度上反映了随机事件发生的可能性;(2)依赖于试验本身(试验者)、试验次数。

概率概率概率概率:(1)反映随机事件发生的可能性,是随机事件本身固有的性质(2)不依赖于具体的试验;(2)不依赖于具体的试验;(3)以频率稳定性为基础,并通过大量试验中的频率稳定性

来表现

试验者 n nA fn(A)

历史上的抛掷硬币试验记录历史上的抛掷硬币试验记录试验者 A fn( )

Buffon 4040 2048 0.5080

Pearson 12000 6019 0 5016Pearson 12000 6019 0.5016

Pearson 24000 12012 0.5005

66))、概率的公理化定义、概率的公理化定义(Kolmogorov,1925)

设E是随机试验 为其样本空间 ℱ为事件域 对于每个随设E是随机试验,为其样本空间, ℱ为事件域。对于每个随机事件A ℱ,定义实值函数P(A) (A ℱ)满足(1)非负性: P(A) 0 (A ℱ);(1)非负性: P(A) 0 (A ℱ);(2)归一性: P() = 1;(3)可列可加性:设Ai (i 1)互不相容,即AiAj = (i j),i ( ) i j ( j)则有

11 iii

iAPAP

称P(A) (A ℱ)为随机事件A 的概率。

概率空间 ℱ P(A) 三要素概率空间: 、 ℱ、P(A) 三要素

Page 9: 第四章 计算生物学研究方法计算生物学研究方法 I · 中级层面 利用数理统计方法、数值计算方法和相关的工具,研究计 算生物学和生物信息学问题

概率论作为数学学科,可以学学科,可以而且应该从公理开始建设,理开始建设,和几何、代数的路一样。的路 样。

——Kolmogorovg

(Kolmogorov,1903-1987)( g , - )

44 2 22 2 统计方法基础统计方法基础44.2.2 .2.2 统计方法基础统计方法基础统计学方法在现代科学研究中的重要作用统计学方法在现代科学研究中的重要作用

Page 10: 第四章 计算生物学研究方法计算生物学研究方法 I · 中级层面 利用数理统计方法、数值计算方法和相关的工具,研究计 算生物学和生物信息学问题

统计学方法在现代科学研究中的重要作用统计学方法在现代科学研究中的重要作用

揭示复杂现象、复杂行为和复杂过程的不确定性背后隐含的本质规律隐含的本质规律

(1)研究对象的随机性特性(1)研究对象的随机性特性

(2)随机性的来源:系统的复杂性、方法的局限性

(3)统计学方法的有效性:提供有效的信息、确定决定系统发展变化的因素(条件)定系统发展变化的因素(条件)

(4)有助于认识复杂系统的多层次结构

设Ω, ℱ 为可定义概率函数的可测空间,Φ为其上的一个概率分布族,则称三元组Ω, ℱ, Φ为统计模型(statistical

d l)或统计结构( t ti ti l t t )model)或统计结构(statistical structure)。

设Ω, ℱ, Φ和Ω’, ℱ ’, Φ’为两个统计模型,则称

为它们的乘积模型 记为:

, ,F F

为它们的乘积模型,记为: , , , ,F F

类似地,可以给出n个统计模型的乘积模型。特别地,n个相同统计模型Ω, ℱ, Φ的乘积模型称为重复抽样模型,记为Ω,ℱ, Φn。

乘积模型在实际中相当于独立观察系统,重复抽样模型相当于对一个观测对象进行有限次独立抽样结果的描述。

Page 11: 第四章 计算生物学研究方法计算生物学研究方法 I · 中级层面 利用数理统计方法、数值计算方法和相关的工具,研究计 算生物学和生物信息学问题

随机变量随机变量 XX ( d i bl )( d i bl )

A) A) 随机变量、概率分布随机变量、概率分布

随机变量随机变量 X X (random variable)(random variable)

在自然界中,有些变量在每次观察前,不可能事先确定其取值;经过大量反复观察,其取值又有一定的规律,这种变量称为随随机变量机变量XX。

离散型随机变量离散型随机变量X的所有可能取值是有限个或可列个。

连续型随机变量连续型随机变量最常见的 类非离散型随机变量最常见的一类非离散型随机变量。

概率密度函数概率密度函数与概率分布函数与概率分布函数

对连续型随机变量,考察事件a<X<b的概率。若存在非负的可积函数p(x),使得:对任意的a, b(a<b),都有

b

adxxpbXaP )(

则称p(x)为随机变量X的概率密度函数。概率密度函数。

对所有随机变量X,可以定义以下的概率分布函数概率分布函数F(x):

xdttpxXPxF )( xFxp )(

0)(xpp(x)的性质:

1)( dxxp

p( )的性质

Page 12: 第四章 计算生物学研究方法计算生物学研究方法 I · 中级层面 利用数理统计方法、数值计算方法和相关的工具,研究计 算生物学和生物信息学问题

常用的离散型分布常用的离散型分布

项分布项分布二项分布二项分布((binomial distributionbinomial distribution))

BernoulliBernoulli试验试验:连续n次独立地重复一个试验,每次试验结果只有两个不同BernoulliBernoulli试验试验:连续n次独立地重复 个试验,每次试验结果只有两个不同的结果A、非A,它们出现的概率分别是p、q,且p+q=1。

设n重Bernoulli试验中事件A出现的次数为X 显然X为离散型随机变量设n重Bernoulli试验中事件A出现的次数为X,显然X为离散型随机变量。则X的概率分布为:

nkqpCkXP knkk ,...,2,1,0 nkqpCkXP n ,...,2,1,0称XX服从参数为服从参数为nn, , pp的二项分布的二项分布,记为X~B(n, p)。

kkXP 2100 nkkXP ,...,2,1,00

10

nn

k

knkkn qpqpC

0k

PoissonPoisson分布分布((Poisson distributionPoisson distribution))

设X为离散型随机变量,X的概率分布为:

e k ,...2,1,00,

! k

k

ekXP 为为为,

称XX服从参数为服从参数为的的PoissonPoisson分布分布,记为X~()。

Page 13: 第四章 计算生物学研究方法计算生物学研究方法 I · 中级层面 利用数理统计方法、数值计算方法和相关的工具,研究计 算生物学和生物信息学问题

常用的连续型分布常用的连续型分布均匀分布均匀分布均匀分布均匀分布((uniform distributionuniform distribution))

设X为连续型随机变量,X的概率密度为:设X为连续型随机变量,X的概率密度为:

1

bxaabxp

其它值0

称XX在区间在区间[a b][a b]上服从均匀分布上服从均匀分布 记为X~U(a b)。称XX在区间在区间[a, b][a, b]上服从均匀分布上服从均匀分布,记为X~U(a, b)。

显然有:

ab

xxdxxpxXxP

x

x

1221

2

1

)(其中x1, x2[a, b], x1<x2。其中x1, x2[a, b], x1<x2。

指数分布(指数分布(exponential distributionexponential distribution))

设X为连续型随机变量,X的概率密度为:

为为为其其 00

xe x

为为为其其 0000

x

xexp

称XX服从参数为服从参数为的指数分布的指数分布。

Page 14: 第四章 计算生物学研究方法计算生物学研究方法 I · 中级层面 利用数理统计方法、数值计算方法和相关的工具,研究计 算生物学和生物信息学问题

设随机变量X的概率密度为:

正态分布(正态分布(Normal Normal distributiondistribution))

设随机变量X的概率密度为:

xexp

x2

2

21)(

xexp2

)(

其中 < <+ >0均为常数 称XX服从参数为服从参数为 的正态分布的正态分布 记作其中-<<+ ,>0均为常数。称XX服从参数为服从参数为,,的正态分布的正态分布,记作X~N(X~N(,,22).).:均值; :方差

遵从正态分布的随机变量X,其正态分布函数为:

xt 2

1

=0; 2=1时,称为标准正态分布,记为X~N(0X~N(0,,1)1)。。

xdtexXP

x 22

21)(

0; 1时,称为标准正态分布,记为X N(0X N(0,,1)1)。。

p(x)

1 2

1

68%

95%

99%

+ +2 +3--2-3 x

Page 15: 第四章 计算生物学研究方法计算生物学研究方法 I · 中级层面 利用数理统计方法、数值计算方法和相关的工具,研究计 算生物学和生物信息学问题

海底声纳(sonar)记录的声波由大量的背景噪声组成,在北冰洋这样的背景噪声部分地由冰块的碰撞和拉伸造成。Veith和Wilks(1985年)分析了一组北冰洋海底声波记录数据,发现背景噪声由两类可区分的信号组成:一类符合Gauss分布,一类波 数 景噪声 信对应于大尺度的冲击(波)。

(Veitch J., and Wilks A. (1985). A characterization of Arctic undersea noise J Acoust Soc Amer 77: 989-Arctic undersea noise. J. Acoust. Soc. Amer., 77: 989-999.)

Isochores:人基因组DNA序列核苷酸含量(碱基组分)的Mosaic结构

(Cohen N, Dagan T, Stone L and Graur D. (2005) GC composition of the human genome: in search of isochors, Mol Biol Evol, 22: 1260-1272)

Page 16: 第四章 计算生物学研究方法计算生物学研究方法 I · 中级层面 利用数理统计方法、数值计算方法和相关的工具,研究计 算生物学和生物信息学问题

——当一个量可看成由许多微小、独立的随机因素作用的总后果时,每种因素在正常状态下都不起压倒性的主导作用(故称正态分布正态分布) 一般都服从或近似服从正态分布(故称正态分布正态分布),一般都服从或近似服从正态分布

——正态分布是科学和工程领域数据统计分析研究中最重要正态分布是科学和工程领域数据统计分析研究中最重要的分布,许多统计分析方法的数学前提就是数据遵循某种正态分布

生物现象中有许多变量是服从或近似服从正态分布的。许多统计分析方法都是以正态分布为基础的 此外 还有不少随统计分析方法都是以正态分布为基础的。此外,还有不少随机变量的概率分布在一定条件下以正态分布为其极限分布。因此在统计学中,正态分布无论在理论研究上还是实际应用因此在统计学中,正态分布无论在理论研究上还是实际应用中,均占有重要的地位。

B) B) 随机变量的数字特征随机变量的数字特征

均值均值( )( ) 或或数学期望数学期望( th ti l t ti )( th ti l t ti )均值均值(mean) (mean) 或或数学期望数学期望(mathematical expectation)(mathematical expectation)

离散型随机变量的均值离散型随机变量的均值离散型随机变量的均值离散型随机变量的均值

设离散型随机变量X的分布律为:

,...3,2,1, ipxXP ii

1i

ii pxXE

收敛,则称E(X)为随机变量X的均值均值或数学期望数学期望。收敛,则称E(X)为随机变量X的均值均值或数学期望数学期望。

xi:质点i的坐标;pi: 质点i的质量E(X): 质心坐标E(X): 质心坐标

Page 17: 第四章 计算生物学研究方法计算生物学研究方法 I · 中级层面 利用数理统计方法、数值计算方法和相关的工具,研究计 算生物学和生物信息学问题

连续型随机变量的均值连续型随机变量的均值

设X为连续型随机变量 它的概率密度函数为 ( ) 若设X为连续型随机变量,它的概率密度函数为p(x) ,若

dxxxpXE

dxxxpXE

收敛 则称E(X)为随机变量X的均值均值或数学期望数学期望收敛,则称E(X)为随机变量X的均值均值或数学期望数学期望。

方差方差(variance)(variance)

设随机变量 的均值为 ( ) 则设随机变量X的均值为E(X),则:

XEXEXDX的方差:2

XDX的标准差或均方差:

对于离散型随机变量X 其方差为:对于离散型随机变量X,其方差为:

1

2

iii pXExXD

1i

对于连续型随机变量X,其方差为:

dxxpXExXD 2 dxxpXExXD

Page 18: 第四章 计算生物学研究方法计算生物学研究方法 I · 中级层面 利用数理统计方法、数值计算方法和相关的工具,研究计 算生物学和生物信息学问题

C) C) 总体和样本总体和样本

总体总体XX ( l i )总体总体X X (population)研究对象的某种特征值的全体组成的集合。用X表示。

样本样本X1, X2, …, Xn (sample)在总体中选取部分有代表性的子集称为(随机)样本。一个样本是来自总体X的一组相互独立 同X分布的随机变量一个样本是来自总体X的一组相互独立、同X分布的随机变量。

样本值样本值x1, x2, …, xn1 2 n从总体X随机抽取的一组观测值,常用x1, x2, …, xn来表示样本或样本值。

总体总体参数参数设总体X容量为N,个体取值为xi,i=1, 2, …, N。定义:设总体X容量为N,个体取值为xi,i 1, 2, …, N。定义:

总体均值(population mean): 1 N

ixN

总体方差(population variance)

1i

iN

总体方差(population variance):2 2 2 21 1( ) ( )

N N

i ix xN N

总体标准差(population standard deviation):

1 1i iN N

2s

Page 19: 第四章 计算生物学研究方法计算生物学研究方法 I · 中级层面 利用数理统计方法、数值计算方法和相关的工具,研究计 算生物学和生物信息学问题

随机抽样(random sampling)简称抽样:

从总体X中按照 定的概率抽取若干个体来研究X的取值——从总体X中按照一定的概率抽取若干个体来研究X的取值。

——抽样的理论基础:概率理论、统计学理论抽样的理论基础:概率理论、统计学理论

随机样本(random sample)简称样本:随机样本( p )简称样本

——按照一定的概率从总体X=xi,i=1, 2, …, N中抽取作为总 表 若 个 集合 称为容总体代表的若干个体的集合X1, X2, …, Xn, n<N,称为容量为n的样本。

随机变量 n维随机变量X Xi i=1, 2, …, n

随机变量 维随机变量

D) D) 统计量及其参数估计统计量及其参数估计

统计量统计量统计量统计量(statistical quantity)设X1, X2, …, Xn为总体X的一个样本,g(x1, x2, …, xn)为连续

函数 则称g(x x x ) 为 个统计量函数,则称g(x1, x2, …, xn) 为一个统计量。显然,统计量g(x1, x2, …, xn)也是一个随机变量。

总体总体XX的数字特征的数字特征————参数参数总体均值:刻划总体的平均取值总体方差2:刻划总体取值的分散(涨落)程度

Page 20: 第四章 计算生物学研究方法计算生物学研究方法 I · 中级层面 利用数理统计方法、数值计算方法和相关的工具,研究计 算生物学和生物信息学问题

根据样本值推断总体性质根据样本值推断总体性质————推断统计学推断统计学

n

ixx1

样本均值 :x

in 1

样本方差s:

n 21 n 21

n

ii xx

ns

1

22

11

n

ii xx

ns

1

22 1

显然 样本均值 样本方差都属于统计量

或 (当n较大时)

显然,样本均值、样本方差都属于统计量。

通常用样本均值、样本方差作为总体均值、总体方差的无偏估计量。

无偏估计:当n取得充分大,样本均值、样本方差分别逼近总体均值和总体方差。体方

(Image by MIT Open Course Ware. Based on Gilbert, Norma. Statistics. W.B. Saunders Co.)

Page 21: 第四章 计算生物学研究方法计算生物学研究方法 I · 中级层面 利用数理统计方法、数值计算方法和相关的工具,研究计 算生物学和生物信息学问题

概型化定义

统计概率 古典概率 几何概率

大数定律大数定律

随机现象

大数定律大数定律

随机现象随机变量 中心极限定理中心极限定理

数学工具

分布函数 密度函数 期望特征

公理化定义和理论公理化定义和理论公理化定义和理论公理化定义和理论

E) E) 统计推断的两类问题统计推断的两类问题——参数估计和假设检验参数估计和假设检验

参数估计问题参数估计问题假定总体X的分布函数形式已知,对其中的某些参数进行估计。估计方法:矩估计法、最小二乘法、最大似然法,……

假设检验问题假设检验问题假设检验问题假设检验问题从样本值出发,判断关于总体分布的某种假设是否成立。

假设检验问题举例假设检验问题举例假设检验问题举例假设检验问题举例为验证一硬币是否匀称(即正反两面出现的概率是否相等),做投掷

试验。假定试验结果有以下两个:(1)正面55次,反面45次;(2)正面40次,反面60次。如何判断该硬币是否匀称?

Page 22: 第四章 计算生物学研究方法计算生物学研究方法 I · 中级层面 利用数理统计方法、数值计算方法和相关的工具,研究计 算生物学和生物信息学问题

11、提出原假设(或称零假设)和备选假设(或称对立假设)、提出原假设(或称零假设)和备选假设(或称对立假设)原假设:硬币匀称;备选假设:硬币不匀称

22、指定显著性水平、指定显著性水平(一般取(一般取==0.05, 0.01, …0.05, 0.01, …))值用以衡量(或拒绝)原假设成立所需证据的指标。值越小,否定原假设的条件越高,不容易否定原假设;值越大,否定原假设的条件越低,比较容易否定原假设。

33、构造检验统计量、构造检验统计量WWXi:第i次试验的结果, Xi =1 表示出现正面,Xi =0表示出现反面

100100

1(100 )i

i

Y X

次试验其出现正面的次为

100 (100 )Z Y 次试验其出现反面的次为100 (100 )Z Y 次试验其出现反面的次为

(100 )W Y Z 次试验其出现正反面之差的绝对值( )次试验其出现正反面之差的绝对值

44、进行统计试验、进行统计试验————收集数据、计算检验统计量及显著性概率值收集数据、计算检验统计量及显著性概率值pp假定已知检验统计量W的概率分布性质,如:

04.0硬币20

27.0硬币10

匀匀

匀匀

WPp

WPp

硬币匀匀p

55、根据显著性水平、根据显著性水平值进行判断值进行判断对于第一个试验结果 p=0 27> (=0 05) 故硬币匀称假设成立;对于第一个试验结果,p=0.27> (=0.05),故硬币匀称假设成立;对于第二个试验结果,p=0.04< (=0.05),故硬币匀称假设不成立;

Page 23: 第四章 计算生物学研究方法计算生物学研究方法 I · 中级层面 利用数理统计方法、数值计算方法和相关的工具,研究计 算生物学和生物信息学问题

44.2.3 .2.3 概率模型及几个重要公式概率模型及几个重要公式

11)概率)概率模型(模型(Probabilistic modelProbabilistic model))

描述对象的不同结果具有不同的发生概率。

骰子骰子:p1 , p2 , p3 , p4 , p5 , p6

6

10 ii pp 1i

ii pp

连续抛掷(独立不相关):1 6 3 3 5连续抛掷(独立不相关):1 6 3 3 5

53361 ppppp

DNA序列:4种核苷酸构成的符号序列

氨基酸序列:20种氨基酸构成的符号序列

序列:x1x2…xn

n GGG

i

xxxx inqqqq

1

...21 C

AAAGGG

真实DNA/氨基酸序列?… 基因组DNA序列上A、C、G T的出现概率随机DNA/氨基酸序列?… G、T的出现概率:

pA pC pG pT

Page 24: 第四章 计算生物学研究方法计算生物学研究方法 I · 中级层面 利用数理统计方法、数值计算方法和相关的工具,研究计 算生物学和生物信息学问题

22)条件概率)条件概率((Conditional probabilityConditional probability))

设A、B为试验E的两个事件,且P(B) > 0,称设 为试验 的两个事件,且 ( ) ,称

ABPBAP 联合概率联合概率

为在事件 发生的条件 事件 发生的条件概率

)( BP

BAP 联合概率联合概率

为在事件B发生的条件下,事件A发生的条件概率。

例子:基因组DNA序列上 CpG岛区域的GC含量显著高于非例子:基因组DNA序列上,CpG岛区域的GC含量显著高于非CpG岛区域

33)乘法)乘法公式(公式(Product ruleProduct rule))

设A、B为试验E的两个事件,满足P(A) > 0 、P(B) > 0,则

ABPBAP ABP

ABP )( BP

)( AP

)|()()|()( BAPBPABPAPABP

Page 25: 第四章 计算生物学研究方法计算生物学研究方法 I · 中级层面 利用数理统计方法、数值计算方法和相关的工具,研究计 算生物学和生物信息学问题

44)全概率公式)全概率公式((Marginal probabilityMarginal probability))

设B B B 为试验E的 组事件 满足设B1, B2, …, Bn为试验E的一组事件,满足

jiBB ji )(

Bn

i

j

niBP i

i

,...,2,10)(1

则对任 事件A 有则对任一事件A,有

n

ii BAPBPAP )|()()(i 1

nn

n

iii

n

ii BAPBPABPAP

11)|()()()(

55))BayesBayes公式公式

设B1, B2, …, Bn为试验E的一组事件,满足设 1, 2, , n为试验 的 事件,满足

jiBB ji )(

Bn

ii

1

niBP i ,...,2,10)(

则对任 事件A 满足P(A) > 0 有则对任一事件A,满足P(A) > 0,有

BAPBPABP ii 21)|()()|( ni

BAPBP

BAPBPABP n

jjj

iii ,...,2,1

)|()(

)|()()|(

1

j 1

Page 26: 第四章 计算生物学研究方法计算生物学研究方法 I · 中级层面 利用数理统计方法、数值计算方法和相关的工具,研究计 算生物学和生物信息学问题

似然值似然值

Bayes公式:后验概率公式

先验概率先验概率(Prior probability)

似然值似然值(Likelihood)

BAPBP )|()(

n

jj

iii

BAPBP

BAPBPABP

)|()(

)|()()|(j

jj1

后验概率后验概率(Posterior probability)

Page 27: 第四章 计算生物学研究方法计算生物学研究方法 I · 中级层面 利用数理统计方法、数值计算方法和相关的工具,研究计 算生物学和生物信息学问题

讨论:讨论:如果把事件B看作一个试验结果,把构成样本空间划分的事件组A1, A2, …, An看作导致B发生的各种原因,则Bayes公式用于推测事件B发生的原因

( ) ( | )( | ) i ii n

P A P B AP A B

式用于推测事件B发生的原因。

1( ) ( | )j j

j

P A P B A

P(A ): 完备事件组A 的先验概率 (prior probability)P(Ai): 完备事件组Ai的先验概率 (prior probability)P(B): 事件B的先验概率 (prior probability)P(Ai|B):后验概率 (posterior probability)

1A2A

Bayes概率在机器学习、人工智能、知识发现领域中有极其广泛

B能、知识发现领域中有极其广泛的应用。是生物医学数据分析、生物信息学等的基本方法之一。

3A1nA nA

)例子)例子 某 赌场的骰子某 赌场的骰子66)例子)例子:某一赌场的骰子:某一赌场的骰子

Fair die Loaded diepoint 1: 1/6 point 1: 1/10Fair die

11%%

po : /6point 2: 1/6point 3: 1/6point 4: 1/6

po : / 0point 2: 1/10point 3: 1/10point 4: 1/10

9999%% 11%%point 4: 1/6point 5: 1/6point 6: 1/6

point 4: 1/10point 5: 1/10point 6: 1/2

)|6( fairDP 1667.06/1

)|6( loadedDP

)6( DP

5.02/1

),6( fairDP

),6( l d dDP

165.01667.099.0

005050010 ),6( loadedDP 005.05.001.0

)6(P 170.0005.0165.0),6(),6( loadedfair DPDP

Page 28: 第四章 计算生物学研究方法计算生物学研究方法 I · 中级层面 利用数理统计方法、数值计算方法和相关的工具,研究计 算生物学和生物信息学问题

Bayes公式的应用:根据观察的同一骰子连续掷出的点数,判别来自哪个骰子?

(1)观察的点数序列为“666”时:已知先验概率为:已知先验概率为:

01.0)(99.0)( loadedfair DPDP f

观察点数序列为“666”的似然值:

0046.061

61

61)|'666(' fairDP

666

125.05.05.05.0)|'666(' loadedDP 125.05.05.05.0)|666( loadedDP

观察点数序列为“666”的后验概率(Bayes概率)为:

1 3

79.0990101050

99.061

)'666|'( 33

fairDP

99.06

01.05.0

01.05.0)|(3 21.0

99.06101.05.0

01.05.0)'666|'( 33

loadedDP

(2)观察的点数序列为至少多少个连续的“6”时,可以判定来自作弊的骰子?来自作弊的骰子?

(直接计算分子作比较即可)(直接计算分子作比较即可)

Page 29: 第四章 计算生物学研究方法计算生物学研究方法 I · 中级层面 利用数理统计方法、数值计算方法和相关的工具,研究计 算生物学和生物信息学问题

77)概率)概率模型参数的推断方法之一模型参数的推断方法之一————最大似然值估计最大似然值估计

训练数据集 D(Training set)

频率频率((ff11,, ff22, …,, …, ff ))(Training set) ((ff11, , ff22, …, , …, ffnn))

概率模型参数概率模型参数((pp11, , pp22, …, , …, ppnn))

对于已知的训练数据集 D,我们的目标是构造并确定它的概们的目标是构造并确定它的概率模型参数:

),...,,( 21 npppp

例如对于某一基因组DNA序列: C( , , , )A G Tp p p p p

训练数据集 D 频率频率训练数据集 D(Training set)

频率频率((ff11, , ff22, …, , …, ffnn))

最大似然值估计方法最大似然值估计方法概率模型参数概率模型参数((pp11, , pp22, …, , …, ppnn))

最大似然值估计方法最大似然值估计方法(Maximum likelihood (Maximum likelihood

estimation)estimation)

( )1 2

1 2 ,

( , , . . . , )

( | ) ( , . . . , )a r g m a xn

M Ln

p p p p

p P D p f f f

p

Page 30: 第四章 计算生物学研究方法计算生物学研究方法 I · 中级层面 利用数理统计方法、数值计算方法和相关的工具,研究计 算生物学和生物信息学问题

讨讨 论论训练集的推广性:根据训练集D得到的概率模型参数,能否同样适用于新的数据集?同样适用于新的数据集?

特点:处理训练集数据较完整、数据集较大的情况。

训练集的不足参数的不合理

依靠先验知识进行修正 pseudocount依靠先验知识进行修正 pseudocount

例如:观察的骰子点数序列:1 3 4 2 4 6 2 1 2 22/10 0 2 4/10 0 4 1/10 0 1p1=2/10=0.2 p2=4/10=0.4 p3=1/10=0.1

p4=2/10=0.2 p5 =0 p6=1/10=0.1

125016/20625016/11875016/3125.016/23125.016/51875.016/3 321 ppp

125.016/20625.016/11875.016/3 654 ppp

88)概率)概率模型参数的推断方法之二模型参数的推断方法之二————BayesianBayesian参数估计参数估计

Enough data 最大似然值估计概率模型参数

训练数据集D(Training set)

g概率模型参数

(Training set)

Limited dataBayesian方法估计概率模型参数概率模型参数

基于先验知识基于先验知识

Page 31: 第四章 计算生物学研究方法计算生物学研究方法 I · 中级层面 利用数理统计方法、数值计算方法和相关的工具,研究计 算生物学和生物信息学问题

对于已知的训练数据集D,我们的目标是构造它的概率模型参数数

),...,,( 21 npppp

由Bayes公式,得到计算任一概率模型参数 (p1, p2, …, pn)的后验概率:

)()|()()|(

DP

pDPpPDpP

)()|(

DPp

其中,

ppdpDPpPDP )|()()(

先验估计出合理的概率分布

p

pdpDPpP

pDPpPDpP

)|()()|()()|(

p

如何选取估计值?

MAP估计(Maximum a posterior estimetion):MAP估计(Maximum a posterior estimetion):

)|(maxarg DpPpp

MAP

p

实际上相当于分子取最大值。

注:当(p1, p2, …, p )均匀分布时,等效于ML估计方法。注:当(p1, p2, …, pn)均匀分布时,等效于ML估计方法。

Page 32: 第四章 计算生物学研究方法计算生物学研究方法 I · 中级层面 利用数理统计方法、数值计算方法和相关的工具,研究计 算生物学和生物信息学问题

44.2.4 .2.4 向量、矩阵和线性代数初步向量、矩阵和线性代数初步11)向量)向量

向量向量:向量向量:既有大小又有方向,由模(长度)和方向两个变量来确定。向量是向量空间的成员。向量是向量空间的成员

直观理解直观理解:个向量就是数值的有序序列 X=x x x 一个向量就是数值的有序序列:X=x1, x2, …, xn

一个n维向量就是n维向量空间的一个点。

例:一个基因组序列的碱基含量fA, fC, fG, fT,构成向量F=fA, fC, fG

向量的基本运算向量的基本运算:长度: 2 2 2| |X x x x 加法: X+Y

1 2| | ... nX x x x

数乘: λ·X

内积(点积):i i

i

X Y x y 叉积: e:垂直于X, Y的单位向量

i

sin( , )X Y X Y X Y e

Page 33: 第四章 计算生物学研究方法计算生物学研究方法 I · 中级层面 利用数理统计方法、数值计算方法和相关的工具,研究计 算生物学和生物信息学问题

22)矩阵)矩阵

矩阵矩阵:矩形阵列 排列成行和列的值

11 12 1

21 22 2

...

...N

N

x x x

x x x

矩形阵列,排列成行和列的值 21 22 2...

...N

ij

x x xX

x

x x x

(1)矩阵使得诸多数学、物理问题大为简化

1 2 ...M M MNx x x

( )矩阵使得诸多数学 物 问题大为简化(2)矩阵使得线性代数方程组、线性微分方程组、以及偏微分方程的数值求解问题大为简化

矩阵的基本运算矩阵的基本运算:

矩阵相加(减) 仅当二者行数 列数均相等时才有意义矩阵相加(减):仅当二者行数、列数均相等时才有意义

ij ij ij ijX Y x y x y 矩阵的数乘:

ij ij ij ij

X x ijX x 矩阵的乘法:X为M行N列,Y为N行K列,乘法得到的Z为M

行K列

k k kZ XY x y x y z mn nk mn nk mk

n

Z XY x y x y z

矩阵的转置:行列进行交换矩阵的转 行列进行交换

Page 34: 第四章 计算生物学研究方法计算生物学研究方法 I · 中级层面 利用数理统计方法、数值计算方法和相关的工具,研究计 算生物学和生物信息学问题

22)线性变换)线性变换及线性方程组的求解及线性方程组的求解

线性变换和线性方程组的矩阵表示线性变换和线性方程组的矩阵表示线性变换和线性方程组的矩阵表示线性变换和线性方程组的矩阵表示:

11 1 12 2 1 1... N Na x a x a x b

21 1 22 2 2 2...............

N Na x a x a x b AX B

1 1 2 2 ...N N NN N Na x a x a x b

1 1x b 11 12 1

21 22 2

...

...N

N

a a a

a a aA

1 1

2 2,

x b

x bX B

1 2

... ......N N NNa a a

N Nx b

矩阵求逆:相当于矩阵的除法,I为单位矩阵1 1AA A A I AA A A I

矩阵求逆的步骤:初等变换法(略)

求解线性代数方程组:1 11 1

1

A AX IX X A B

X A B

X A B逆矩阵法求解线性代数方程组:

高斯消去法(略)高斯消去法(略)

Page 35: 第四章 计算生物学研究方法计算生物学研究方法 I · 中级层面 利用数理统计方法、数值计算方法和相关的工具,研究计 算生物学和生物信息学问题

44.2.5 .2.5 其它数学基础其它数学基础1 计算方法1、计算方法

误差与近似、插值方法、数据拟合

2、集合论集合的概念、运算

3、微分方程及其数值求解常微分方程(组)与动力学系统、 偏微分方程(组)

4、离散数学基础图论组合数学 论组合数学理论数理逻辑

§§44.3 .3 计算生物学计算生物学//生物信息学方生物信息学方法总览法总览————“降龙十八掌”“降龙十八掌”

Page 36: 第四章 计算生物学研究方法计算生物学研究方法 I · 中级层面 利用数理统计方法、数值计算方法和相关的工具,研究计 算生物学和生物信息学问题

第一式第一式 见龙在田见龙在田(1)

生物信息数据库及其查询生物信息数据库及其查询搜索方法

(Database & searching)

——对分子生物信息数据库的种类以及某些具体数据库的掌握和了解

——从现有数据库中熟练获得需要的数据信息(尤其是二级数据库)

——能熟练地进行数据库查询和数据库搜索(数据库查询系统Entrez、SRS;搜索工具BLAST等)

——数据库技术、互联网技术

第二式第二式 飞龙在天飞龙在天(2)

计算生物学软件和工具的计算生物学软件和工具的应用

(Software & application)

利用成熟的计算生物学工具(专业网站、软件)解决生物学问题

——基因组序列分析、序列比对软件(GCG、BLAST、CLUSTAL等)

——系统发育树构造软件(PHYLIP、PALM等……)

——基因芯片检测分析软件(商业软件ScanArray、Array-Pro等 ……)基因芯片检测分析软件(商业软件 y y 等 )

——分子动力学模拟软件(GROMACS、NAMD等……)

Page 37: 第四章 计算生物学研究方法计算生物学研究方法 I · 中级层面 利用数理统计方法、数值计算方法和相关的工具,研究计 算生物学和生物信息学问题

第三式第三式 鸿渐于陆鸿渐于陆(3)

概率论基础概率论基础

(Probability theory)( y y)

随机事件 概率——随机事件、概率

——随机变量、概率分布

——大数定律、中心极限定理

“Most of the problems in computational sequenceMost of the problems in computational sequence analysis are essentially statistical.”

——“Biological sequence analysis”g q y

第四式第四式 或跃在渊或跃在渊(4)

统计学基础统计学基础

(Statistical methods)( )

——样本和统计量(方差、均值……)

——参数估计、假设检验

——基本的统计分析(方差分析、协方差分析、回归分析)

——常用统计软件的运用(SPSS、SAS)——常用统计软件的运用(SPSS、SAS)

Page 38: 第四章 计算生物学研究方法计算生物学研究方法 I · 中级层面 利用数理统计方法、数值计算方法和相关的工具,研究计 算生物学和生物信息学问题

第五式第五式 羚羊触藩羚羊触藩(5)

基于频率的组分分析方法基于频率的组分分析方法和权重矩阵方法

(Composition analysis & weight matrix method)g )

词汇频率反映具有生物学意义的序列特征——词汇频率反映具有生物学意义的序列特征

——核酸组分、氨基酸组分、密码子使用频率,等……

——k-tuples/k-mers频率分析

——权重矩阵(Weight Matrix)分析

Deciphering a secret message……p g g

《The Gold-Bug》by Edgar Allan Poe published in 1843by Edgar Allan Poe published in 1843

A parchment written by pirate Captain Kidd:

53##+305))6*;4826)4#.)4#):806*;48+8$60))85;53##+305))6*;4826)4#.)4#):806*;48+8$60))85;1#(;:#*8+83(88)5*+;46(88*96*?;8)*#(;485);5*1#(;:#*8+83(88)5*+;46(88*96*?;8)*#(;485);5*( ( ) ( ) ( )( ( ) ( ) ( )+2:*#(;4956*2(5*+2:*#(;4956*2(5*----4)8$8*;4069285);)6+8)4##; 4)8$8*;4069285);)6+8)4##; 1(#9;48081;8:8#1;48#85;4)485+528806*81(#9;1(#9;48081;8:8#1;48#85;4)485+528806*81(#9;1(#9;48081;8:8#1;48#85;4)485+528806 81(#9;1(#9;48081;8:8#1;48#85;4)485+528806 81(#9;48;(48;(88;4(#?34;48)4#161;:188;#?;48;(48;(88;4(#?34;48)4#161;:188;#?;

Page 39: 第四章 计算生物学研究方法计算生物学研究方法 I · 中级层面 利用数理统计方法、数值计算方法和相关的工具,研究计 算生物学和生物信息学问题

5353##+##+305305))))66**THETHE2626))HH##..))HH#)#)::EE0606**THETHE++EE$$6060))))EE55TT11#(#(TT::#*#*EE++EE33((EEEE))55*+*+THTH66((EEEEEE$$6060))))EE55TT11#(#(TT::## EE++EE33((EEEE))55 ++THTH66((EEEE**9696*?*?TETE)*#()*#(THETHE55))TT55*+*+22::*#(*#(THTH956956**22((55** HH))EE$$EE**THTH06920692EE55))TT))66 EE))HH####TT11(#(#99TT**----HH))EE$$EE**THTH06920692EE55))TT))66++EE))HH####TT11(#(#99TTHEHE00EE11TETE::EE##11THETHE##EE55THTH))HEHE55++5252EEEE0606))**EE11(#(#99THETTHET((HETHET((EEEE;;HH(#?(#?33HTHEHTHE))HH##116161TT::11EETEET#?#? TT6161TT::11EETEET#?#? TT“A good glass in the bishop's hostel in the devil's seat forty-onedegrees and thirteen minutes northeast and by north maindegrees and thirteen minutes northeast and by north mainbranch seventh limb east side shoot from the left eye of thedeath's-head a bee line from the tree through the shot fifty feetout.”

权重矩阵分析方法举例——针对序列(核酸、氨基酸等)信号,计算每一位点所使用的词汇(k-mers)频率,频率的偏倚性反映信号的序列特征(sequence pattern)。

——权重矩阵:词汇的频率表S(x, w)权重矩阵 词汇的频率表 ( , )k=1:weight matrix; k>1:weight array

例 人类基因内例:人类基因内含子/外显子剪接位点的序列特征

供体位点 受体位点

分析 R = A or GY = C or UN = A, G, C or U

Page 40: 第四章 计算生物学研究方法计算生物学研究方法 I · 中级层面 利用数理统计方法、数值计算方法和相关的工具,研究计 算生物学和生物信息学问题

供体位点(donor site)单碱基的权重矩阵(k=1):

3 2 1 1 2 3 4 5 6-3 -2 -1 1 2 3 4 5 6A 34.0 60.4 9.2 0.0 0.0 52.6 71.3 7.1 16.0C 36.3 12.9 3.3 0.0 0.0 2.8 7.6 5.5 16.5G 18.3 12.5 80.3 100 0.0 41.9 11.8 81.4 20.9U 11.4 14.2 7.3 0.0 100 2.5 9.3 5.9 46.2

受体位点(acceptor site)单碱基的权重矩阵(k=1):

-14 -13 -12 -11 -10 -9 -8 -7 -6 -5 -4 -3 -2 -1 1

A 9.0 8.4 7.5 6.8 7.6 8.0 9.7 9.2 7.6 7.8 23.7 4.2 100 0.0 23.9

C 31.0 31.0 30.7 29.3 32.6 33.0 37.3 38.5 41.0 35.2 30.9 70.8 0.0 0.0 13.8

G 12.5 11.5 10.6 10.4 11.0 11.3 11.3 8.5 6.6 6.4 21.2 0.3 0.0 100 52.0

U 42.3 44.0 47.0 49.4 49.4 46.3 40.8 42.9 44.5 50.4 24.0 24.6 0.0 0.0 10.4

思考:当考虑多碱基词汇k=2, 3, … 时,权重矩阵的意义?意义?

1、多碱基词汇权重矩阵的优点?

2、多碱基词汇权重矩阵的局限?

Page 41: 第四章 计算生物学研究方法计算生物学研究方法 I · 中级层面 利用数理统计方法、数值计算方法和相关的工具,研究计 算生物学和生物信息学问题

Bayesian打分函数用于剪接位点预测The likelihood that a property value v (of a new structure) is drawn from th li i it i

)'()|()()|()()|()|(

nonsitePnonsitePsitePsiteP

sitePsitePsiteP

the splicing site is:

)()|()()|( nonsitePnonsitePsitePsiteP

)|(l siteP

Score for the overall likelihood of the query sequence being a site is:

volumesassociatedat properties )(

)|(logsiteP

Say we have a sequence S= S1S2…Sn. Then one need to calculate

P(S|splice site)

P(S|background)

Say we have a sequence S S1S2…Sn. Then one need to calculate

( | g )So to look for a donor site in the sequence, we might calculate

第六式第六式 潜龙勿用潜龙勿用(6)

信息论方法信息论方法

(Information method)(Information method)

——信息符号、状态空间(ACGT四种符号,及其所有可能的排列)

信息熵(Sh 1948)

——信息的度量是信息符号出现何种状态的一种不确定性程度,信息的获得要对不确定性进行否定。

——信息熵(Shannon,1948)lo gi i

i

H p p 信息熵H刻画了由 表示的随机试验结果的先验不确定性 或观察——信息熵H刻画了由pi表示的随机试验结果的先验不确定性,或观察

到输出时所获得的信息量。

Page 42: 第四章 计算生物学研究方法计算生物学研究方法 I · 中级层面 利用数理统计方法、数值计算方法和相关的工具,研究计 算生物学和生物信息学问题

Sequence logo:刻画生物序列中的信号保守性(Schneider,1990)

E coli基因起始位点上游区 P aby基因起始位点上游区E. coli基因起始位点上游区 P. aby基因起始位点上游区

第七式第七式 利涉大川利涉大川(7)

期望最大化(EM)方法期望最大化(EM)方法

(Expectation Maximization)( p )——EM算法是一种在不完全数据情况下计算极大似然估计或者后验分布的迭代算法 在每 迭代循环过程中

(Expectation step),在给定完全数据和前一次迭代所得到的参数估计的情 计算完全数据对应的对数似然函数的条件期望 ) 步

的迭代算法。在每一迭代循环过程中交替执行两个步骤:( 1 ) E 步

情况下计算完全数据对应的对数似然函数的条件期望;(2)M步(Maximization step),用极大化似然函数以确定参数的值,并用于下步的迭代。算法在E步和M步之间不断迭代直至收敛。该方法可能会陷入局部极值,收敛速度也不是很快,并且计算很复杂。——适用于具有隐变量的模型和问题,如神经网络模型中的隐节点、HMM模型中的隐状态模型中的隐状态——如Motif识别的MEME方法、HMM中的Baum-Welch算法

Page 43: 第四章 计算生物学研究方法计算生物学研究方法 I · 中级层面 利用数理统计方法、数值计算方法和相关的工具,研究计 算生物学和生物信息学问题

第八式第八式 神龙摆尾神龙摆尾(8)

动态规划方法动态规划方法

(Dynamic Programming)( y g g)

——一种常用的多阶段决策的寻优算法

——基本思想:在状态空间中,根据目标函数,通过递推,求出一条从状态起点到状态终点的最优路径(代价最小的路径)。其策略是将一个问题递归分解为两个规模更小的相似子问题递归分解为两个规模更小的相似子问题。

——动态规划在生物信息学研究中用得最多的方面是DNA序列或者蛋白质序列比对,或应用于隐Markov模型中寻找最优的隐状态序列。质序列比对,或应用于隐Markov模型中寻找最优的隐状态序列。

最短路径问题:最短路径问题:

在HMM方法中的应用 CC GG CC GG应用:

C+C+ G+G+ C+C+ G+G+0 130 13 0 0340 034 0 0120 012 0 00320 0032

BB EE

0.130.13 0.0340.034 0.0120.012 0.00320.0032

CC–– GG–– CC–– GG––0.120.12 0.0100.010 0.0030.003 0.00020.0002

Page 44: 第四章 计算生物学研究方法计算生物学研究方法 I · 中级层面 利用数理统计方法、数值计算方法和相关的工具,研究计 算生物学和生物信息学问题

第九式第九式 密云不雨密云不雨(9)

迭代方法迭代方法

(Iterative method)( )

——不断用变量的旧值递推新值的过程不断用变量的旧值递推新值的过程

——迭代的目的通常是在状态空间找到目标函数收敛的稳定解

在运用模式识别方法时 对系统参数的学习通常要经过迭代来实现——在运用模式识别方法时,对系统参数的学习通常要经过迭代来实现

——迭代必须能够不断逼近稳定解

第十式第十式 突如其来突如其来(10)

回归 拟合 相关性分析回归、拟合、相关性分析、关联分析

(Regression, fitting, correlation & association))

经典的统计分析方法——经典的统计分析方法——Regression: the relation between selected values of x and observed values of y (from which the most probable value of y can be predicted for

l f )any value of x)

——主要目的:描述和预测自变量与因变量间的关系

Page 45: 第四章 计算生物学研究方法计算生物学研究方法 I · 中级层面 利用数理统计方法、数值计算方法和相关的工具,研究计 算生物学和生物信息学问题

第十一式第十一式 双龙取水双龙取水(11)

判别分析方法判别分析方法

(Discriminant analysis)( y )

——用于判别样品所属类型的统计分析方法条件:已知研究对象总体的类别数目及其特征(如:分布规律,或各

类的训练样本)目的:判断未知类别的样本的归属类别目的 判断未知类别的样本的归属类别

——多元判别分析、线性判别分析、非线性判别分析

基因识别 医学诊断 人类考古学——基因识别、医学诊断、人类考古学 ……

第十二式第十二式 鱼跃于渊鱼跃于渊(12)

聚类分析方法聚类分析方法

(Clustering method)(Clustering method)

——聚类分析(群分析)是实用多元统计分析的一个新分支,正处于发展阶段 理论上尚未完善 但应用十分广泛 实质上是 种分类问题 目的阶段。理论上尚未完善,但应用十分广泛。实质上是一种分类问题,目的是建立一种分类方法,将一批数据按照特征的亲疏、相似程度进行分类。——条件:研究对象总体的类别数目未知,也不知总体样本的具体分类情况——目的:通过分析,选定描述个体相似程度的统计量、确定总体分类数目、建立分类方法;对研究对象给出合理的分类。(“物以类聚”是聚类分目 建立分类方法;对研究对象给出合理的分类 ( 物以类聚 是聚类分析的基本出发点 )

Page 46: 第四章 计算生物学研究方法计算生物学研究方法 I · 中级层面 利用数理统计方法、数值计算方法和相关的工具,研究计 算生物学和生物信息学问题

验——定性、经验的分类的局限分类较粗、数据量小、凭借经验

——谱系聚类法(系统聚类法)、动态聚类法、模糊聚类法

——计算生物学中的聚类分析问题:计算生物学中的聚类分析问题:根据DNA芯片获得的基因表达数据进行基因聚类(数据量庞大)蛋白质相互作用网络的分类根据不同物种的大分子序列进行相似性比较并构建系统发育树根据不同物种的大分子序列进行相似性比较并构建系统发育树

XX(1)(1)GibbonGibbon

XX(2)(2)

XX

SymphalangusSymphalangus

HumanHuman XX(3)(3)

XX(4)(4)

HumanHuman

GorillaGorilla

XX(5)(5)ChimpanzeeChimpanzee

第十三式第十三式 震惊百里震惊百里(13)

M k 模型的应用Markov模型的应用

(Markov model)(Markov model)

——Markov过程:从一种状态转移到另一种状态时,过程仅取决于前面n种状态,是一种有序n模型。 n是影响下一个状态选择的状态数。

——最简单的Markov过程是一阶过程,状态的选择完全取决于前一状态,这种选择是依照概率来选择的这种选择是依照概率来选择的。

——状态的选择是概率的,而非确定的。故Markov过程本质上是一种随机过程机过程。

Page 47: 第四章 计算生物学研究方法计算生物学研究方法 I · 中级层面 利用数理统计方法、数值计算方法和相关的工具,研究计 算生物学和生物信息学问题

0.125(1)天气状态:晴

阴阴

0.3750 25 0 625

0.375

晴阴雨

0 5

0.125

0.25 0.625

0 375

0.5 0.375

0.25晴晴

雨雨

某地天气状态的一阶转移概率矩阵

昨天的天气

晴 阴 雨阶转移概率矩阵 晴 阴 雨

今天的天气

晴 0.5 0.25 0.25阴 0.375 0.125 0.375

(2)状态转移矩阵:

天气阴

雨 0.125 0.625 0.375

A GCpG岛区域的1阶Markov过程模型 (s → t)

t A t C t G t Ts A 0 180 0 274 0 426 0 120

C T

s A 0.180 0.274 0.426 0.120s C 0.170 0.368 0.274 0.188s G 0.161 0.339 0.375 0.125s G 0.161 0.339 0.375 0.125s T 0.079 0.355 0.384 0.182

定义:Markov过程由下列参数构成:由下列参数构成:(1)状态:A、C、G、T(2)状态转移矩阵:AA, AC, …的概率大小,记为ast转 st

Page 48: 第四章 计算生物学研究方法计算生物学研究方法 I · 中级层面 利用数理统计方法、数值计算方法和相关的工具,研究计 算生物学和生物信息学问题

第十四式第十四式 损则有孚损则有孚(14)

隐Markov模型方法隐Markov模型方法

(HMM method)( )

——将核苷酸序列看成一个随机序列 DNA序列的不同功能部分在核列,DNA序列的不同功能部分在核苷酸的选用频率上对应着不同的Markov模型。由于这些Markov模

CC GG CC GG型的统计规律是未知的,而HMM能够自动寻找出它们隐藏的统计规律。

C+C+ G+G+ C+C+ G+G+

BB EE0.130.13 0.0340.034 0.0120.012 0.00320.0032

它们隐藏的统计规律对于复杂的DNA序列,HMM必须学习不同的序列结构(类型)的信号。

CC–– GG–– CC–– GG––

BB EE

0.120.12 0.0100.010 0.0030.003 0.00020.0002

列结构(类型)的信号。

隐Markov模型(HMM)

语音识别语音识别(Speech recognition)(Speech recognition)

(HMM)

光字符识别光字符识别(O ti l h t(O ti l h t(Optical character (Optical character

recognition)recognition)

生物序列分析生物序列分析生物序列分析生物序列分析(Biological sequence analysis)(Biological sequence analysis) 生物特征识别生物特征识别

(Biometrics)(Biometrics)

(1)序列比较与搜寻(尤其是多序列比对)(2)基因及信号的识别、预测(包括DNA编码与非编码区的识别、真核基因剪接位点信号识别、非编码区的转录调控信号识别、信号肽识别 )别……)(3)蛋白质二级结构、家族、超家族预测、分类等……

Page 49: 第四章 计算生物学研究方法计算生物学研究方法 I · 中级层面 利用数理统计方法、数值计算方法和相关的工具,研究计 算生物学和生物信息学问题

第十五式第十五式 时乘六龙时乘六龙(15)

感知器与人工神经网络方感知器与人工神经网络方法

(Perceptron & ANN method)method)

——A collection of mathematical models that emulate some of the observed properties of biological nervous systems and draw on the analogies of adaptive biological learning.

The key element of the artificial neural network (ANN)——The key element of the artificial neural network (ANN) model is the structure of the information processing system. It is composed of many highly interconnected processing p y g y p gelements that are analogous to neurons and are tied together with weighted connections that are analogous to synapses.

树突

轴突

突触

Page 50: 第四章 计算生物学研究方法计算生物学研究方法 I · 中级层面 利用数理统计方法、数值计算方法和相关的工具,研究计 算生物学和生物信息学问题

——人工神经网络是对大脑神经网络的模拟,这种模拟既是在功能上的,也是在结构上,与传统的串行计算机有着本质的区别 ANN计算不仅计算速度快 重要的是它更具有智能的区别。ANN计算不仅计算速度快,重要的是它更具有智能。ANN最重要的特征之一就是可以通过样本进行学习。

——ANN方法源于模拟大脑神经元的信息处理和学习过程,但作为一种算法,ANN方法使用的神经元与真实的生物神经元有很大的区别元有很大的区别。

——复杂的ANN是由随时间变化、交互联结的神经元组成的网络 深度学习(D l i )方法本质上是建立在含多网络。深度学习(Deep learning)方法本质上是建立在含多隐层的多层感知器的ANN模型。

——在生物信息学研究中,无论是基因识别还是蛋白质结构预测,ANN算法都取得了比其它方法更为准确的结果。

第十六式第十六式 龙战于野龙战于野(16)

决策树 支持向量机及其决策树、支持向量机及其它模式识别方法

(Decision tree & SVM method)method)

模式识别是在输入样本中寻找特征并识别对象的一种方法——模式识别是在输入样本中寻找特征并识别对象的一种方法。

——模式识别主要有两种方法,一种是根据对象的统计特征进行识别,另种是根据对象的结构特征进行识别 而后者常用的方法为句法识别一种是根据对象的结构特征进行识别,而后者常用的方法为句法识别。

——在基因识别中,对于DNA序列上的功能位点和特征信号的识别常用到模式识别。

Page 51: 第四章 计算生物学研究方法计算生物学研究方法 I · 中级层面 利用数理统计方法、数值计算方法和相关的工具,研究计 算生物学和生物信息学问题

第十七式第十七式 履霜冰至履霜冰至(17)

微分方程的数值方法微分方程的数值方法

(Numerical methods of (differential equations)

——分子动力学模拟:研究生物大分子的构象,主要还是用基于半经验势函数的分子动力学方法 而量子力学则在确定势函数的参数和研究局部性函数的分子动力学方法,而量子力学则在确定势函数的参数和研究局部性质时起作用。对蛋白质进行动力学研究是利用计算机进行模拟实验的基础。

分子动力学 种群动力学 网络动力学得到一组动力学微分方程 要——分子动力学、种群动力学、网络动力学得到一组动力学微分方程,要求得到初值问题的解。

——微分方程的数值求解:有限差分法、有限元法微分方程的数值求解:有限差分法、有限元法

十七式合一十七式合一 亢龙有悔亢龙有悔(18)

最终要诀 各类方法综合最终要诀:各类方法综合运用

All in one!

综合运用不同的研究方法——综合运用不同的研究方法

——始终面向生物学问题

——知识和技能的学习方法

——文献的查阅和阅读方法

——中、英文论文的写作方法中 英文论文的写作方法