第 5 章 基因组信息分析

151
第5第 第第第第第第第 5.1 第第第 第第 5.2 第第第第第第第 5.3 第第第第第第第 5.4 第第第第第第第 5.5 第第第第第第 5.6 第第第第第第第第第第 第第第

Upload: heaton

Post on 12-Jan-2016

92 views

Category:

Documents


0 download

DESCRIPTION

5.1 关于遗传语言 5.2 原核基因组特点 5.3 真核基因组特点 5.4 基因组序列分析 5.5 基因识别方法 5.6 非编码区与分析和调控 元件建模. 第 5 章 基因组信息分析. 第一部分: 搜索遗传语言; 原核、真核基因组特点. 1 、基因组 DNA 的奥秘 遗传信息存贮在 4 种字符组成的核酸序列中 “天书” —— 用遗传语言书写的人类遗传蓝本 包含的信息量巨大 更重要的是目前人类对它了解甚少 天书中只有 4 个字符(碱基 A 、 T 、 G 、 C ) 既没有段落,也没有标点符号 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 第 5 章 基因组信息分析

第 5 章基因组信息分析

5.1 关于遗传语言

5.2 原核基因组特点

5.3 真核基因组特点

5.4 基因组序列分析

5.5 基因识别方法

5.6 非编码区与分析和调控 元件建模

Page 2: 第 5 章 基因组信息分析

第一部分:搜索遗传语言;

原核、真核基因组特点

Page 3: 第 5 章 基因组信息分析

1 、基因组 DNA 的奥秘• 遗传信息存贮在 4 种字符组成的核酸序列中 • “ 天书”——用遗传语言书写的人类遗传蓝本

包含的信息量巨大

更重要的是目前人类对它了解甚少

天书中只有 4 个字符(碱基 A 、 T 、 G 、 C )

既没有段落,也没有标点符号是一个长度为 3×109 的一维序列。

Page 4: 第 5 章 基因组信息分析

• 科学家对这本天书了解最多的部分就是遗传密码

或者说掌握了 DNA 对蛋白质编码的规律

• 关于密码子( 1 )密码子的使用是非随机的

• 如果密码子的第一、第二位碱基是 A 、 U ,

那么第三位将尽可能使用 G 、 C ;反之亦然。• 如果三位都用 G 、 C ,则配对容易,分解难;

三位都用 A 、 U ,则相反。• 一般地说,高表达的基因,要求翻译速度快,

要求密码子和反密码子配对快、分手也快。

Page 5: 第 5 章 基因组信息分析

( 2 )密码子的使用有一定的统计规律

• 对同义密码子的使用存在着偏爱

不同种属偏爱的密码子不同

人类基因组:

密码子第三位取 A 、 U 的情况占 90%

而第三位取 G 、 C 仅占 10%

密码子的使用偏性与基因功能、蛋白质结构相关

Page 6: 第 5 章 基因组信息分析

( 3 )密码子中的密码• 三个碱基的位置与所编码的氨基酸性质存在着联系

例如:• 芳香族氨基酸——以 U 作为第一位碱基• 中间位置碱基的性质与氨基酸是亲疏水性相关

疏水氨基酸的密码子,其第二位碱基是 U

亲水氨基酸的密码子,其第二位碱基是 A

第二位碱基是 G 、 C 的密码子所编码的氨基酸亲水性、疏水性居中。

Page 7: 第 5 章 基因组信息分析

基因组信息人类基因组:• 编码区域只占 1%-3%

•对于非编码序列,尚不清楚其含义或功能•非编码区域对于生命活动具有重要的意义

包括内含子、简单重复序列、移动元件、伪基因

重复序列 :

卫星( satellite ) DNA

小卫星( mini-satellite ) DNA

微卫星( micro-satellite )

顺式调控元件 :

启动子、增强子、沉默子

Page 8: 第 5 章 基因组信息分析

2 、探索遗传语言• 用语言学的方法进行研究

自然语言

计算机程序设计语言

遗传语言

二进制序列 0 、 1 的长程关联性分析结果:

编码区域 ——自然语言

非编码区域 —— 程序设计语言蛋白质编码区域所包含的信息相当于待加工的“数据”

数据经过加工处理以后产生对应的蛋白质;

而非编码区域则相当于“程序”或“指令”,确定如何在时间和空间方面控制基因的表达和蛋白质的合成

Page 9: 第 5 章 基因组信息分析

• 用密码学方法进行研究

是否存在其它密码?

—— 调控信息密码?

—— 蛋白质结构的密码?

• 编码在 DNA 上的一维程序如何在四维时空中控制生命体的生长发育

Page 10: 第 5 章 基因组信息分析

3 、关于生物复杂性

生物的复杂性不仅仅是基因的数目

人类基因约为 30000 个

线虫有 20000 个基因

230000/220000=210000 10≌ 3000

Page 11: 第 5 章 基因组信息分析

4 、基因组计划带来的希望

• 实验数据的积累速度在迅速地增加• 计算机科学和技术也在不断地发展

Page 12: 第 5 章 基因组信息分析

单个基因组分析

基因序列

基因功能

基因的表达调控

基因产物

基因多态性

Page 13: 第 5 章 基因组信息分析

比较基因组分析

物种关系

物种进化

物种起源

Page 14: 第 5 章 基因组信息分析
Page 15: 第 5 章 基因组信息分析

人、鼠基因组比较

人基因组 鼠基因组

鼠染色体上的颜色和数字代表在人染色体上对应的片段 .

老鼠约 75% 的基因与人类相同。

Page 16: 第 5 章 基因组信息分析

SARS 基因组

( Severe Acute Respiratory Syndrome)

Page 17: 第 5 章 基因组信息分析

全基因组核酸搜索结果

Page 18: 第 5 章 基因组信息分析

分段核酸搜索结果

Page 19: 第 5 章 基因组信息分析

全基因组蛋白质搜索结果

Page 20: 第 5 章 基因组信息分析

原核基因组特点 原核生物的遗传物质大都是环状 DNA ,

它们基因组存在固有的特点,可以利用这些特点分辨物种,识别基因。

Page 21: 第 5 章 基因组信息分析

长开放阅读框 开放阅读框 (open reading frame) :结构基因内从起始密码子开始到终止密码子的一段核苷酸区域,其间不存在任何终止密码,可编码完整的多肽链,这一区域被称为开放阅读框。

ORF 表明该区域可能对应于一个原核生物基因的编码序列。

Page 22: 第 5 章 基因组信息分析

长开放阅读框 绝大部分原核生物蛋白质的长度大于 60 个氨

基酸 在大肠杆菌 E.coli 中,蛋白质编码区域平均

长度为 316.8 个密码子,不到 1.8% 的基因的长度小于 60 个密码子

Page 23: 第 5 章 基因组信息分析

原核基因分析的简单原则

若终止密码子出现在非编码核酸序列中,大约每 21个密码子出现一次( 3/64 ) .

如果所有的密码子在随机的核酸序列中以相同的频率出现,则不含终止密码子且长度为 N 个密码子的序列出现的几率为( 61/64 ) N .

长度为 N 的 ORF 的 95% 显著性置信度等价于 5%“ 随机”命中的可能性,即( 61/64 ) N=0.05 ,这里 N 等于 60 ,表示典型长度的 ORF 中密码子的数目。

Page 24: 第 5 章 基因组信息分析

高基因密度 原核基因组中的基因密度非常高 完全测序的细菌和古细菌的基因组数据表明,

其中 85 %到 88 %的核酸序列与基因的编码直接相关。 在大肠杆菌( E.coli )中总共有 4,288 个基因,

平均编码长度为 950bp ,而基因之间的平均间隔长度只有 118bp 。

Page 25: 第 5 章 基因组信息分析

简单的基因结构

原核基因为连续基因,其编码区是一个完整的 DNA 片段。

Page 26: 第 5 章 基因组信息分析

GC 含量 碱基 G 、 C 相对于 A 、 T 的丰度很早就被看作是区

分细菌基因组的特征之一 . 不同的原核生物中, GC 含量( GC content )从 25

% 到 75% ,变化非常大。 大部分细菌是通过从其它生物体大规模获得基因(长

度为几万甚至几十万个核苷酸)而进化的 ( 水平转移 ). 简而言之,许多细菌基因组表现为具有不同 GC 含量

的区域的组合物,这些区域反映了细菌的进化历史。

Page 27: 第 5 章 基因组信息分析

真核基因组特点 基因组规模大 非编码序列大 基因结构复杂 基因转录调控方式复杂 可变剪接 CpG岛 等值区 密码子使用偏性

Page 28: 第 5 章 基因组信息分析

基因组规模 真核细胞的细胞核中一般有多条线性染色体,

而且通常包含每条染色体的双拷贝。 人的基因组总长度超过 30 亿对碱基,而大肠

杆菌的基因组只有 500 多万个碱基。

Page 29: 第 5 章 基因组信息分析

非编码序列巨大 真核生物具有复杂的基因组结构。 编码区域在人类基因组所占的比例不超过 3% 。 其余 97% 是非编码序列,而在非编码序列中,

各种重复序列占了很大一部分。

Page 30: 第 5 章 基因组信息分析

基因结构复杂

Page 31: 第 5 章 基因组信息分析

基因转录调控方式复杂 真核基因的表达涉及多种 RNA 聚合酶。 与原核生物只使用一种由多个蛋白聚合而成的 RNA

聚合酶不同,真核生物至少使用由 8 到 12 个蛋白组成的三种不同类型的 RNA 聚合酶。

RNA 聚合酶 I 和 III 负责转录生成 RNA 分子,这些分子本身执行重要的功能,在所有的真核细胞中需要始终保持相当恒定的水平。

RNA 聚合酶 II专门负责转录编码蛋白质的基因。 RNA 聚合酶 II 识别的启动子序列的多样性反映了区

别基因的复杂程度,即在特定类型的细胞中和在特定的时间,区别哪些基因该表达而哪些基因不该表达。

Page 32: 第 5 章 基因组信息分析

可变剪接 估计有 20%或更多的人类基因因为可变剪接

( alternative splicing )而产生两种或多种不同的 mRNA 序列 .

有一个人类的基因已经被证明,相同的原始转录物可以产生 64 种不同的 mRNA

Page 33: 第 5 章 基因组信息分析

CpG岛 真核生物基因组的 GC 含量的差别没有在原

核生物间观察到的那么明显,但是 CG两联核苷酸(常称作 CpG ,以表明连接两个核苷酸的磷酸二脂键)的出现频率仅为其随机出现的频率的 20% ,而没有发现其它核苷酸对有异常的出现频率。

Page 34: 第 5 章 基因组信息分析

CpG岛 许多人类基因 5’-端的 1~2kb 片段中发现 CpG岛

( CpG island ),此处 CpG 的密度达到随机预测的水平。

人类基因组全长序列的分析结果表明,大约有 45,000 这样的岛,并且有一半左右与已知的管家基因 (housekeeping gene ,指在所有组织和在发育的所有阶段都高水平表达的基因)是有关联的,其余的 CpG岛有许多似乎是和组织特异性基因的启动子相关联的。 CpG岛很少出现在不含基因的区域和那些发生多次突变的基因中。

Page 35: 第 5 章 基因组信息分析
Page 36: 第 5 章 基因组信息分析

等值区 定义:具有一致碱基组成的长区域 特征 :

等值区基因组序列的长度超过 1,000,000 对碱基 虽然不同的等值区其 GC 含量差别显著,但同一

等值区的 GC 含量始终相对均衡 人类基因组大约可以划分为五个不同类型的

等值区 :a) L1 和 L2 ,平均 GC 含量分别为 39% 和 42%(欠 GC)) b) H1 、 H2 和 H3 , GC 含量平均值分别为 46% 、 49% 和 54% ( 丰 GC)

Page 37: 第 5 章 基因组信息分析

密码子使用偏性 每个氨基酸至少对应 1 种密码子,最多有 6

种对应的密码子 不同物种、不同生物体的基因密码子使用存

在着很大的差异 (酵母精氨酸偏好 AGA ,果蝇偏好 CGC)

从生物学基础来看,不同的密码子使用模式的形成可能与基因的 GC 含量有关。

Page 38: 第 5 章 基因组信息分析

基因组序列分析基因组序列分析 DNA 序列分析

——基因序列——基因表达调控信息

寻找基因牵涉到两个方面的工作 :

识别与基因相关的特殊序列信号 预测基因的编码区域 结合两个方面的结果确定基因的位置和结构

基因表达调控信息隐藏在基因的上游区域,在组成上具有一定的特征,可以通过序列分析识别这些特征。

Page 39: 第 5 章 基因组信息分析

5.4.1 5.4.1 基因组序列分析步骤和分析结果评价基因组序列分析步骤和分析结果评价

在 DNA 序列中,除了基因之外,还包含许多其它信息,这些信息大部分与核酸的结构特征相关联,通常决定了 DNA 与蛋白质或者 DNA 与 RNA 的相互作用。

存放这些信息的 DNA 片段称为功能位点 如启动子( Promoter )、基因终止序列( Terminator

sequence )、剪切位点( Splice site )等。

Page 40: 第 5 章 基因组信息分析

发现重复元素

数据库搜索

分析功能位点

序列组成统计分析

综合分析

一个基本的 DNA 序列分析方案

Page 41: 第 5 章 基因组信息分析

功能序列分析的准确性来自于对“功能序列”和“非功能序列”的辨别能力。

两个集合: 训练集( training set )

用于建立完成识别任务的数学模型。

测试集或控制集( control set ) 用于检验所建模型的正确性。

用训练集中实例对预测模型进行训练,使之通过学习后具有正确处理和辨别能力。然后,用模型对测试集中的实例进行“功能”与“非功能”的判断,根据判断结果计算模识别的准确性。

Page 42: 第 5 章 基因组信息分析

收集已知的功能序列和非功能序列实例(这些序列之间是非相关的 )

训练集( training set )

测试集或控制集( control set )

建立完成识别任务的模型 检验所建模型的正确性

对预测模型进行训练,使之通过学习后具有正确处理和辨别能力。

进行“功能”与“非功能”的判断,根据判断结果计算模识别的准确性。

识别“功能序列”和“非功能序列”的过程

Page 43: 第 5 章 基因组信息分析

Sn ——敏感性 Sp——特异性

Tp 是正确识别的功能序列数, Tn 为正确识别的非功能序列数, Fn 是被错误识别为非功能序列的功能序列数, Fp 是被错误识别为功能序列的非功能序列数。

pn

np

np

pn

FT

TS

FT

TS

Page 44: 第 5 章 基因组信息分析

敏感性和特异性的权衡 对于一个实用程序,既要求有较高的敏感性,也要求有较高的特异性。

如果敏感性很高,但特异性比较低,则在实际应用中会产生高比率的假阳性;

相反,如果特异性很高,而敏感性比较低,则会产生高比率的假阴性。

对于敏感性和特异性需要进行权衡,给出综合评价指标。

Page 45: 第 5 章 基因组信息分析

对于一个识别程序准确性可按下式进行综合评价:

另一个综合评介指标为相关系数,其计算计算公式为:

2pn SS

AC

)()()()( nnpppnnp

pnnp

FTFTFTFT

FFTTCC

Page 46: 第 5 章 基因组信息分析

选择训练集和测试集 在检测算法的可行性时,需要从已知的数据中按照不同的方式选择训练集和测试集

测试集的构成非常关键 在不同的测试集上进行测试可能会得到不同的准确性结果,甚至准确性相差很大。

建立标准的功能序列测试集合。 如基因转录剪切位点的测试集合、编码区域的

测试集合等。

Page 47: 第 5 章 基因组信息分析

5.4.2 核苷酸关联分析 对于一个给定的基因组,最简单的计算就是统计 DNA 序列中各类核苷酸出现的频率。

对于随机分布的 DNA 序列,每种核苷酸的出现是均匀分布的 出现频率各为 0.25 。

而真实基因组的核苷酸分布则是非均匀的

Page 48: 第 5 章 基因组信息分析

核苷酸 频率

A 0.3248693727808

C 0.1751306272192

G 0.1751306272192

T 0.3248693727808

酵母基因组核苷酸出现频率

Page 49: 第 5 章 基因组信息分析

在统计过程中,如果同时计算 DNA 的正反两条链,则根据碱基配对原则, A 和 T 、C 和 G 的出现频率相同。

如果仅统计一条链,则虽然 A 和 T 、 C 和G 的出现频率不同,但是非常接近。

Page 50: 第 5 章 基因组信息分析

核苷酸 频率

A 0.344

C 0.155

G 0.157

T 0.343

M.jannaschii 单链核苷酸出现频率

Page 51: 第 5 章 基因组信息分析

基因和其它功能区域在正反两条链上出现的

可能性通常一样

核苷酸出现频率也不应该有偏差

正反两条链在信息的组织结构方面不应该有差别

单链上 A 和 T 、 C 和 G 的出现频率相近。

正反两条链碱基互补的原则

单链上 A和 T、 C和 G的出现频率相近的解释

Page 52: 第 5 章 基因组信息分析

两联核苷酸频率

不同基因组中两个连续核苷酸出现的频率也是不相同的

4 种核苷酸可以组合成 16 种两联核苷酸

Page 53: 第 5 章 基因组信息分析

酵母基因组两联核苷酸频率表

对酵母基因组两联核苷酸的统计结果

其中核苷酸对出现频率最高的达到 0.119

而出现频率最低的只有 0.028

Page 54: 第 5 章 基因组信息分析

令 :

Pij —— 代表两联核苷酸( i , j )的出现频率 Pi —— 代表核苷酸 i 的出现频率 则 : Pij’= Pij/(PiPj) 的值反应核苷酸 i 和 j 的关联关系

如果 Pij’=1 ,则在两个连续的位置上,核苷酸i 和 j 的出现是相对独立的。

关联性分析

Page 55: 第 5 章 基因组信息分析

对于酵母基因组 PA=0.3248

PAA=0.1193

PAA’ =0.1193/ ( 0.3248*0.3248 ) =1.131 > 1

表明在两个连续位置上“ A” 的出现不是独立的,而是相关的。

关联性分析

Page 56: 第 5 章 基因组信息分析

同样,对于相隔一定距离 k ( k 代表核苷酸个数)的两个核苷酸,也可能具有一定的相关性。

假设 Pij(k) 代表核苷酸 j 出现在核苷酸 i 之后第 k个位置的频率,则可定义一个反应统计相关性的互信息 I(k)

I(k)值得大小实际上反应了距离为 k 的两个核苷酸之间的相关性的程度

4

1,2

)(log)()(

ji ji

ijij pp

kpkpkI

Page 57: 第 5 章 基因组信息分析

三联核苷酸——基因密码子 在进行编码区域识别时,常常需要对三联

核苷酸进行统计分析,这实际上是分析密码子的使用偏性。 由于密码子的简并性( degeneracy ),每个

氨基酸至少对应 1 种密码子,最多有 6 种对应的密码子。

在基因中,同义密码子的使用并不是完全一致的。

不同物种、不同生物体的基因密码子使用存在着很大的差异

Page 58: 第 5 章 基因组信息分析

基因密码子的使用与基因编码的蛋白的结构和功能有关,与基因表达的生理功能有着密切的联系

蛋白的三级结构与密码子使用概率有密切的关系 通过对密码子的聚类分析,可以很清晰地将具有不同

三级结构蛋白质的编码基因分成不同的类,而具有相似三级结构蛋白的编码基因则大致聚在同一类中,从而证明基因密码子的使用偏性与蛋白质三级结构具有密切的相关性。

在不同物种中,类型相同的基因具有相近的同义密码子使用偏性 对于同一类型的基因由物种引起的同义密码子使用偏

性的差异较小

Page 59: 第 5 章 基因组信息分析

针对酵母第一染色体的分析结果

Page 60: 第 5 章 基因组信息分析

第二部分 基因识别

Page 61: 第 5 章 基因组信息分析

基因识别 基因识别是生物信息学领域里的一个重

要研究内容 基因识别问题,在近几年受到广泛的重视 当人类基因组研究进入一个系统测序阶段

时,急需可靠自动的基因组序列翻译解释技术,以处理大量已测定的但未知功能或未经注释的 DNA 序列

Page 62: 第 5 章 基因组信息分析

原核基因识别重点在于识别编码区域

Page 63: 第 5 章 基因组信息分析

非翻译区域( untranslated regions, UTR ) 编码区域两端的 DNA ,有一部分被转录,但是不被翻译,这一部分称为非翻译区域

5’UTR--- 基因上游区域的非翻译区域 3’UTR--- 基因下游区域的非翻译区域

Page 64: 第 5 章 基因组信息分析

对于任何给定的核酸序列(单链 DNA或mRNA ),根据密码子的起始位置,可以按照三种方式进行解释。

例如,序列 ATTCGATCGCAA

这三种阅读顺序称为阅读框( reading frames )

CAA

A

ATTCGA TCGATTCGATCGCAA

ATTCGATCGCA

( 1 )

( 3 )( 2 )

Page 65: 第 5 章 基因组信息分析

一个开放阅读框( ORF,open reading frame )是一个没有终止编码的密码子序列。

原核基因识别任务的重点是识别开放阅读框,或者说识别长的编码区域。

Page 66: 第 5 章 基因组信息分析

基于基因密码子特性的识别方法

辨别编码区域与非编码区域的一种方法 是检查终止密码子的出现频率

终止密码子出现的期望次数为: 每 21 个( 64/3 )密码子出现一次终止

密码子

Page 67: 第 5 章 基因组信息分析

基本思想: 如果能够找到一个比较长的序列,其相应

的密码子序列不含终止密码子,则这段序列可能就是编码区域。

基本算法: 扫描给定的 DNA 序列,在三个不同的阅读框中寻找较长的 ORF 。遇到终止密码子以后,回头寻找起始密码子。

这种算法过于简单,不适合于处理短的 ORF 或者交叠的 ORF 。

Page 68: 第 5 章 基因组信息分析

识别编码区域的另一种方法是分析各种密码子出现的频率

将一个随机均匀分布的 DNA 序列翻译成氨基酸序列,则在氨基酸序列中上述 3 种氨基酸出现的比例应该为 6:4:1

例如,亮氨酸、丙氨酸、色氨酸分别有6 个、 4 个和 1 个密码子

但是在真实的氨基酸序列中,上述比例并不正确

这说明 DNA 的编码区域并非随机序列

Page 69: 第 5 章 基因组信息分析

假设在一条 DNA 序列中已经找到所有的 ORF ,那么可以利用密码子频率进一步区分编码 ORF 和非编码 ORF

马尔柯夫链模型

利用这种方法,可以计算一个 ORF 成为编码区域的可能性。

Page 70: 第 5 章 基因组信息分析

一个简单的统计模型假设相继的密码子是独立的,不存在前后依赖关系。

令 fabc代表密码子 abc 在编码区域出现的频率给定序列

a1,b1,c1, a2,b2,c2,…, an+1,bn+1

从密码子 a1b1c1开始的阅读框,其 n 个密码子的出现概率为

nnn cbacbacba fffp ...2211111

Page 71: 第 5 章 基因组信息分析

第二种和第三种阅读框 n 个密码子出现的概率分别为

1322211...2

nnn acbacbacb fffp

11332221...3

nnn bacbacbac fffp

Page 72: 第 5 章 基因组信息分析

第 i 个阅读框成为编码阅读框的概率计算:

算法:在序列上移动长度为 n 的窗口,计算 Pi

根据 Pi 的值识别编码的阅读框

321 ppp

pP ii

Page 73: 第 5 章 基因组信息分析

基于编码区域碱基组成特征的识别方法

编码序列与非编码序列在碱基组成上有区别 单个碱基的组成比例 多个碱基的组成

通过统计分析识别编码序列

Page 74: 第 5 章 基因组信息分析

分析实例

Page 75: 第 5 章 基因组信息分析
Page 76: 第 5 章 基因组信息分析

2 、真核基因识别问题 真核基因远比原核基因复杂:

一方面,真核基因的编码区域是非连续的,编码区域被分割为若干个小片段。

另一方面,真核基因具有更加丰富的基因调控信息,这些信息主要分布在基因上游区域。

Page 77: 第 5 章 基因组信息分析
Page 78: 第 5 章 基因组信息分析
Page 79: 第 5 章 基因组信息分析

基因识别基本思路

•找出基因两端的功能区域 :转录启动区 终止区

• 在启动区下游位置寻找翻译起始密码子

• 识别转录剪切位点剪切给体位点剪切接受体位点

Page 80: 第 5 章 基因组信息分析

各种不同的方法有不同的适应面,而不同的方法有时可以结合起来以提高基因识别的准确率。

关键问题是如何提高一个识别算法的敏感性( sensitivity , Sn )和特异性( specificity , Sp )。

Page 81: 第 5 章 基因组信息分析

3 、基因识别的主要方法两大类识别方法:从头算方法(或基于统计的方法)

根据蛋白质编码基因的一般性质和特征进行识别,通过统计值区分外显子、内含子及基因间区域

基于同源序列比较的方法 利用数据库中现有与基因有关的信息(如 EST 序

列、蛋白质序列),通过同源比较,帮助发现新基因。

最理想的方法是综合两大类方法的优点,开发混合算法。

Page 82: 第 5 章 基因组信息分析

4 、编码区域识别两类方法 : 基于特征信号的识别

内部外显子剪切位点

5’端的外显子一定在核心启动子的下游 3’端的外显子的下游包含多聚A信号和终止编码

基于统计度量的方法 根据密码子使用倾向 双联密码统计度量等

Page 83: 第 5 章 基因组信息分析

在一个基因中,第 i 个( i=1 , 64 )密码子相对使用倾向 RSCUi 的定义如下:

Obsi 是该基因中第 i 个密码子实际出现的次数Expi 是对应密码子期望的出现次数

aai 是统计的第 i 个密码子出现的次数syni 是所有与第 i 个密码子同义密码子出现的次数

RSCU 大于 1 表示相应密码子出现的次数比期望次数高,而小于 1 则表示出现次数相对较少。

i

ii Exp

ObsRSCU

i

ii syn

aaExp ( 5-66 )

( 5-65 )

密码子使用倾向

Page 84: 第 5 章 基因组信息分析

设一段 DNA 序列为 S ,从 S 的第 i位到第 j位的双联密码统计度量 IF6 ( i , j )定义为:

fk 是从第 k位开始的双联密码的频率Fk 是该双联密码随机出现的频率

4,...,8,5,2

5,...,7,4,1

6,...,6,3,0

6

)/ln(

)/ln(

)/ln(

max),(

jkkiki

jkkiki

jkkiki

Ff

Ff

Ff

jiIF ( 5-67 )

双联密码统计度量

Page 85: 第 5 章 基因组信息分析

通过相似搜索发现编码区域或者外显子

EST ( Expressed Sequence Tags )

cDNA

蛋白质序列

Page 86: 第 5 章 基因组信息分析

目前大多数预测程序都将数据库相似性搜索的信息结合进基因预测过程

同时考虑序列特征信号和统计度量GRAIL

用人工神经网络识别编码区域

Page 87: 第 5 章 基因组信息分析

人工神经网络的概念 4 、别名 人工神经系统( ANS )神经网络( NN ) 自适应系统( Adaptive Systems )、自适应网( Adaptive Networks )

联接模型( Connectionism )神经计算机( Neurocomputer )

Page 88: 第 5 章 基因组信息分析

ANN 具有学习( Learning)能力

人工神经网络可以根据所在的环境去改变它的行为

自相联的网络异相联的网络:它在接受样本集合 A 时,可以抽

取集合 A 中输入数据与输出数据之间的映射关系。——“抽象”功能。

不同的人工神经网络模型,有不同的学习 /训练算法

Page 89: 第 5 章 基因组信息分析

基本特征的自动提取 由于其运算的不精确性,表现成“去噪音、

容残缺”的能力,利用这种不精确性,比较自然地实现模式的自动分类。

普化( Generalization )能力与抽象能力

Page 90: 第 5 章 基因组信息分析

适应性 (Applicability)问题 擅长两个方面:

对大量的数据进行分类,并且只有较少的几种情况; 必须学习一个复杂的非线性映射。

目前应用: 人们主要将其用于语音、视觉、知识处理、辅助决策等方面。

在数据压缩、模式匹配、系统建模、模糊控制、求组合优化问题的最佳解的近似解(不是最佳近似解)等方面也有较好的应用。

Page 91: 第 5 章 基因组信息分析

生物神经网1 、构成

胞体 (Soma)

树 突 ( Dendrite )

胞体 (Soma)

轴突( Axon)

突触( Synapse )

Page 92: 第 5 章 基因组信息分析

生物神经网 3 、六个基本特征:

1 )神经元及其联接; 2 )神经元之间的联接强度决定信号传递的强弱; 3 )神经元之间的联接强度是可以随训练改变的; 4 )信号可以是起刺激作用的,也可以是起抑制作

用的; 5 )一个神经元接受的信号的累积效果决定该神经

元的状态; 6) 每个神经元可以有一个“阈值”。

Page 93: 第 5 章 基因组信息分析

人工神经元 神经元是构成神经网络的最基本单元(构

件)。 人工神经元模型应该具有生物神经元的六个

基本特性。

Page 94: 第 5 章 基因组信息分析

人工神经元的基本构成

人工神经元模拟生物神经元的一阶特性。 输入: X= ( x1 , x2 ,…, xn ) 联接权: W= ( w1 , w2 ,…, wn ) T

网络输入: net=∑xiwi

向量形式: net=XW

xn wn

x1 w1

x2 w2

net=XW…

Page 95: 第 5 章 基因组信息分析

激活函数 (Activation Function)

激活函数——执行对该神经元所获得的网络输入的变换,也可以称为激励函数、活化函数: o=f ( net )

1 、线性函数( Liner Function ) f ( net ) =k*net+c

net

o

o

c

Page 96: 第 5 章 基因组信息分析

4 、 S形函数 f ( net ) =a+b/(1+exp(-d*net))a , b , d 为常数。它的饱和值为 a 和 a+b 。最简单形式为:f ( net ) = 1/(1+exp(-d*net)) 函数的饱和值为 0 和 1 。 S形函数有较好的增益控制

Page 97: 第 5 章 基因组信息分析

4 、 S形函数 a+b

o

(0,c)

net

a

c=a+b/2

Page 98: 第 5 章 基因组信息分析

简单单级网

… …

x1

x2

xn

o1

o2

om

wnm

w11

w1m

w2m

wn1

输出层输入层

Page 99: 第 5 章 基因组信息分析

简单单级网 W= ( wij ) 输出层的第 j 个神经元的网络输入记为 netj : netj=x1w1j+x2w2j+…+xnwnj

其中 , 1≤ j ≤ m 。取 NET= ( net1 , net2 ,…, netm ) NET=XW O=F ( NET )

Page 100: 第 5 章 基因组信息分析

Neural network mathematics

Inputs

Output

),(

),(

),(

),(

144

14

133

13

122

12

111

11

wxfy

wxfy

wxfy

wxfy

),(

),(

),(

23

123

22

122

21

121

wyfy

wyfy

wyfy

14

13

12

11

1

y

y

y

y

y ),( 31

2 wyfyOut

23

23

23

2

y

y

y

y

Page 101: 第 5 章 基因组信息分析

学习规则 有导师学习在学习训练过程中需要不断给网络成对提供一个输入模式和一个期望网络正确输出的模式,称为“教师信号”。当网络的输出与期望的教师信号不符时,则调整权值,能产生所期望的输出。

Page 102: 第 5 章 基因组信息分析

  BP神经网络是指基于误差反向传播算法的多层前馈神经网络

 反向传播算法的基本思路:学习过程由信号的正向传播和反向传播两个过程组成。正向传播时,输入样本由输入层进入,经隐层处理后传向输出层。若实际输出与教师信号不符,则转入误差的反向传播阶段。输出误差将通过隐层向输入层逐层反传,并把误差分摊而得到各层单元的误差信号,作为修正各单元权值的依据。权值的调整过程即 BP网络的学习过程,直到网络输出精度满足要求为止。

Page 103: 第 5 章 基因组信息分析

权值的更改

Page 104: 第 5 章 基因组信息分析

梯度下降法的基本思想首先设置权W 的一组初值,然后,连接计算

均方误差相对于权的梯度,并按上式一小步小步地修正权值,当满足一定的准则时(比如 MSE 进入到下限的某一范围时)即停止。这时称为算法收敛。对于梯度下降算法来说,最大的问题是不能保证收敛到全局最优。

Page 105: 第 5 章 基因组信息分析

梯度下降法的缺点

Page 106: 第 5 章 基因组信息分析

输入是一系列反映功能位点信号特征和序列编码统计特征的参数输出就是对一段 DNA 序列是否是编码区域的判别结果神经网络具有非线性映射能力,能够发现输入和输出之间的高阶相关性

Page 107: 第 5 章 基因组信息分析

生物信息中,神经网络主要应用于:

①序列编码分析; ②蛋白质二级结构预测; ③单肽及其切割位点预测; ④遗传密码的结构和起源分析; ⑤真核生物基因寻找和内含子剪接位点预测。

Page 108: 第 5 章 基因组信息分析

第三部分 调控元件识别

Page 109: 第 5 章 基因组信息分析

序列模式 1. 功能结构域, functional domain 2. 模块, BLOCK 3. 模体, motif 4. 模式, pattern/profile

Page 110: 第 5 章 基因组信息分析

功能结构域 1. 具有完整的、独立的三级结构 2. 具有特定的生物学功能 3. 一般长度,几十到几百个氨基酸 4. 允许插入 /缺失,即允许存在 gap

Page 111: 第 5 章 基因组信息分析

模块 /BLOCK 1. 几个到几十个氨基酸 2. 无 gap ,从全局多序列比对的结果直接处理得到 3. 描述蛋白质家族或者一类蛋白质的序列保守性

BLOCK

Page 112: 第 5 章 基因组信息分析

模体 /Motif 1. 不具有独立的三级结构 2. 具有特定的生物学功能:结合,修饰,细胞亚定位,维持结构,等

3. 长度一般几个到几十个氨基酸或者碱基; 4. 例如, SUMO 化的序列模体: Ψ-K-X-E (Ψ:A, I, L,

V, M, F, P; X:任意氨基酸 )

Page 113: 第 5 章 基因组信息分析

模式 /Pattern/Profile 1. 在算法上用来描述一类功能结构域,模体或者模块的表示方式

2. 根据序列数据,构建的预测模型 3. 数据形式:概率表示 4. 用来预测新的可能符合特定模式的序列 5. 例如,直接将Ψ-K-X-E视为 SUMO 化位

点的,普适的“模式”,则可以预测所有包含该模式的蛋白质序列

Page 114: 第 5 章 基因组信息分析

2. 位点特异性打分矩阵 (1) Position Specific Scoring Matrix (PSSM)

/ Weight Matrix Model(WMM) (2) 对蛋白质家族进行多序列比对分析,发

现结果中保守的 BLOCK (3) 根据 BLOCK 序列推导相应的 PSSM (4) 不考虑 gap 的影响 (5) BLOCK 长度一般在几个 ~ 几十个残基 /

碱基

Page 115: 第 5 章 基因组信息分析

锌指功能结构域的 PSSM

Page 116: 第 5 章 基因组信息分析

BLOCK -> PSSM

代表每一列

二十种氨基酸

矩阵中的数值:当前位置上,某种氨基酸出现的频率的 log值

Page 117: 第 5 章 基因组信息分析

第二种 PSSM 每一个位置上显示每种氨基酸或者碱基出现的

频率

碱基的位置四种碱基

Page 118: 第 5 章 基因组信息分析

第三种 PSSM 每一个位置显示氨基酸 / 碱基出现的概率

Page 119: 第 5 章 基因组信息分析

PSSM :思考与应用 1. 可以根据 BLOCK推导得到的 PSSM 进行数据库的搜索,发现包含该模式的新的蛋白质,并预测功能

2. 需要思考的问题: (1) PSSM必须能够很好的反映 BLOCK, Motif 以及 Domain 的真实情况。然而,数据有限;如何解决?

(2) 根据 PSSM 如何计算新的序列? (3) PSSM 中究竟包含着何等信息?

Page 120: 第 5 章 基因组信息分析

问题一 Pseudocounts

1. 如果训练数据中包含很多序列,并且每个位置上的氨基酸出现频率合理,则根据该训练数据得到的 PSSM 能够很好的反映训练数据的真实情况。否则,得到的 PSSM 可能会有明显的偏差

2. 解决方案,引入伪计数 (pseudocounts) A. pseudocounts太多, PSSM偏离真实情况太远 B. pseudocounts太少,许多可能的氨基酸变化就忽略了

3. 数据量大时,伪计数可以少一些,反之则要增大为计数的比例

4. 一般的经验,伪计数≤ N

Page 121: 第 5 章 基因组信息分析

Pseudocounts (2)针对特定的氨基酸,如何确定是否需要引入伪计数? 1. 方法一:令 f(i) 为氨基酸 i 在蛋白质数据库 ( 例

如: UniProt) 中的分布比例 2. 方法二:使用打分矩阵来衡量序列的相似性 (G

PS 的思想 ) 3. 方法三:对其他的 BLOCK 分析,来估算当前 B

LOCK 可能的氨基酸的分布 4. 方法四: blind guess…

Page 122: 第 5 章 基因组信息分析

问题二: PSSM->发现

1. 计算 log-odds ratio/Odds ratio

2. Do not miss: 性能检验!!!

3. 结果需要计算 Sn, Sp, Ac & Mcc

4. 需要计算 Self-consistency, Leave-one-out validation &

n-fold cross-validation

Page 123: 第 5 章 基因组信息分析

计算 log-odds ratio

P(S|+) ,根据阳性训练数据计算出来的概率;

Page 124: 第 5 章 基因组信息分析

Then, P(S|-)?

1. 负样本 /阴性数据的概率计算 2. 计算方法:

A. DNA 序列,四种碱基出现的频率 B. 蛋白质序列, 20 种氨基酸出现的频率

Page 125: 第 5 章 基因组信息分析

Odds Ratio

Page 126: 第 5 章 基因组信息分析

Log-odds Ratio

Page 127: 第 5 章 基因组信息分析

计算流程:滑动窗口

设定域值;窗口宽度 9bp ;依次打分,预测

Page 128: 第 5 章 基因组信息分析

例:剪切模型 (Splicing)

Page 129: 第 5 章 基因组信息分析

计算 log-odds ratio

Page 130: 第 5 章 基因组信息分析

问题三: PSSM-> 信息?

1. PSSM/motif/domain/BLOCK :每一个位置上究竟包含了什么样的信息?

2. 对于同一个 motif/PSSM :有些位点较其他位点提供更多的信息, why?

3. 如何定量化“信息”?

Page 131: 第 5 章 基因组信息分析

信息论: Claude Shannon

信息论的奠基人

Page 132: 第 5 章 基因组信息分析

1,048,576 个盒子: Yes/No?

1. 随机将 10000RMB 的支票放入 1,048,576 个盒子之一

2. Play 20 questions: yes/no

Page 133: 第 5 章 基因组信息分析

8 个盒子 1. 最少多少个 yes/no 的问题能够定位支票? 2. Answer: log28 = 3

Page 134: 第 5 章 基因组信息分析

1,048,576 个盒子: Yes/No?

1. 随机将 10000RMB 的支票放入 1,048,576个盒子之一

2.Play 20 questions: yes/no

220 = 1,048,576

Page 135: 第 5 章 基因组信息分析

信息论 1. 2b = M; b 为 bit (binary digit) 信息 2. M :所有概率的总量;因此: 3. b = log2(M); => b = -log2(1/M) => b = -log2

(P); 所有概率相同,则 P=1/M 4. 例:对于某一个 motif 的一个位置上,可

能存在 20 种氨基酸,且概率相等,则 P=1/20 =>

5. b = -log2(1/20) = 4.32 bits

Page 136: 第 5 章 基因组信息分析

信息论 (2)

1. 若概率不等同,如何处理?

2. 定义 ui= -log2(Pi)

信息的平均值 =

普适的信息平均值 =

N: 全部序列的数目

Ni: 在该位置上为氨基酸 i的序列的数目

Page 137: 第 5 章 基因组信息分析

信息论 (3)

1. 上式中, Ni/N=Pi; 因此 , 上式可转化为: 2. 因此,香农的熵公式为:

=>

Page 138: 第 5 章 基因组信息分析

信息论:意义? 1. 香农的信息熵公式: H 为每个位置上的“香农熵” 2. 香农熵:不确定性! 3. 在每一个位置上,各种氨基酸出现的不确定性

Page 139: 第 5 章 基因组信息分析

信息论 (4)

P(V) = P(I) = P(L) = P(M) = P(A) = 1/5; H= -(1/5)*log2(1/5)- -(1/5)*log2(1/5)- -

(1/5)*log2(1/5)- -(1/5)*log2(1/5)- -(1/5)*log2(1/5)=2.32 bit

No uncertainty

Great uncertainty

P(D)=1, 因此, H= -1*log2(1) = -1 * 0 =0

Page 140: 第 5 章 基因组信息分析

Uncertainty -> Information 1. 盒子模型; 2. 假设:只能回答两个问题;

则 A. 回答问题之前,不确定性为

3 bits B. 回答问题之后,不确定性为

1 bit 3. 获得信息 R : R= Hbefore – Hafter = 3-1 = 2 bits

Page 141: 第 5 章 基因组信息分析

Uncertainty -> Information (2)

假设,所有氨基酸出现的频率是相等的;则

Hbefore = 4.32; Hafter = 0; Motif 在该位置的信息量为:

4.32 bits

Hbefore = 4.32; Hafter = 2.32; Motif 在该位置的信息量为:

2 bits

Page 142: 第 5 章 基因组信息分析

3. 模体发现: Gibbs Sampler

1. Gibbs Sampler 是一种 Monte-Carlo 类的方法,对于输入序列,找到一个最大的似然函数

2. 对于序列 s ,且在位置 A 有一个 motif 的似然函数,定义如下:

Page 143: 第 5 章 基因组信息分析

Gibbs Sampling 算法 (1)

1. 从每条序列上随机的抽取一段序列,序列长度固定

所有序列

motif

Page 144: 第 5 章 基因组信息分析

Gibbs Sampling 算法 (2)

2. 构建 PSSM/权重矩阵

Page 145: 第 5 章 基因组信息分析

Gibbs Sampling 算法 (3)

3. 随机挑选一条序列

Page 146: 第 5 章 基因组信息分析

Gibbs Sampling 算法 (4)

4. 用构建好的 PSSM 对该序列上所有可能的 motif 进行打分 (窗口滑动,每次 1 个氨基酸或者碱基 )

Page 147: 第 5 章 基因组信息分析

Gibbs Sampling 算法 (5)

5. 根据似然性的计算,得到似然值最大的模体,即新的 motif

Page 148: 第 5 章 基因组信息分析

Gibbs Sampling 算法 (6)

6. 更新 PSSM矩阵

Page 149: 第 5 章 基因组信息分析

Gibbs Sampling 算法 (7)

7. 反复迭代计算,直到似然性结果与 PSSM不再发生变化

Page 150: 第 5 章 基因组信息分析

Strong Motif

ACGTAGCA

Page 151: 第 5 章 基因组信息分析

Gibbs Sampler: 总结

1. 模体发现的一种随机算法 (Monte Carlo) 2. 寻找次优解的算法 3. 根据 PSSM/WMM 对随机抽取的序列进行打分来

调整采样,直到结果收敛 4. 不能够保证每次运算的结果一致:需要多运算几

次,并进行比较 5. 对蛋白质、 DNA 、 RNA 序列模体的发现有帮助