Download - 中国地方鸡种核酸数据库建设与功能设计
中国地方鸡种核酸数据库建设中国地方鸡种核酸数据库建设与功能设计与功能设计
汇报人:白云峰 副研究员汇报人:白云峰 副研究员 单 位:江苏省农业科学院单 位:江苏省农业科学院
汇 报 内 容汇 报 内 容研究意义与目的中国地方鸡种核酸序列数据库初步建设 数据获取 数据库构成 数据分析
系统功能设计 核酸序列特征一般分析 核酸序列相似性搜索 系统发生分析
系统演示未来展望
研 究 意 义研 究 意 义 中国是世界上生物多样性最丰富国家之一,地方鸡种是我国具有战略
意义的独特资源。亟需构建该领域拥有自身特色和自主知识产权的,与国际主流生物信息数据库接轨的专业二级数据库。
当前,农业生物信息数据库主要集中在英、美、日等发达国家。我国大多生物学数据库只能提供镜像和索引服务,无自主知识产权,独立开发并能提供丰富资源和工具的生物信息数据库平台仍很缺乏。
目前国内关于医疗和制药领域的生物信息数据库较多,而高质量的农业生物信息数据库数量较少,尚无我国专门化的地方鸡种生物信息数据库系统。
生物信息数据库分布分散且格式不统一,将独立的、分散的农业生物信息数据库信息整合,使农业生物信息数据库集成化和标准化。
中国地方鸡种核酸序列数据库中国地方鸡种核酸序列数据库初步建设初步建设
数据获取方面
◦ 基于 Agent 智能代理本地化数据获取程序;
◦ 863 合作单位数据提供与数据校验;
数据分析
◦ 数据完整性分析
◦ 数据特征特征值扫描
◦ 地方鸡种数据筛选
中国地方鸡种核酸序列数据库中国地方鸡种核酸序列数据库初步建设初步建设
数据标准化
◦ 基于 XML 中国地方鸡种核酸序列元数据模型;
◦ 自定义中国地方鸡种数据结构;
数据转导
◦ 与国际主流数据文件格式的兼容
完成中国地方鸡种核酸序列数据库结构设计
系 统 功 能 设 计系 统 功 能 设 计目标序列分析(以白银耳鸡 1 条序列 AF128321
作为本系统分析处理结果示例)
功能设计 3 个层次:
序列组成统计特征分析;
本地化序列相似性搜索
系统发生分析
核酸序列组成统计特征分析核酸序列组成统计特征分析1. 密码子计数2. 核苷酸统计3. 转换成互补序列4. 互补统计5. 核苷酸组成统计作图6. 二聚体统计7. 密码子使用偏性8. CpG 岛9. 短序列匹配10. 绘制热红外分布图11. 识别开发阅读框 ORFs12. 翻译成对应氨基酸序列
待分析序列待分析序列ttgttctcaactacgggaacaattttattttttaacctaa
ctcccctactaagtgtaccccccctttcccccccagggggggtatactatgcataatcgtgcatacatttatataccacatatattatggtaccggtaatatatactatatatgtactaaacccattatatgtatacgggcattaatctatattccacatttctcccaatgtccattctatgcatgatccaagacatactcattcaccctccccatagacagttctaaaccactatcaagccacctaactatgaatggttacaggacataaatctcactctcatgctctccccctaacaagtcacctaactatgaatggttacaggacatacatttaactaccatgttctaacccatttggttatgctcgccgtatcagatggatttattgatcgtccacctcacgagagatcagcaacccctgcctgtaatgtacttcatgaccagtctcaggcccattctttccccctacacccctcgccctacttgccttccaccg
密码子计数结果密码子计数结果AAA: 1 AAC: 5 AAG: 0 AAT: 2 ACA:
7 ACC: 3 ACG: 1 ACT: 6 AGA: 2 AGC: 1 AGG: 1 AGT: 2 ATA: 4 ATC: 2 ATG: 4 ATT: 5 CAA: 1 CAC: 5 CAG: 0 CAT: 8 CCA: 8 CCC: 10 CCG: 1 CCT: 1 CGA: 1 CGC: 1 CGG: 0 CGT: 1 CTA: 10 CTC: 2 CTG: 1 CTT: 2 GAA: 0 GAC: 0 GAG: 1 GAT: 1 GCA: 1 GCC: 3 GCG: 0 GCT: 2 GGA: 2 GGC: 1 GGG: 3 GGT: 2 GTA: 6 GTC: 2 GTG: 0 GTT: 2 TAA: 5 TAC: 4 TAG: 1 TAT: 9 TCA: 5 TCC: 3 TCG: 2 TCT: 6 TGA: 3 TGC: 2 TGG: 1 TGT: 2 TTA: 3 TTC: 4 TTG: 1 TTT: 4
密码子使用偏性密码子使用偏性1. 由于密码子的简并性,每个氨基酸至少对应 1 种密码子,最多有
6 种对应的密码子。2. 不同物种、不同生物体的基因密码子使用存在着很大的差异。各
种生物体似乎更偏爱使用某些同义三联密码子(即编码相同氨基酸的密码子)。
3. 高表达的基因密码子的使用偏性一般比较大。这些偏好可能与两个原因有关:一是避免使用类似终止密码子的密码子;二是这些偏好能够有效地翻译密码子,因为这些密码子对应于生物体中非常丰富的 tRNA 。
4. 真实的外显子一般能反映出这些偏好,而随机选择的三联体序列却不能。
密码子使用偏性密码子使用偏性5. 研究结果表明,基因密码子的使用也与基因编码的蛋白的结构
和功能有关。 mRNA 中的稀有密码子的使用与蛋白质结构域的连接区和规则二级结构单元的连接区有关,翻译速率在连接区会降低,说明蛋白质折叠方式与 mRNA 序列之间存在一定的相关性。
6. 研究结果还表明,蛋白质的三级结构与密码子使用概率有密切的关系,通过对密码子的聚类分析,可以将具有不同三级结构蛋白质的编码基因分成不同的类,而具有相似三级结构蛋白的编码基因则大致聚在同一类中。进一步的研究发现,在不同物种中,类型相同的基因具有相近的同义密码子使用偏性,对于同一类型的基因由物种引起的同义密码子使用偏性的差异较小。
绘制热红外分布图绘制热红外分布图
CpGCpG 岛分析岛分析
在人类基因组中有一半左右的 CpG island 与已知管家基因
( housekeeping gene )有关联;
CpG island 很少出现在不含基因的区域和那些发生多次突变的
基因中;
CpG 与一种重要的化学修饰——甲基化密切相关。
短序列匹配短序列匹配
在待分析序列中查找特征短片段,如 TATA Box
TATA Box , CAAT Box ,终止子等
识别开放阅读框识别开放阅读框 ORFsORFs
开放阅读框 (Open Reading Frame: ORF) 是基因序列的一部分,包
含一段可以编码蛋白的碱基序列,不能被终止子打断。
开读框架的预测常与第一个 ATG 和终止密码子的确定相关。
系统以原核生物和真核生物两种模式识别待分析序列的 ORFs
中国地方鸡种基因序列比对与相中国地方鸡种基因序列比对与相似性搜索似性搜索
意义与目的:通过搜索序列数据库,找到与新序列同源的已知序列,并根据同源性推测未知序列的生物学功能;对于 DNA 序列,同源搜索还有助于确定编码区域,确定基因;
实现方法:中国地方鸡种核酸序列库 + 家禽基因组序列库的比对搜索;设定全局最优比对算法 + 局部最优比对算法 2 种策略
Smith-Waterman
Needleman-Wunsch
中国地方鸡种系统发生分析(开中国地方鸡种系统发生分析(开发中)发中) 由于国内学者对国内地方鸡种 mtDNA 研究较多,数据库收集到数
据较丰富特点。构建地方鸡种 mtDNA 系统发生专门化分析组件。 线粒体 DNA非常适合于系统发生分析,因为线粒体 DNA从母体
完全传到子代,不与父代 DNA重组。线粒体 DNA 具有易分离、进化速度快、母系遗传、缺乏重组和无内含子等特点。使线粒体DNA 成为分子系统发育学研究的一类重要的分子标记。
mtDNA 的控制区即 D-loop区为非编码区,不编码蛋白质线粒体DNA 中,受到选择压力较小,因此积累了较多的突变,如碱基替换、插入、缺失,以及众多的串联重复序列等。
系统采用非加权分组平均法( UPGMA , unweighted pair
group method with arithmetic means) 构建进化树
系统功能实现的关键技术系统功能实现的关键技术Matlab Bioinformatic Toolbox 引用
◦ Imports System
◦ Imports System.Reflection
◦ Imports MathWorks.MATLAB.NET.Utility
◦ Imports MathWorks.MATLAB.NET.Arrays
◦ Imports ComponentName
M文件编写与调试
MATLAB 与 .NET 数据类型转换
MM 文件编程示例文件编程示例function HeatMap(mitochondria)for frame = 1:3 figure('color',[1 1 1]) subplot(2,1,1);
codoncount(mitochondria,'frame',frame,'figure',true);
title(sprintf(' 阅读框 %d 密码子 ',frame)); subplot(2,1,2);
codoncount(mitochondria,'reverse',true,'frame',frame,'figure',true);
title(sprintf(' 阅读框 %d反义密码子 ', frame));end
调用调用 MATLABMATLAB 生物信息学函生物信息学函数数
设计功能 函数 示例从 GenBank 获取 1 条序列密码子计数 codoncount codoncount(mitochondria)核苷酸统计 basecount basecount(mitochondria)转换成互补序列 seqrcomplemen
tseqrcomplement(mitochondria)
互补统计 basecount(seqrcomplement(mitochondria))
统计作图 ntdensity Map = ntdensity(mitochondria)二聚体统计 dimercount dimercount(mitochondria)核苷酸统计 2 aacount Aacount(mitochondria)密码子使用偏性 codonbias cb =
codonbias(mitochondria,'PIE',true)
CpG 岛 cpgisland cpgisland(mitochondria,'PLOT',true)
短序列匹配 seqshowwords seqshowwords(mitochondria,'TATA')
MatlabMatlab 与与 .NET.NET 数据类型转数据类型转换换Matlab类型 .NET类型 数据转换类 说明
Cell N/A MWCellArray 单元和结构数组没有对应的 .NET类型Structure N/A MWstructArray
Char System.String
MWCharArray
Double System.Double
MWNumericArray 默认为 Double类型
Single MWNumericArray
Uint64 MWNumericArray 不支持
Uint32 MWNumericArray 不支持
Uint6 MWNumericArray 不支持
引自苏金明等《 Matlab 高级编程》北京,电子工业出版社, 2008
数据类型转换实例数据类型转换实例 %利用 MatLab 构建不同地方鸡种亲缘关系进化树;%定义数组二维 data ,存储鸡种名称和 mtDNA 序列;function phylogenyanalysis(data,m)%data = {' 白银耳鸡 ' 'AF128320'; '灵昆鸡 ' 'AF128330'; '寿光鸡 ' 'AF512058';
'丝羽乌骨鸡 ' 'AF512060'; '茶花鸡 ' 'AF512078';};%for ind = 1:5% seqs(ind).Header = data{ind,1};% seqs(ind).Sequence = getgenbank(data{ind,2}, 'sequenceonly', true);%end%进化距离运算; UPGMA ,非加权分组平均法( unweighted pair group method
with arithmetic means ) Jukes-Cantor ,for ind = 1:m seqs(ind).Header = data{ind,1}; seqs(ind).Sequence = data{ind,2};enddistances = seqpdist(seqs,'Method','Jukes-Cantor','Alphabet','DNA');tree = seqlinkage(distances,'UPGMA',seqs); %画出进化树;h = plot(tree,'orient','bottom');set(findobj(gca,'Type','line','Color',[0 10 1]),'Color','red','LineWidth',2);ylabel('进化距离 ')title(' 中国地方鸡种进化关系树 ')set(h.terminalNodeLabels,'Rotation',-45)saveas(gca,'C:\PhylogenyTree.jpg')%close('all','hidden')
讨 论讨 论
1. 在 Windows操作系统下运行具有更广泛的适应性;
2. 采用组件技术开发,具有更强适应性、可移植性和
复用性;
3. 根据中国地方鸡种定制分析组件库,针对性强;
4. 构建了中国地方鸡种分子数据存储、共享和分析平
台,先进性和创新性强。
展 望展 望