3 database tics

86
第第第 第第第 分分分分分分分分分分 分分分分分分分分分分 分分分分分分分分分 分分分分分分分分分

Upload: aymanesh

Post on 16-Nov-2014

47 views

Category:

Documents


3 download

DESCRIPTION

Bioinformatics

TRANSCRIPT

Page 1: 3 DataBase tics

第三讲第三讲分子生物信息数据库与分子生物信息数据库与生物信息学基本问题生物信息学基本问题

Page 2: 3 DataBase tics

§§3.13.1

分子生物信息数据库简介分子生物信息数据库简介

Page 3: 3 DataBase tics

1960 年代,第一个分子生物学数据库——Fred Sanger 的胰岛素序列测定( 1955 )——蛋白质数据库 PSD ( Protein Sequence Database )——Margaret Dayhoff : 1960 年代,创立 PSD ,即 PIR 的前身 1978 , scoring matrices——PAM

§3.1.1 §3.1.1 分子生物信息数据库概述分子生物信息数据库概述

Pioneer in BioinformaticsDr. Margaret O. Dayhoff

(1925-1983) Fred Sanger at the Sanger Institute

Page 4: 3 DataBase tics

1982 年,第一个核酸序列数据库 GenBank ( Los Alamos )——1982 年, 606 条序列,长度 680,338bp——2004 年,约 43,322,756 条序列,长度约 7.11010bp

2005 :International sequence databases exceed 100 gigabases !

Page 5: 3 DataBase tics

一级数据库一级数据库 直接来源于实验获得的原始数据,只经过简单的归类、整理和注释。 一级核酸数据库: GenBank 数据库、 EMBL 数据库、 D

DBJ 数据库 一级蛋白质序列数据库: SWISS-PROT 库、 PIR 库 一级蛋白质结构数据库: PDB 数据库二级数据库二级数据库

在一级数据库、实验数据和理论分析的基础上,针对不同的研究内容和需要,对生物学知识和信息的进一步整理得到的数据库。 人类基因组图谱库 GDB 、转录因子和结合位点库 TRANSFAC 、蛋白质序列功能位点数据库 Prosite 等。

Page 6: 3 DataBase tics

建立分子生物信息数据库的流程图建立分子生物信息数据库的流程图生物信息 学数据库 工具

染色体

核酸

蛋白质

基因组图谱

DNA 序列

蛋白质序列

蛋白质结构

基因组数据库

核酸序列数据库

蛋白质序列数据库

蛋白质结构数据库

二级数据库 复合数据库

基因组作图

序列测定

结构测定

Page 7: 3 DataBase tics

一个数据库记录 (entry) 一般由两部分组成: 1. 原始序列数据 (sequence data) 2. 描述这些数据生物学信息的注释 (annotation)注释中包含的信息与相应的序列数据同样重要和有应用价值

数据的完整性和注释工作量: 1. 序列数据广,序列注释不够完整 2. 库数据面窄,序列注释全面

数据库的动态更新: 1. 不断增加 2. 不断修正

Page 8: 3 DataBase tics

人类遗传信息数据与科学家的社会责任人类遗传信息数据与科学家的社会责任“如果你们想使你们一生的工作对人类有益,那么你们只了解应用科学本身还是不够的。关心人本身必须始终成为一切技术努力的目标,要关心如何组织人的劳动和商品分配,从而以这样的方式保证我们科学思维的结果可以造福于人类,而不致成为诅咒的祸害。当你们沉思你们的图表和方程式时,永远不要忘记这一点!” ——爱因斯坦

Page 9: 3 DataBase tics

人类遗传数据国际宣言纲要(修正稿)人类遗传数据国际宣言纲要(修正稿)联合国教科文组织国际生命伦理学委员会

2003 年 1 月,巴黎“…它们关系到对人权和基本自由的保护,关系到在收集、处理和储存科学数据以及医疗数据、个人数据和敏感数据时对人类尊严的尊重,承认人类遗传数据因其敏感的性质所拥有的特殊地位,因为它们既可以提供医学信息又可以提供关系一生的个人信息,而且可能含有关于家庭的信息,包括子孙后代,或者在某种情况下涉及到当事人所属社群的信息,考虑到人类遗传数据的收集、处理、使用和储存对于科学与医学的进步,以及对于把它们用于非医学目的、特别用于司法目的是至关重要的。”“尽管如此,意识到人类遗传数据的收集、处理、使用和储存,对于人权和基本自由的行使与遵守,以及对于人类尊严的尊重有着潜在的风险,重申世界人类基因组与人权宣言制定的原则,以及平等、公正、团结、尊重人类尊严、人权和基本自由的原则,既有研究的自由又有对隐私的保护,这些必须是人类遗传数据的收集、处理、使用和储存的基础,宣布遵循这些原则,并采用目前的宣言。”

Page 10: 3 DataBase tics

术语的含义人类遗传数据:指通过核酸分析或其它科学分析获得的有关个人遗传特性的不明显信息。生物学样本:指含有核酸并且包含个人特有的遗传组成的任何生物学材料(例如,血液、皮肤和骨细胞或血浆)。基于人群的遗传学研究:指以了解种群内个体间和 /或跨种群个体间遗传变异的性质和程度为目的的研究。行为遗传学研究:指以建立遗传特征和行为之间的可能联系为目的的研究。

纲要摘要个人身份——每个人都有一套独特的基因结构。尽管如此,一个人的身份不应被归结为基因特性,因为它是由复杂的教育和其它环境因素以及与他人的情感、社会、精神和文化纽带决定的。特殊意义——人类遗传数据和用于产生它们的生物学样本可能对个人或者群体有特殊的文化意义,因此需要给予它们特殊的考虑和尊重。研究目的——人类遗传数据只能以诊断和卫生保健目的,医学和其它科学研究,包括流行病学研究目的、法医学目的,在民事和刑事诉讼中的司法目的,以及任何其它与有关基因组和人权的世界宣言以及国际人权法一致的目的被收集、处理、使用和储存。

Page 11: 3 DataBase tics

程序——人类遗传数据应在透明的和伦理上可接受的程序的基础上被收集、处理、使用和储存,这些程序使社会作为一个整体知情参加。不歧视和不羞辱——人类遗传数据不应用于歧视目的,其使用也不应可能导致对一个人、一个家庭或者一个群体的羞辱。应该特别关注以人群为基础的遗传学研究和行为遗传学研究的结果以及对这些结果的解释。同意——对于人类遗传数据的收集应该要求得到事先的、自由的、知情的和明确表达的同意,这种收集或者通过侵入性或者通过非侵入性的程序,以及对于它们随后的处理、使用和储存也应该如此,不管这些是由公立机构还是私人机构进行。决定是否被告知研究结果的权利——当为了医学和科学研究目的,包括流行病学和以人群为基础的遗传学研究,或者为了遗传筛查的目的收集人类遗传数据的时候,同意应包括让个人做出是否被告知研究或筛查检测结果的选择。利益分享——为了医学和科学研究,包括以人群为基础的遗传学研究而收集的人类遗传数据,通过使用它们产生的利益应该由整个国际社会分享,可以采取以下形式: 对参加研究的个人和群体的特殊援助; 获得医疗保健; 为源于研究的新的治疗方法或药物提供便利; 为卫生服务提供支持; 符合本宣言提出的原则的任何其它形式;

Page 12: 3 DataBase tics

§3.1.2 §3.1.2 一级数据库一级数据库世界三大核酸序列数据库

(公共序列数据库, Public Sequence Database)

GenBankGenBank (美国) EMBLEMBL(欧洲 ) DDBJDDBJ(日本 )

GenBank DDBJ

EMBL

A) A) 核酸核酸 (DNA)(DNA) 序列数据库序列数据库

Page 13: 3 DataBase tics

GenBankGenBank (美国国家生物技术信息中心, NCBI ) 1980s NIH(National Institute of Health) Los Alamos National Lab NCBI(National Center for Biotechnology Information) NLM(National Library of Medicine)

Page 14: 3 DataBase tics

GenBank网址 http://www.ncbi.nih.gov/Genbank/

Page 15: 3 DataBase tics

EMBLEMBL(欧洲分子生物学实验室, EMBL) 1982 European Molecular Biology Laboratory EBI ( European Bioinformatics Institute )

Page 16: 3 DataBase tics

EMBL网址 http://www.ebi.ac.uk/embl

Page 17: 3 DataBase tics

DDBJDDBJ(日本国家遗传学研究所, NIG) 1986 Databank of Japan NIG(National Institute of Genetics)

Page 18: 3 DataBase tics

DDBJ网址 http://www.ddbj.nig.ac.jp

Page 19: 3 DataBase tics

EMBLEMBL 数据库序列记录增长趋势数据库序列记录增长趋势

568

43,322,756

Page 20: 3 DataBase tics

EMBLEMBL 数据库序列总长增长趋势数据库序列总长增长趋势

5.8105 bp

7.11010bp

Page 21: 3 DataBase tics

EMBL2003EMBL2003 年年 88 月数据状况月数据状况 (Release 76) (Release 76) Division Entries NucleotidesDivision Entries Nucleotides 表达序列标签 (ESTs) 18,001,332 9,172,848,447 真菌 (Fungi) 81,533 124,814,006 基因组检测序列 (GSSs) 5,951,552 3,541,699,334 高通量 cDNA(HTC) 148,033 198,301,795 高通量基因组 (HTG) 69,070 11,827,270,957 人 (Human) 253,122 3,999,942,455 无脊椎动物 (Invertebrates) 126,656 618,391,776 其它哺乳动物 (Other Mammals) 51,211 117,048,169 鼠 (Mus musculus) 79,168 1,331,593,999 细胞器 (Organelles) 217,902 180,804,604 专利 (Patents) 1,326,009 717,107,725 噬菌体 (Bacteriophage) 2,321 9,413,526 植物 (Plants) 214,323 700,212,325 原核生物 (Prokaryotes) 200,833 690,274,487 啮齿动物 (Rodents) 25,459 64,607,453 序列标签位点 (STSs) 239,292 114,379,671 合成 (Synthetic) 9,196 16,869,561 未分类 (Unclassified) 1,860 2,167,222 病毒 (Viruses) 196,817 175,615,411 其它脊椎动物 (Other Vertebrates) 52,583 282,545,232 总计 总计 27,27,248,475 33,885,908,155 248,475 33,885,908,155

Page 22: 3 DataBase tics

EMBL2004EMBL2004 年年88 月数据状况月数据状况(Release 80)(Release 80)

Page 23: 3 DataBase tics

来源于人类基因组计划及各种模式生物基因组计划来源于人类基因组计划及各种模式生物基因组计划 19771977 年,最早获得的生物基因组全序列是噬菌体年,最早获得的生物基因组全序列是噬菌体 (53kb)(53kb)

19951995 年,第一个自由生物体流感嗜血菌年,第一个自由生物体流感嗜血菌 ((H. infH. inf))被完全测序被完全测序

B) B) 基因组数据库基因组数据库

Page 24: 3 DataBase tics

部分生物基因组计划网址部分生物基因组计划网址 老鼠 (Mouse) http://www.informatics.jax.org/mgd.html 小鼠 (Rat) http://ratmap.gen.gu.se 狗 (Dog) http://mendel.berkeley.edu/dog.html 牛 (Cow) http://locus.jouy.inra.fr/cgi-bin/bovmap/intro2.pl 猪 (Pig) http://www.ri.bbsrc.ac.uk/pigmap/pigbase/pigbase.html 羊 (Sheep) http://dirk.invermay.cri.nz 鸡 (Chicken) http://www.ri.bbsrc.ac.uk/chickmap/chickbase/manager.html 斑马鱼 (Zebra fish) http://zfish.uoregon.edu 线虫 (C. elegans) http://www.ddbj.nig.ac.jp/htmls/celegans/html/CE_INDEX.html 果蝇 (Drosophila) http://morgan.harvard.edu 蚊子 (Mosquito) http://klab.agsci.colostate.edu 拟南芥 (Arabidopsis) http://genome-www.stanford.edu/Arabidopsis 棉花 (Cotton) http://algodon.tamu.edu 玉米 (Maize) http://www.agron.missouri.edu 水稻 (Rice) http://www.staff.or.jp 大豆 (Soya) http://mendel.agron.iastate.edu:8000/main.html 树 (Trees) http://s27w007.pswfs.gov

Page 25: 3 DataBase tics

GDBGDB (美国、加拿大) 1990 年, John Hopkins大学建立,后由加拿大儿童医院生物信息中心管理, 2003 年起, GDB-related software and public data were transferred to RTI International .

数据内容:数据内容:基因组结构数据、基因组图谱、基因多态性数据与其它分子生物信息网络资源( EMBL 、 GenBank… )的链接

Page 26: 3 DataBase tics

GDB网址 http://www.gdb.org/

Page 27: 3 DataBase tics

AceDBAceDB 线虫基因组数据库。既是一个数据库,又是一个数据库管理系统。 提供很好的图形界面,用户能够从大到整个基因组小到序列的各个层次观察和分析基因组数据。 数据内容:数据内容:限制性图谱,基因结构信息,质粒图谱,序列数据,参考文献…

Page 28: 3 DataBase tics

AceDB网址 http://www.acedb.org

Page 29: 3 DataBase tics

SWISSSWISS-- PROTPROT(欧洲 )

PIRPIR(美国 )

C) C) 蛋白质序列数据库蛋白质序列数据库

Page 30: 3 DataBase tics

SWISSSWISS-- PROTPROT 1. 日内瓦大学医学生物化学系和欧洲生物信息学研究所 (EBI) 合作维护( 1986 年); 2. 在 EMBL 和 GenBank 数据库上均建立了镜像站点 ; 3. 数据库包括了从 EMBL翻译而来的蛋白质序列,这些序列经过检验和注释; 4. 数据记录包括两部分: 序列 注释 ( 结构域、功能位点、跨膜区域、二硫键位置、翻 译后的修饰、突变体等 ) 5. 数据存在滞后性 TrEMBL 数据库的建立

Page 31: 3 DataBase tics

SWISS-PROT 的网址: http://cn.expasy.org/sprot

Page 32: 3 DataBase tics

TrEMBL 的网址: http://www.ebi.ac.uk/trembl/index.html

Page 33: 3 DataBase tics

PIR(protein information resource)PIR(protein information resource) 1. 由美国 NCBI翻译自 GenBank 的 DNA 序列 (1984 年 ); 2. 在 EMBL 和 GenBank 数据库上均建立了镜像站点; 3. 数据依据注释的质量分为 4 类。

分类名称(Name)

说明(Comment)

记录数(Number of entries)

PIR1 已分类、已注释(Classified and annotated) 13572

PIR2 已注释 (Annotated) 69368PIR3 未核实 (Unverified) 7508

PIR4 未翻译 (Unencoded or untranslated) 196

PIRPIR 数据库的分类情况数据库的分类情况 (Release 51.03)(Release 51.03)

Page 34: 3 DataBase tics

PIR网址: http://www-nbrf.georgetown.edu/

Page 35: 3 DataBase tics

PDBPDB (( protein data bankprotein data bank )) 1. 目前最主要的蛋白质分子结构数据库; 2. 1970 年代建立,美国 Brookhaven 国家实验室维护管理 ; 3. 1988 年,由美国 RCSB(research collaboratory for structural biology)管理; 4. 以文本格式存放数据,包括原子坐标、物种来源、测定方法、提交者信息、一级结构、二级结构等; 5. PDBsum 数据库: PDB 注释信息综合数据库,具有检索、分析、可视化的功能。(已移至 EBI )

D) D) 蛋白质结构数据库蛋白质结构数据库

Page 36: 3 DataBase tics

PDB网址: http://www.rcsb.org/pdb(美国 )

Page 37: 3 DataBase tics

PDBsum网址: http://www.ebi.ac.uk/thornton-srv/databases/pdbsum/

Page 38: 3 DataBase tics

SCOPSCOP (( Structural Classification of ProteinStructural Classification of Protein )) 英国医学研究委员会分子生物学实验室和蛋白质工程中心开发的基于 web 的蛋白质结构数据库分类、检索和分析系统;SCOP 的网址: http://scop.mrc-lmb.cam.ac.uk/scop/

CATH(class, architecture, topology, homology)CATH(class, architecture, topology, homology) 英国伦敦大学开发维护;CATH 的网址: http://www.biochem.ucl.ac.uk/bsm/cath

E) E) 蛋白质结构分类数据库蛋白质结构分类数据库

Page 39: 3 DataBase tics

SCOP网址: http://scop.mrc-lmb.cam.ac.uk/scop/

Page 40: 3 DataBase tics

CATH网址: http://www.biochem.ucl.ac.uk/bsm/cath

Page 41: 3 DataBase tics

§3.1.3 §3.1.3 二级数据库简介二级数据库简介 二级数据库的形式:大多以 web界面为基础,具有文字信息、表格、图形、图表等方式显示数据库内容; 一级数据库与二级数据库之间并无明确的界限。

(例如: GDB 、 AceDB 、 SCOP 、 CATH 等都已经具有二级数据库的特色)

Page 42: 3 DataBase tics

E. coliE. coli 基因组数据库基因组数据库 ColibriColibri 德国 Pastear 研究所建立。 除具有浏览、检索、搜寻功能外,还对环状基因组实现可视化。 网址: http://genolist.mirror.edu.cn/Colibri/

TransFac (TransFac ( 真核生物基因转录调控因子数据库真核生物基因转录调控因子数据库 )) 德国生物工程研究所开发维护,始建于 1988 年。 包括顺式调控位点、基因、转录因子、细胞来源、分类和调控位点核苷酸分布 6 个子库。TransFac 的网址: http://transfac.mirror.edu.cn

A) A) 基因组信息二级数据库基因组信息二级数据库

Page 43: 3 DataBase tics

ColiBri网址: http://genolist.mirror.edu.cn/Colibri

Page 44: 3 DataBase tics

TransFac网址: http://transfac.mirror.edu.cn

Page 45: 3 DataBase tics

Prosite (Prosite ( 蛋白质序列功能位点数据库蛋白质序列功能位点数据库 )) 始建于 1990 年代初,由瑞典生物信息学研究所 SIB负责维护。 基于对蛋白质家族中同源序列多重序列比对得到的保守区域,这些区域通常与生物学功能相关。 数据库包括两个数据库文件:数据文件 Prosite;说明文件 PrositeDoc 。

B) B) 蛋白质序列二级数据库蛋白质序列二级数据库

Page 46: 3 DataBase tics

Prosite网址: http://cn.expasy.org/prosite

Page 47: 3 DataBase tics

DSSP (Definition of Secondary Structure of Proteins)DSSP (Definition of Secondary Structure of Proteins) 蛋白质二级结构构象参数数据库 DSSP 的网址: http://www.cmbi.kun.nl/gv/dssp/

FSSP (Families of Structural Similar Proteins) FSSP (Families of Structural Similar Proteins) 蛋白质家族数据库 FSSP 的网址: http://www2.embl-ebi.ac.uk/dall/fssp/

HSSP(Homology Derived Secondary Structure of Proteins) HSSP(Homology Derived Secondary Structure of Proteins) 同源蛋白质数据库 HSSP 的网址: http://www.cmbi.kun.nl/gv/hssp/

C) C) 蛋白质结构二级数据库蛋白质结构二级数据库

Page 48: 3 DataBase tics

DSSP网址: http://www.cmbi.kun.nl/gv/dssp

Page 49: 3 DataBase tics

FSSP网址: http://www2.embl-ebi.ac.uk/dall/fssp

Page 50: 3 DataBase tics

HSSP网址: http://www.cmbi.kun.nl/gv/hssp

Page 51: 3 DataBase tics

《 Nucleic Acids Research》每年第一期为数据库专辑《 Database issue》

Page 52: 3 DataBase tics

§3.1.4 §3.1.4 数据库格式简介数据库格式简介 历史原因:没有完全统一的数据库格式; 了解所用数据库格式的重要性 一般由两部分组成: 文字注释 内容(序列,…… )

Page 53: 3 DataBase tics

EMBL 和 GenBank 数据库的主要内容和格式 序列名称、长度、日期序列说明、编号、版本号物种来源、学名、分类学位置相关文献作者、题目、刊物、日期序列特征表碱基组成序列(每行 60 个碱基)

实例:实例: E. coliE. coli k-12 k-12 全基因组序列文件全基因组序列文件

例子:例子: EMBLEMBL 和和 GenBankGenBank 数据库的格式数据库的格式

Page 54: 3 DataBase tics

LOCUS U00096 4639221 bp DNA circular BCT 18-NOV-1998DEFINITION Escherichia coli K-12 MG1655 complete genome.ACCESSION U00096KEYWORDS .SOURCE Escherichia coli. ORGANISM Escherichia coli Bacteria; Proteobacteria; gamma subdivision; Enterobacteriaceae; Escherichia.REFERENCE 1 (bases 1 to 4639221) AUTHORS Blattner,F.R., Plunkett,G. III, Bloch,C.A., Perna,N.T., Burland,V., … TITLE The complete genome sequence of Escherichia coli K-12 JOURNAL Science 277 (5331), 1453-1474 (1997) MEDLINE 97426617…COMMENT This sequence was determined by the E. coli Genome Project at the University of Wisconsin-Madison (Frederick R. Blattner, director). Supported by NIH grants HG00301 and HG01428 (from Human Genome Project and NCHGR). The entire sequence was independently determined from E. coli K-12 strain MG1655. Predicted open reading frames were determined using GeneMark software, kindly supplied by …

Page 55: 3 DataBase tics

FEATURES Location/Qualifiers source 1..4639221 /organism="Escherichia coli" /strain="K-12“ /sub_strain="MG1655" /db_xref="taxon:562" promoter 71..99 /note="factor Sigma70; predicted +1 start at 106" promoter 104..132 /note="factor Sigma70; predicted +1 start at 139" promoter 188..212 /note="factor Sigma32; predicted +1 start at 219" gene 190..255 /note="b0001" /gene="thrL" CDS 190..255 /gene="thrL" /function="leader; Amino acid biosynthesis: Threonine" /note="o21; 100 pct identical to LPT_ECOLI SW: P03059" /codon_start=1 /transl_table=11 /product="thr operon leader peptide" /db_xref="PID:g1786182" /translation="MKRISTTITTTITITTGNGAG “ …BASE COUNT 1142136 a 1179433 c 1176775 g 1140877 t

Page 56: 3 DataBase tics

ORIGIN 1 agcttttcat tctgactgca acgggcaata tgtctctgtg tggattaaaa aaagagtgtc 61 tgatagcagc ttctgaactg gttacctgcc gtgagtaaat taaaatttta ttgacttagg 121 tcactaaata ctttaaccaa tataggcata gcgcacagac agataaaaat tacagagtac 181 acaacatcca tgaaacgcat tagcaccacc attaccacca ccatcaccat taccacaggt 241 aacggtgcgg gctgacgcgt acaggaaaca cagaaaaaag cccgcacctg acagtgcggg 301 cttttttttt cgaccaaagg taacgaggta acaaccatgc gagtgttgaa gttcggcggt 361 acatcagtgg caaatgcaga acgttttctg cgtgttgccg atattctgga aagcaatgcc 421 aggcaggggc aggtggccac cgtcctctct gcccccgcca aaatcaccaa ccacctggtg … … 4639021 caacatcaac tgcaagcttt acgcgaacga gccatgacat tgctgacgac tctggcagtg 4639081 gcagatgaca taaaactggt cgactggtta caacaacgcc tggggctttt agagcaacga 4639141 gacacggcaa tgttgcaccg tttgctgcat gatattgaaa aaaatatcac caaataaaaa 4639201 acgccttagt aagtattttt c//

Page 57: 3 DataBase tics

ID U00096 standard; circular genomic DNA; CON; 4639221 BP.AC U00096;SV U00096.1DT 24-JUL-2003 (Rel. 76, Last updated, Version 3)DE Escherichia coli K-12 MG1655 complete genome.KW .OS Escherichia coli K12OC Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales;OC Enterobacteriaceae; Escherichia; Escherichia coli.RN [1]RP 1-4639221RX MEDLINE; 97426617.RX PUBMED; 9278503.RA Blattner F.R., Plunkett G. III, Bloch C.A., Perna N.T., Burland V.,…RT "The complete genome sequence of Escherichia coli K-12";RL Science 277(5331):1453-1474(1997).DR GOA; O32528.DR REMTREMBL; AAC74436; AAC74436.DR SPTREMBL; O32530; O32530.DR SWISS-PROT; O32528; YPDI_ECOLI. …

Page 58: 3 DataBase tics

CC This sequence was determined by the E. coli Genome Project at theCC University of Wisconsin-Madison (Frederick R. Blattner, director).CC Supported by NIH grants HG00301 and HG01428 (from the Human GenomeCC Project and NCHGR). The entire sequence was independentlyCC determined from E. coli K-12 strain MG1655. Predicted open readingCC frames were determined using GeneMark software, kindly supplied by…FH Key Location/QualifiersFT source 1..4639221FT /db_xref="taxon:83333"FT /mol_type="genomic DNA"FT /organism="Escherichia coli K12"FT /strain="K12"FT /sub_strain="MG1655"FT promoter 71..99FT /note="factor Sigma70; predicted +1 start at 106"…FT CDS 190..255FT /codon_start=1FT /db_xref="GOA:P03059"FT /db_xref="SWISS-PROT:P03059"FT /note="o21; 100 pct identical to LPT_ECOLI SW: P03059"FT /transl_table=11FT /gene="thrL"FT /function="leader; Amino acid biosynthesis: Threonine"FT /product="thr operon leader peptide"FT /protein_id="AAC73112.1"FT /translation="MKRISTTITTTITITTGNGAG“…

Page 59: 3 DataBase tics

SQ Sequence 4639221 BP; 1142136 A; 1179433 C; 1176775 G; 1140877 T; 0 other; agcttttcat tctgactgca acgggcaata tgtctctgtg tggattaaaa aaagagtgtc 60 tgatagcagc ttctgaactg gttacctgcc gtgagtaaat taaaatttta ttgacttagg 120 tcactaaata ctttaaccaa tataggcata gcgcacagac agataaaaat tacagagtac 180 acaacatcca tgaaacgcat tagcaccacc attaccacca ccatcaccat taccacaggt 240 aacggtgcgg gctgacgcgt acaggaaaca cagaaaaaag cccgcacctg acagtgcggg 300 cttttttttt cgaccaaagg taacgaggta acaaccatgc gagtgttgaa gttcggcggt 360 acatcagtgg caaatgcaga acgttttctg cgtgttgccg atattctgga aagcaatgcc 420 aggcaggggc aggtggccac cgtcctctct gcccccgcca aaatcaccaa ccacctggtg 480 gcgatgattg aaaaaaccat tagcggccag gatgctttac ccaatatcag cgatgccgaa 540 … tattgctatc aattagcaac attaatacaa caaccggcga aaagtgatgc aacggcagac 4639020 caacatcaac tgcaagcttt acgcgaacga gccatgacat tgctgacgac tctggcagtg 4639080 gcagatgaca taaaactggt cgactggtta caacaacgcc tggggctttt agagcaacga 4639140 gacacggcaa tgttgcaccg tttgctgcat gatattgaaa aaaatatcac caaataaaaa 4639200 acgccttagt aagtattttt c 4639221//

Page 60: 3 DataBase tics

EMBL 标识字 GenBank 标识字 含义ID LOCUS 序列名称DE DEFINITION 序列简单说明AC ACCESSION 唯一的序列编号SV VERSION 序列版本号KW KEYWORDS 与序列相关的关键词OS SOURCE 序列来源的物种名OC ORGANISM 序列来源的物种学名和分类学位置DT 建立日期RN REFERENCE 相关文献编号或提交注册信息RA AUTHORS 相关文献作者或提交序列作者RT TITLE 相关文献题目RL JOURNAL 相关文献刊物名或作者单位RX MEDLINE 相关文献Medline引文代码RC REMARK 相关文献注释RP 相关文献其它注释CC COMMENT 关于序列的注释信息DR 相关数据库交叉引用号FH FEATURES 序列特征表起始FT 序列特征表子项SQ BASE CONTENT 序列长度、碱基数目统计数空格 ORIGIN 序列// // 序列结束标志、空行

EMBLEMBL 和和 GenBankGenBank 数据库的行识别标志比较数据库的行识别标志比较

Page 61: 3 DataBase tics

§§3.23.2

生物信息学的基本问题生物信息学的基本问题

Page 62: 3 DataBase tics

后基因组时代的生物信息学后基因组时代的生物信息学 重大转变重大转变:从基因组测序转向对基因组表达的分析,转向对蛋白质组结构与功能的预测,转向用系统生物信息学观点研究生物调控的基本规律 系统复杂性的体现系统复杂性的体现:无论是基因的表达还是蛋白质的功能,在很多情况下,都是多个基因、多种蛋白质相互作用的结果 学科发展趋势学科发展趋势:数学、物理、计算科学、系统科学、控制科学、信息科学与生物学的综合应用

Page 63: 3 DataBase tics

核心与源头核心与源头:基因组信息学 “读懂”基因组的核苷酸顺序,即全部基因在染色体上的确切位置以及各 DNA片段的功能 在发现了新基因信息之后进行蛋白质空间结构模拟和预测 依据特定蛋白质的功能进行药物设计 了解基因表达的调控机理,根据生物分子在基因调控中的作用,描述人类疾病的诊断、治疗内在规律

基于整个基因组水平

对单个基对单个基因的了解因的了解

基因的组织结构和基因的组织结构和 信息结构信息结构 基因位置、结构和功能基因位置、结构和功能 上的相互关系上的相互关系

Page 64: 3 DataBase tics

§3.2.1 §3.2.1 基因与基因组学基因与基因组学 基因与基因组数据基因与基因组数据:以核酸序列、蛋白质序列为主(一维数字序列) 目的目的:解读遗传语言的奥秘 当前关注较多的工作当前关注较多的工作: 编码区( coding regions ) 部分调控序列( regulatory regions ) 绝大部分的非编码区:未知?

Page 65: 3 DataBase tics

大规模测序的每一个环节都与数据分析紧密相关 过程复杂、工作量大 有效的数据分析算法与软件

A) A) 大规模测序中的数据分析大规模测序中的数据分析

Page 66: 3 DataBase tics

序列数据发布

载体碱基读取

重复序列标识可读框 (ORF)预测 基因注释

填补间隙

拼接

载体标识

PhredPhd2fasta

Crossmatch

Phrap

Consed

RepeatmaskerGlimmerBlastxBlastnClastaltRNAscan

质量评估

QualCalQualDrawQualStat

COGsSwiss-port,PIR, GDB,GenBank

测序 大规模测序及数据分析过程

Page 67: 3 DataBase tics

大规模测序数据分析的关键问题大规模测序数据分析的关键问题 序列拼接序列拼接 ((AssembleAssemble))

填补序列间隙填补序列间隙 举例举例:

Phrap软件 (Green & Ewing, 1998) (http://www.genome.washington.edu/UTGC/analysistools/phrap.htm)

GigAssembler软件 (Kent & Haussler, 2000) 将测序得到的原始序列拼接成片段重叠群 (contig) ,并进一步拼接成更大的 contig 。 核心算法问题:优化算法,如动态规划算法、贪婪算法( greedy algorithm )

Page 68: 3 DataBase tics

通过计算分析从通过计算分析从 ESTEST 数据库发现新基因数据库发现新基因 EST(Expressed Sequence Tags) :基因表达的短 cDNA 序列

从从 DNADNA 序列计算预测基因编码区序列计算预测基因编码区 三种方法的综合: 1 、从 mRNA 和 EST 得到直接的证据; 2 、从已知基因和蛋白的序列同源性得到间接证据; 3 、结合各种统计性质的从头预测 (ab initio prediction) 方法。 HMM 方法 语言学方法 人工神经网络、模式识别方法 ……

B) B) 新基因的发现新基因的发现

Page 69: 3 DataBase tics

非编码区占人类基因组的 95% 以上,其生物学意义目前尚不是很清楚; (“Junk” DNA?)

一般认为,它们的生物学功能可能体现在对基因表达的时空调控上 ;非编码区信息解读的途径非编码区信息解读的途径::

( 1 )基于已有的已经为实验证实的所有功能已知的 DNA元件的序列特征,预测非编码区中可能含有的功能已知的 DNA元件,从而预测其可能的生物学功能,并通过实验进行验证;( 2 )通过理论直接探索非蛋白编码区的新的未知的序列特征,并从理论上预测其可能的信息含义,最后同样通过实验验证。

C) C) 非编码区的信息解读非编码区的信息解读

Page 70: 3 DataBase tics

生命的本质生命的本质: 生命现象是基因组中所有功能单元相互作用共同制造出来的。(复杂网络系统、复杂现象) 基于基因芯片的数据挖掘基于基因芯片的数据挖掘: 基因芯片( gene chip / DNA microarray )技术:可以监测基因组在各种时间断面上的整体转录表达状况,因此成为一项非常重要和关键的实验技术; 对该技术所产生的大量实验数据进行高效分析,从中获得基因组运转以及调控的整体系统的机制或者是网络机制,是生物信息学在该领域中首先要解决的问题。 探针设计的优化算法 基因芯片的信息管理 数据挖掘算法 基因转录调控网络分析方法

……

D) D) 基因组整体功能及其调控网络的系统把握基因组整体功能及其调控网络的系统把握

Page 71: 3 DataBase tics

E) E) 基因组演化与物种演化基因组演化与物种演化

Page 72: 3 DataBase tics

基因组整体组织方式的演化基因组整体组织方式的演化: 基因组整体组织方式在研究物种演化历史中起着重要作用而不仅仅是个别基因起作用。基因组是物种所有遗传信息的储藏库,从根本上决定着物种个体的发育和生理。 因此,从基因组整体结构组织和整体功能调节网络方面,结合相应的生理表征现象,进行基因组整体的演化研究,将是揭示物种真实演化历史的最佳途径; 发展比较基因组学的新方法、新算法。

当前分子进化研究的局限当前分子进化研究的局限: 尽管已经在分子演化方面取得了许多重要的成就,但仅仅依靠某些基因或者分子的演化现象,就想阐明物种整体的演化历史似乎不太可靠。 例:人与黑猩猩之间有 98%~99% 的结构基因和蛋白质相同,但表型上却差异巨大。 Building block 、复杂系统

Page 73: 3 DataBase tics

§3.2.2 §3.2.2 蛋白质组(蛋白质组( proteomeproteome ))

基因芯片技术基因芯片技术基因组基因组

RNARNA

蛋白质蛋白质蛋白质组技术蛋白质组技术

Page 74: 3 DataBase tics

蛋白质组技术蛋白质组技术

二维凝胶电泳技术二维凝胶电泳技术 质谱测序技术质谱测序技术

同一时刻同一时刻蛋白质组的表达情况蛋白质组的表达情况 所有蛋白质序列的组成所有蛋白质序列的组成

数据数据数据分析数据分析新型算法新型算法

Page 75: 3 DataBase tics

§3.2.3 §3.2.3 蛋白质结构与功能预测蛋白质结构与功能预测核酸与蛋白质序列数据库核酸与蛋白质序列数据库

蛋白质结构蛋白质结构与功能的知识与功能的知识 实验方法:实验方法:X射线晶体衍射技术NMR 技术三维图像重构技术…

Page 76: 3 DataBase tics

理论方法:模式识别理论方法:模式识别 基本思想基本思想:利用存在于蛋白质序列或结构中的某些特征模式识别相关蛋白质的性质。 基本路线基本路线::将已知蛋白质的特征序列模式和特征结构模式搜集起来,构建成数据库,则可以用来确定新测定的蛋白质序列中是否具有某种特征模式,从而确定该未知蛋白属于哪个蛋白质家族。

Page 77: 3 DataBase tics

统计统计 // 经验算法经验算法Chou-Fasman 方法(由已知结构统计各种氨基酸残基形成二级结构的构象趋势)GOR ( Garnier-Osguthorpe-Robson )方法(基于信息论算法,将一级结构与二级结构看成由一个转化过程相联系两个信息)机器学习方法

物理化学方法物理化学方法 基于氨基酸的物理化学性质,包括堆积性、疏水性、电荷性、氢键形成能力等 序列比对方法序列比对方法 通过序列比对,由已知三维结构的同源蛋白推断未知蛋白的二级结构

A) A) 蛋白质二级结构预测蛋白质二级结构预测

Page 78: 3 DataBase tics

B) B) 蛋白质三级结构预测蛋白质三级结构预测

Page 79: 3 DataBase tics

同源蛋白质结构预测同源蛋白质结构预测(比较建模方法): 进化过程中蛋白质三维结构的保守性远大于序列的保守性,当两个蛋白质序列同源性高于 35%时,一般情况下其三维结构基本相同。 片段组装法、距离几何法 蛋白质折叠类型的识别问题蛋白质折叠类型的识别问题

1. 新测定蛋白质序列能否折叠成已知的折叠模式? 2. 给定一个结构,能否在序列库中找到所有能够折叠成该结构的序列? 判别序列与结构模式匹配的计分算法、判别序列与蛋白质结构匹配的势函数方法、序列与结构排比的算法……

Page 80: 3 DataBase tics

蛋白质三级结构预测,特别是基于二级结构预测的三级结构预测,尽管已经由个别成功的例子,总的说来,还远远没有成熟。

蛋白质结构的从头预测蛋白质结构的从头预测 二级结构片段的堆积计算 简化模型的计算 基于知识的结构预测与从头预测相结合 完全根据蛋白质的物理模型进行分子动力学模拟

Page 81: 3 DataBase tics

§3.2.4 §3.2.4 生物大分子结构模拟生物大分子结构模拟和药物设计和药物设计

Page 82: 3 DataBase tics

由于基因多态性基因多态性的存在,生物表型及对环境、外源物和药物的反应都有所不同。研究基因多态性可以对群体的基因共性基因共性及其中的基因个性基因个性都有明确的认识,从而在保健、预防、治疗以及制药方面实现个性化、最优化。 生物信息学所提供的数据资料,可以指导对药物作用靶位的选定和药物分子的设计。这种方法有快速高效的特点,它的研究包括:大分子结构功能的模拟和预报药物分子与大分子结合的模拟关键性基因的致病机制生物分子同源性的分析生物分子在指定细胞的分布和位点个体差异……

Page 83: 3 DataBase tics

RNA 结构模拟和反义 RNA 的分子设计; 蛋白质空间结构模拟和分子设计; 具有不同功能域的复合蛋白质以及连接肽的设计; 生物活性分子的电子结构计算和设计; 纳米生物材料的模拟与设计; 基于酶和功能蛋白质结构、细胞表面受体结构的药物设计; 基于 DNA 结构的药物设计。

Page 84: 3 DataBase tics

§3.2.5 §3.2.5 细胞过程模拟细胞过程模拟细胞是生命活动的基本单元。已有基础:对细胞内各种代谢途径与信号转导过程的知识和数据积累。“Even if you construct a complete list of all the processes kno

wn to occur within a cell, that won't tell you how it works.”

1999 年 4 月 2日《 SCIENCE》刊文: Building Working Cells “in Silico” E-Cell (Masaru Tomita, 1999) Virtual Cell (L. Loew & J. Schaff, 1999)

Page 85: 3 DataBase tics

E-CellE-Cell 程序程序可以演示基本上已知的生化反应途径,前景上可以用计算实验模拟、代替试管和活体实验;允许用户规定细胞中有哪些基因和其它分子,以及它们的位置和浓度,有程序去模拟生化过程的发展。运行中可以剔除某个基因,或改变营养状况,以观察过程变化。

Page 86: 3 DataBase tics

如何运用数学、物理及相关领域的理论成果对生物体进行完整系统的理论模型描述,使得人类能够从一个更加明确的角度和一个更加易于操作的途径来认识和控制自身以及所有其他的生命体。

计算生物学的远大目标计算生物学的远大目标