第一章 dna 、 rna 和 蛋白质序列信息资源

66
人人人人人人人 8 人人人 7 人人人人人人人人人人人人人人人DNA DNA RNA RNA 第第第第第第第第第 第第第第第第第第第 DNA DNA RNA And Protein RNA And Protein Sequence Information Sequence Information Resources Resources 第第第第第第 第第第

Upload: fala

Post on 13-Jan-2016

125 views

Category:

Documents


0 download

DESCRIPTION

第一章 DNA 、 RNA 和 蛋白质序列信息资源. DNA 、 RNA And Protein Sequence Information Resources. 中国医科大学 赵雨杰. 生物信息学( bioinformatics ). 在生命科学研究中发展起来的一门由分子生物学与计算机信息处理技术相结合,以计算机为研究工具对生物信息进行获取、处理、储存、传播、分析、模拟和解释的交叉学科。. 生物信息学研究内容. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

人民卫生出版社 8 年制及 7 年制临床医学等专业用《生物信息学》

第一章 第一章 DNADNA 、、 RNARNA 和和蛋白质序列信息资源蛋白质序列信息资源

DNADNA 、、 RNA And Protein RNA And Protein Sequence Information ResourcesSequence Information Resources

中国医科大学 赵雨杰

Page 2: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

生物信息学(生物信息学( bioinformaticbioinformaticss )) • 在生命科学研究中发展起来的一门由分子在生命科学研究中发展起来的一门由分子

生物学与计算机信息处理技术相结合,以生物学与计算机信息处理技术相结合,以

计算机为研究工具对生物信息进行获取、计算机为研究工具对生物信息进行获取、

处理、储存、传播、分析、模拟和解释的处理、储存、传播、分析、模拟和解释的

交叉学科。 交叉学科。

Page 3: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

生物信息学研究内容生物信息学研究内容• 它利用数据库技术和软件技术对大量积累它利用数据库技术和软件技术对大量积累

的生物大分子序列数据进行比较和分析,的生物大分子序列数据进行比较和分析,

揭示出生物大分子的分子结构、功能和进揭示出生物大分子的分子结构、功能和进

化关系以及基因组构成与基因表达等生物化关系以及基因组构成与基因表达等生物

学事件对生命活动的影响。学事件对生命活动的影响。

Page 4: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

生物信息学研究重点生物信息学研究重点• 主要体现在基因组学(主要体现在基因组学( genomicsgenomics )和蛋)和蛋

白质组学(白质组学( proteomicsproteomics )两方面。它从)两方面。它从

核酸和蛋白质序列出发,分析序列中与结核酸和蛋白质序列出发,分析序列中与结

构、功能相关的生物信息的表达。构、功能相关的生物信息的表达。

Page 5: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

生物信息学数据库生物信息学数据库• 生物信息学中的各类数据库几乎覆盖了生生物信息学中的各类数据库几乎覆盖了生

命科学的各个领域,如核酸序列数据库,命科学的各个领域,如核酸序列数据库,

蛋白质序列数据库,蛋白质、核酸、多糖蛋白质序列数据库,蛋白质、核酸、多糖

的三维结构数据库,基因组数据库,文献的三维结构数据库,基因组数据库,文献

数据库和其他种类数据库。 数据库和其他种类数据库。

Page 6: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

生物信息学数据库分类生物信息学数据库分类 生物信息数据库种类繁多,就目前来看, 大体可生物信息数据库种类繁多,就目前来看, 大体可

以分为四个大类: 以分为四个大类: 1.1. 基因组数据库;基因组数据库; 2.2. 核酸和蛋白质一级结构序列数据库;核酸和蛋白质一级结构序列数据库; 3.3. 生物大分子(主要是蛋白质)三维空间 生物大分子(主要是蛋白质)三维空间

结构数据库; 结构数据库;

4.4. 根据以上三类数据库和文献资料为基础构建根据以上三类数据库和文献资料为基础构建的二次数据库。也称专门数据库、的二次数据库。也称专门数据库、

专业数据库或专用数据库。 专业数据库或专用数据库。

一次数据

Page 7: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

第二节 核酸序列数据库第二节 核酸序列数据库Section 2 Nucleic Acid sequence Section 2 Nucleic Acid sequence DatabasesDatabases

• 自自 2020 世纪世纪 8080 年代第一个核酸数据库建立以来,年代第一个核酸数据库建立以来,

核酸数据库迅速发展。在互联网上不仅有核酸序核酸数据库迅速发展。在互联网上不仅有核酸序

列数据库,还出现了基因组相关数据库、核酸三列数据库,还出现了基因组相关数据库、核酸三

维结构数据库、基因表达数据库、人类基因突变维结构数据库、基因表达数据库、人类基因突变

及疾病相关数据库、进化相关数据库及其他与核及疾病相关数据库、进化相关数据库及其他与核

酸有关的数据库。 酸有关的数据库。

Page 8: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

三大核酸序列数据库 三大核酸序列数据库 • GenBankGenBank

• EMBLEMBL

• DDBJDDBJ

Page 9: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

特殊类型核酸序列数据库:特殊类型核酸序列数据库:• 非编码非编码 RNARNA 数据库(数据库( ncRNAncRNA ););• 表达序列标签数据库(表达序列标签数据库( dbESTdbEST ););• 序列标签位点数据库(序列标签位点数据库( dbSTSdbSTS ););• miRBase miRBase ;;• tRNAdbtRNAdb 等。 等。

Page 10: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

基因组相关数据库:基因组相关数据库:• 人类基因组数据库(人类基因组数据库( HGDHGD ););• 基因组序列数据库(基因组序列数据库( GSDBGSDB ););• 基因组在线数据库(基因组在线数据库( GOLDGOLD )等。)等。

Page 11: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

核酸三维结构数据库:核酸三维结构数据库:• 核苷酸三维结构数据库(核苷酸三维结构数据库( NDBNDB ););• 普纳大学核酸结构数据库(普纳大学核酸结构数据库( BNASDBBNASDB )等。)等。

Page 12: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

基因表达数据库:基因表达数据库:• 基因表达库(基因表达库( GEOGEO ););• 斯坦福微阵列数据库(斯坦福微阵列数据库( SMDSMD ););• ArrayExpressArrayExpress ;;• CGEDCGED ;;• GXDGXD ;;• BodyMap BodyMap 等。等。

Page 13: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

人类基因突变及疾病相关数据库:人类基因突变及疾病相关数据库:• 人类基因变异数据库(人类基因变异数据库( HMGDHMGD )、人类遗传双等位基因)、人类遗传双等位基因

序列数据库(序列数据库( HGBASEHGBASE )、人类孟德尔遗传在线)、人类孟德尔遗传在线

(( OMIMOMIM )、国际单体型计划()、国际单体型计划( HapMapHapMap )、人类单)、人类单

核苷酸多态性数据库(核苷酸多态性数据库( dbSNPdbSNP )、肿瘤基因数据库)、肿瘤基因数据库

(( TGDBTGDB )、疾病关联数据库()、疾病关联数据库( GADGAD )、癌症基因数)、癌症基因数

据库(据库( CGAPCGAP )、人类表观遗传数据库()、人类表观遗传数据库( HEPHEP )、人)、人

类类 DNADNA 甲基化与癌症数据库(甲基化与癌症数据库( MethylCancerMethylCancer )等。)等。

Page 14: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

一、一、 GenBankGenBank 数据库 数据库 • GenBankGenBank ((

http://www.ncbi.nlm.nih.gov/genbank/)是一个综合数据库,该数据库中包含了)是一个综合数据库,该数据库中包含了已经公开的已经公开的 3030 万余种不同物种生物的核酸万余种不同物种生物的核酸序列,这些数据主要来源于全世界不同实序列,这些数据主要来源于全世界不同实验室和大规模测序计划项目。验室和大规模测序计划项目。

Page 15: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

• GenBankGenBank 是具有目录和生物学注释的核酸序列综是具有目录和生物学注释的核酸序列综合数据库,由美国国家医学图书馆的国家生物技术合数据库,由美国国家医学图书馆的国家生物技术信息中心构建、维护和管理。该中心位于美国马里信息中心构建、维护和管理。该中心位于美国马里兰国家健康研究所(兰国家健康研究所( NIHNIH )。)。 GenBankGenBank 数据库数据库的序列数据来源于序列发现者提交的序列、批量提的序列数据来源于序列发现者提交的序列、批量提交的表达序列标签(交的表达序列标签( expressed sequence expressed sequence

tag, ESTtag, EST )、基因组测序序列()、基因组测序序列( genome genome

survey sequence, GSSsurvey sequence, GSS )和其他测序中心提)和其他测序中心提供的高通量数据,还包括美国专利商标局提供的已供的高通量数据,还包括美国专利商标局提供的已发表专利的序列数据。 发表专利的序列数据。

Page 16: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

• GenBankGenBank 数据库每天与欧洲分子生物学数据库每天与欧洲分子生物学实验室的核酸序列数据库(实验室的核酸序列数据库( European European

Molecular Biology Laboratory Molecular Biology Laboratory

Nucleotide Sequence Nucleotide Sequence

DatabaseDatabase ,, EMBLEMBL )和日本的)和日本的 DNADNA

数据库(数据库( DNA Data Bank of Japan DNA Data Bank of Japan

DDBJDDBJ )进行数据交换,以保证数据库内)进行数据交换,以保证数据库内容在全世界范围的同步性。 容在全世界范围的同步性。

Page 17: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

• 在在 NCBINCBI (( http://www.ncbi.nlm.nih.govhttp://www.ncbi.nlm.nih.gov

// )的主页上提供了进入)的主页上提供了进入 GenBankGenBank 的路径、相关的路径、相关检索和分析服务。检索和分析服务。

• 通过通过 NCBINCBI 的检索系统(的检索系统( EntrezEntrez )可以进入)可以进入GenBankGenBank 。。 EntrezEntrez 检索程序整合了主要的检索程序整合了主要的DNADNA 和蛋白序列数据的分类学、基因组、图谱、和蛋白序列数据的分类学、基因组、图谱、蛋白结构和结构(功能)域信息,还包括相关的蛋白结构和结构(功能)域信息,还包括相关的PubMedPubMed 的生物医学文献信息。的生物医学文献信息。

• BLASTBLAST程序提供程序提供 GenBankGenBank 和其他序列数据库和其他序列数据库中序列相似性搜索服务。中序列相似性搜索服务。

Page 18: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

(一)(一) GenBankGenBank 数据库结构 数据库结构

• 1. 1. 依据序列的物种来源分类 依据序列的物种来源分类 • 2. Genbank2. Genbank 记录和分类 记录和分类

•2.1 2.1 表达序列标签表达序列标签 (EST) (EST)

•2.2 2.2 序列标签位点序列标签位点 (STS)(STS) 、基因组勘测序列、基因组勘测序列 (GSS)(GSS)

和环境样品序列和环境样品序列 (ENV) (ENV)

•2.3 2.3 高通量基因组高通量基因组 (HTG)(HTG) 和高通量和高通量 cDNA(HTC)cDNA(HTC)

序列 序列 •2.4 2.4 全基因组鸟枪测序序列全基因组鸟枪测序序列 (WGS) (WGS)

•2.5 2.5 转录组鸟枪组合序列 转录组鸟枪组合序列

Page 19: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

(一)(一) GenBankGenBank 数据库结构数据库结构• 3. 3. 特殊记录类型特殊记录类型

•3.1 3.1 第三方注释(第三方注释( TPATPA ) ) •3.2 GenBank CON3.2 GenBank CON 记录 较小记录组合记录 记录 较小记录组合记录

Page 20: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

(二)构建数据库(二)构建数据库• 11 .直接电子提交 .直接电子提交

•1.1 1.1 使用使用 BankItBankIt 提交 提交 •1.2 1.2 使用使用 SequinSequin 和和 tbl2asntbl2asn 提交 提交 •1.3 1.3 条形码序列提交 条形码序列提交

• 2. 2. 序列标识符和记录号 序列标识符和记录号

Page 21: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

(三)检索(三)检索 GenBankGenBank 数据数据• 1. Entrez1. Entrez 系统 系统

(( http://www.ncbi.nlm.nih.gov/sites/gquerhttp://www.ncbi.nlm.nih.gov/sites/gquer

yy ) ) • 2. 2. 与测序计划检索相关的序列记录 与测序计划检索相关的序列记录

(( http://www.ncbi.nlm.nih.gov//genomeprjhttp://www.ncbi.nlm.nih.gov//genomeprj ) ) • 3. BLAST 3. BLAST 序列相似性搜索 序列相似性搜索

(( http://blast.ncbi.nlm.nih.gov/Blast.cgihttp://blast.ncbi.nlm.nih.gov/Blast.cgi ) ) • 4. 4. 用用 FTPFTP 获取获取 GenBank GenBank

(( http://ftp.ncbi.nih.gov/genbankhttp://ftp.ncbi.nih.gov/genbank ) )

Page 22: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

二、二、 EMBLEMBL 数据库数据库• EMBLEMBL 建立于建立于 19801980 年,年, EMBLEMBL 核苷序列数核苷序列数

据库(据库( http:// www.edi.ac.uk/embl/http:// www.edi.ac.uk/embl/ )是)是欧洲主要的核苷序列收集单位,欧洲生物信欧洲主要的核苷序列收集单位,欧洲生物信息中心息中心 EBIEBI (即(即 EMBLEMBL 在德国海德堡的站在德国海德堡的站点)维护这个数据库。点)维护这个数据库。

• 核苷数据来自基因组测序中心、世界各地的核苷数据来自基因组测序中心、世界各地的科学家、欧洲专利局、以及与合作伙伴科学家、欧洲专利局、以及与合作伙伴DDBJ (Japan)DDBJ (Japan) 和和 GenBank (USA)GenBank (USA) 交换的交换的数据。 数据。

Page 23: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

三、三、 DDBJDDBJ 数据库 数据库 • 日本日本 DNADNA 数据库(数据库( DDBJDDBJ )是在亚洲唯一的核)是在亚洲唯一的核

酸序列数据库,是搜集研究者公认的测定核酸序酸序列数据库,是搜集研究者公认的测定核酸序列的数据库,并且发放给数据提交者国际认证的列的数据库,并且发放给数据提交者国际认证的核酸序列编号。由于核酸序列编号。由于 DDBJDDBJ 每天将搜集的数据与每天将搜集的数据与EMBL-Bank/EBIEMBL-Bank/EBI 和和 GenBank/NCBIGenBank/NCBI 进行交进行交换,使得三个核酸数据库几乎在任何时候都享有换,使得三个核酸数据库几乎在任何时候都享有相同数据。相同数据。 DDBJDDBJ 主要收集来自日本研究者获得主要收集来自日本研究者获得的序列数据,但也收集数据和发放编号给任何其的序列数据,但也收集数据和发放编号给任何其他国家的研究者。 他国家的研究者。

Page 24: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

四、其他重要的核酸序列数据库四、其他重要的核酸序列数据库• dbESTdbEST :: dbESTdbEST 是是 GenBankGenBank 中的一个子数中的一个子数

据库,包含来源于不同物种的表达序列数据和表据库,包含来源于不同物种的表达序列数据和表达序列标签序列的其他信息。 达序列标签序列的其他信息。

• ncRNAdbncRNAdb:非编码:非编码 RNARNA (( non-coding non-coding

RNA ncRNARNA ncRNA )数据库旨在提供非编码)数据库旨在提供非编码 RNARNA 的的序列和功能信息。 序列和功能信息。

• miRBasemiRBase :: miRBasemiRBase 序列数据库主要存放已序列数据库主要存放已发表的微小发表的微小 RNARNA (( microRNA miRNA)microRNA miRNA) 序列序列和注释的数据库。 和注释的数据库。

Page 25: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

第三节 蛋白质序列数据库第三节 蛋白质序列数据库Section 3 Protein Sequence Section 3 Protein Sequence

DatabaseDatabase • 随着分子生物学的发展,人们获得了越来越多关随着分子生物学的发展,人们获得了越来越多关

于蛋白质序列、结构和功能的信息。世界各国的于蛋白质序列、结构和功能的信息。世界各国的生物学家和计算机科学家合作利用这些信息构建生物学家和计算机科学家合作利用这些信息构建了蛋白质序列数据库、蛋白质三维结构数据库、了蛋白质序列数据库、蛋白质三维结构数据库、蛋白质组数据库(二维凝胶电泳数据库)、信号蛋白质组数据库(二维凝胶电泳数据库)、信号传导及蛋白质传导及蛋白质 -- 蛋白质相互作用相关数据蛋白质相互作用相关数据库、库、 DNADNA 和蛋白质相互作用数据库等蛋白质相和蛋白质相互作用数据库等蛋白质相关数据库。关数据库。

Page 26: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

常用的蛋白质序列数据库: 常用的蛋白质序列数据库: • PIRPIR

• MIPSMIPS

• Swiss-Prot Swiss-Prot

Page 27: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

蛋白质功能、结构域和蛋白质家族蛋白质功能、结构域和蛋白质家族有关的数据库: 有关的数据库:

• PROSITEPROSITE

• InterProInterPro

• PfamPfam

• ProDomProDom

• SMART SMART 等 等

Page 28: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

蛋白质三维结构相关数据库: 蛋白质三维结构相关数据库: • PDBPDB• BioMagResBankBioMagResBank• SWISS-MODEL RepositorySWISS-MODEL Repository• ModBaseModBase• CATHCATH• SCOPSCOP• ReLiBaseReLiBase• TOPSTOPS• SWISS-3DIMAGESWISS-3DIMAGE• BioImageBioImage 等 等

Page 29: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

蛋白质二维凝胶电泳数据库: 蛋白质二维凝胶电泳数据库: • WORLD-2DPAGEWORLD-2DPAGE

• Phoretix links Phoretix links

Page 30: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

信号传导及蛋白质信号传导及蛋白质 -- 蛋白质相互蛋白质相互作用相关数据库:作用相关数据库:• DIPDIP

• INTERACTINTERACT

• ProNetProNet

• KEGGKEGG

• CANSITECANSITE

• SPADSPAD

• CSNDBCSNDB 等等

Page 31: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

• DNADNA 和蛋白质相互作用数据库:和蛋白质相互作用数据库:DPInteractDPInteract

• 蛋白质翻译后修饰相关数据库:蛋白质翻译后修饰相关数据库:O-GlycBaseO-GlycBase 、、 PhosphoBasePhosphoBase 、、 RESRES 蛋白蛋白

质等蛋白质质等蛋白质

Page 32: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

一、一、 PIRPIR 数据库数据库• 蛋白质信息库(蛋白质信息库( PIRPIR )()( http://http://

pir.georgetown.edu/pirwww/pir.georgetown.edu/pirwww/ )是一个支持基)是一个支持基因组学、蛋白质组学和系统生物学检索和科学研因组学、蛋白质组学和系统生物学检索和科学研究的综合公共生物信息学资源。究的综合公共生物信息学资源。

• PIRPIR 是由美国国家生物医学基金会(是由美国国家生物医学基金会( NBRFNBRF )于)于19841984 年建立,帮助研究者确认和解释蛋白序列年建立,帮助研究者确认和解释蛋白序列信息的数据库。 信息的数据库。

• PIRPIR 免费为科学界提供包括蛋白序列数据库免费为科学界提供包括蛋白序列数据库(( PSDPSD )在内的蛋白数据库和分析工具。 )在内的蛋白数据库和分析工具。

Page 33: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

PIRPIR 信息库资源 信息库资源

Page 34: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

PIRPIR 主要数据库: 主要数据库: • 1. UniProt-1. UniProt- 通用蛋白质资源库通用蛋白质资源库• 2. iProClass-2. iProClass- 蛋白质知识整合数据库 蛋白质知识整合数据库 • 3. PIRSF-3. PIRSF- 蛋白质家族分类系统 蛋白质家族分类系统 • 4. iProLINK-4. iProLINK- 蛋白质文献、信息和知识整蛋白质文献、信息和知识整

合数据库 合数据库

Page 35: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

• 1.UniProt-1.UniProt- 通用蛋白质资源库 通用蛋白质资源库 UniProtUniProt ((http://www.uniprot.org/)是存储和链接其他)是存储和链接其他蛋白质数据库的资源库,并且是蛋白质序列和具蛋白质数据库的资源库,并且是蛋白质序列和具有综合功能注释目录的中心资源库。使用有综合功能注释目录的中心资源库。使用UniprotKBUniprotKB可以检索准确、可靠的蛋白综合信可以检索准确、可靠的蛋白综合信息。使用息。使用 UniRefUniRef可以减少冗余,加速序列相似可以减少冗余,加速序列相似性搜索。使用性搜索。使用 UniParcUniParc可以检索存档序列和它可以检索存档序列和它们来源的数据库。 们来源的数据库。

Page 36: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

• 2. iProClass-2. iProClass- 蛋白质知识整合数据库 蛋白质知识整合数据库 iProClassiProClass

(( http://pir.georgetown.edu/iproclass/http://pir.georgetown.edu/iproclass/ ))提供来自提供来自 9090 多个生物学数据库的大量整合数据,包多个生物学数据库的大量整合数据,包括蛋白括蛋白 IDID 图谱服务、图谱服务、 UniProtKBUniProtKB编注蛋白质摘要编注蛋白质摘要描述和筛选描述和筛选 UnParcUnParc 数据库的蛋白质序列。使用数据库的蛋白质序列。使用iProClassiProClass可以检索最新的蛋白质综合信息,包括:可以检索最新的蛋白质综合信息,包括:功能、转导通路、相互作用、家族分类、基因和基因功能、转导通路、相互作用、家族分类、基因和基因组、功能注释标准体系(组、功能注释标准体系( ontologyontology )、文献和分)、文献和分类学信息。使用类学信息。使用 iProClassiProClass 还可以检索还可以检索 IDID 图谱、蛋图谱、蛋白质词典和相关序列。白质词典和相关序列。

Page 37: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

• 3. PIRSF-3. PIRSF- 蛋白质家族分类系统 蛋白质家族分类系统 PIRSFPIRSF

(( http://pir.georgetown.edu/pirsfhttp://pir.georgetown.edu/pirsf

// )分类系统概要论述家族的特征,如家族)分类系统概要论述家族的特征,如家族名称、分类分布、分级和功能域结构,以名称、分类分布、分级和功能域结构,以及家族成员,包括功能、结构、传导通路、及家族成员,包括功能、结构、传导通路、功能注释标准体系(功能注释标准体系( ontologyontology )和家族)和家族分类。利用这些信息可以获得蛋白质的准分类。利用这些信息可以获得蛋白质的准确功能或预测的功能和该蛋白质所属家族确功能或预测的功能和该蛋白质所属家族成员共有的其他特征。成员共有的其他特征。

Page 38: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

• 4. iProLINK-4. iProLINK- 蛋白质文献、信息和知识整合数据库 蛋白质文献、信息和知识整合数据库 iProLINKiProLINK (( http://pir.georgetown.edu/iprolinhttp://pir.georgetown.edu/iprolin

k/k/ )提供有关注释内容的文献、蛋白质名称词典和其他有)提供有关注释内容的文献、蛋白质名称词典和其他有助于文献挖掘的人文语言处理技术开发的信息、数据库校助于文献挖掘的人文语言处理技术开发的信息、数据库校正、蛋白质名称标记和功能注释标准体系(正、蛋白质名称标记和功能注释标准体系( ontologontolog

yy )。使用)。使用 iProLINKiProLINK 可以获得描述蛋白质记录的文本文可以获得描述蛋白质记录的文本文献资源,在献资源,在 UniProtKBUniProtKB记录(生物词典)中加入蛋白质记录(生物词典)中加入蛋白质或基因命名的图谱,获得用于开发文本挖掘算法的注释数或基因命名的图谱,获得用于开发文本挖掘算法的注释数据集、挖掘蛋白质磷酸化(据集、挖掘蛋白质磷酸化( RLIMS-PRLIMS-P )文献和获得蛋白)文献和获得蛋白质功能注释标准体系(质功能注释标准体系( ontologyontology )()( PROPRO )信息。 )信息。

Page 39: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

二、二、 MIPSMIPS 数据库数据库• 慕尼黑蛋白质序列信息中心(慕尼黑蛋白质序列信息中心( MIPSMIPS )()( http://http://

www.helmholtz-muenchen.de/en/mipswww.helmholtz-muenchen.de/en/mips ),它的重),它的重点工作是基因组生物信息学,特别注重基因组信息系统分析,点工作是基因组生物信息学,特别注重基因组信息系统分析,包括应用生物信息学方法注释基因组、表达分析和蛋白质组包括应用生物信息学方法注释基因组、表达分析和蛋白质组学方面研究。学方面研究。 MIPSMIPS支持和维护一系列基因组数据库以及系支持和维护一系列基因组数据库以及系统,可以提供细菌、真菌和植物基因组比较分析服务。在该统,可以提供细菌、真菌和植物基因组比较分析服务。在该站点提供基因组分析工具、数据库检索系统、表达分析、蛋站点提供基因组分析工具、数据库检索系统、表达分析、蛋白相互作用等网络服务。白相互作用等网络服务。

Page 40: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

三、其他重要的蛋白质序列数据库:三、其他重要的蛋白质序列数据库:

• PRINTSPRINTS

• PfamPfam

Page 41: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

(一)(一) PRINTSPRINTS

• PRINTSPRINTS (( http://http://

www.bioinf.manchester.ac.uk/dbbrowser/www.bioinf.manchester.ac.uk/dbbrowser/

PRINTS/index.phpPRINTS/index.php )是蛋白基序指纹图综合数据库,)是蛋白基序指纹图综合数据库,每个指纹图都是使用数据扫描程序每个指纹图都是使用数据扫描程序 ADSPADSP 或或 VISTASVISTAS 序序列分析软件包反复优化后定义的。数据库中有两种类型指列分析软件包反复优化后定义的。数据库中有两种类型指纹图,根据指纹图的复杂性分为简单和复合指纹图:简单纹图,根据指纹图的复杂性分为简单和复合指纹图:简单指纹图基本上是单一的基序,而复合指纹图包含多个基序。指纹图基本上是单一的基序,而复合指纹图包含多个基序。

Page 42: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

(二)(二) PfamPfam• 蛋白质一般是由一个或多个功能区域组成,这些功蛋白质一般是由一个或多个功能区域组成,这些功

能区域通常称作域(能区域通常称作域( domaindomain )。在不同的蛋白质)。在不同的蛋白质中不同的域以不同的组合出现,导致在自然界发现中不同的域以不同的组合出现,导致在自然界发现多种多样组成成分的蛋白质。识别出现在蛋白质中多种多样组成成分的蛋白质。识别出现在蛋白质中的域可以了解蛋白质的功能。的域可以了解蛋白质的功能。

• PfamPfam 数据库(数据库( http://pfam.sanger.ac.uk/http://pfam.sanger.ac.uk/ )是)是一个大的蛋白质域家族集合,每个家族是用多序列一个大的蛋白质域家族集合,每个家族是用多序列比对和隐马模型(比对和隐马模型( HMMsHMMs )分析结果的代表。 )分析结果的代表。

Page 43: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

第四节 第四节 NCBINCBI 与与 EBIEBISection 4 NCBI and EBISection 4 NCBI and EBI

• 一、一、 NCBINCBI 的简介的简介• 二、二、 EBIEBI 简介简介

Page 44: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

一、一、 NCBINCBI 的简介的简介• 作为一个国家分子生物学信息资源,作为一个国家分子生物学信息资源, NCBINCBI 的使的使

命是开发新的信息技术,帮助理解控制健康和疾命是开发新的信息技术,帮助理解控制健康和疾病的基本分子和遗传过程。特别是,病的基本分子和遗传过程。特别是, NCBINCBI肩负肩负建立存储和分析分子生物学、生物化学和遗传学建立存储和分析分子生物学、生物化学和遗传学知识的自动系统;提供研究和医学界使用方便的知识的自动系统;提供研究和医学界使用方便的数据库和软件;努力协调搜集国内外生物技术信数据库和软件;努力协调搜集国内外生物技术信息;执行分析生物学重要分子结构和功能的先进息;执行分析生物学重要分子结构和功能的先进研究方法。研究方法。

Page 45: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

二、二、 EBIEBI 简介简介• 欧洲生物信息学研究所(欧洲生物信息学研究所( EMBL-EBIEMBL-EBI ),是欧洲分子生物学),是欧洲分子生物学

实验室(实验室( EMBLEMBL )的一部分,)的一部分, EMBL-EBIEMBL-EBI 维护世界上最广泛维护世界上最广泛的分子数据库。的分子数据库。 EMBL-EBIEMBL-EBI 是在全球范围内,努力协调搜集是在全球范围内,努力协调搜集和传播生物学数据的欧洲节点,和传播生物学数据的欧洲节点, EMBL-EBIEMBL-EBI 的许多数据库是的许多数据库是生物学家们熟知的,包括:生物学家们熟知的,包括: EMBL-BankEMBL-Bank (( DNADNA 和和 RNARNA

序列)、序列)、 EnsembleEnsemble (基因组)、(基因组)、 ArrayExpressArrayExpress (基于(基于微阵列的基因表达数据)、微阵列的基因表达数据)、 UniProtUniProt (蛋白质序(蛋白质序列)、列)、 InterProInterPro (蛋白家族、域和基序)、(蛋白家族、域和基序)、 ReactomeReactome

(传导通路)和(传导通路)和 ChEBIChEBI (小分子),新的资源帮助研究者不(小分子),新的资源帮助研究者不仅了解构成生物体的分子部件,还了解这些部件是如何组合构仅了解构成生物体的分子部件,还了解这些部件是如何组合构成系统的。成系统的。

Page 46: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

三、通过三、通过 Entrez GeneEntrez Gene 从从 NCBINCBI 获获取序列信息取序列信息

• EntrezEntrez 主要是用于主要是用于 NCBINCBI 数据库综合的、基于数据库综合的、基于文本的搜索和检索系统。文本的搜索和检索系统。 EntrezEntrez 综合了科学文综合了科学文献、献、 DNADNA 和蛋白序列数据、和蛋白序列数据、 3D3D 蛋白质结构和蛋白质结构和蛋白质域数据、种群研究数据集、表达数据、完蛋白质域数据、种群研究数据集、表达数据、完整基因组组装和分类学信息,形成一个紧密链接整基因组组装和分类学信息,形成一个紧密链接的系统。它用于搜索的系统。它用于搜索 NCBINCBI链接数据库的检索系链接数据库的检索系统。 统。

Page 47: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

EntrezEntrez 检索系统子数据库 检索系统子数据库

Page 48: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

(一)(一) Entrez Gene Entrez Gene 检索 检索 • Entrez GeneEntrez Gene 检索到的记录提供关键链接,将图检索到的记录提供关键链接,将图谱、序列、表达、结构、功能、索引文献和同源数谱、序列、表达、结构、功能、索引文献和同源数据链接在一起构成关键链接。用定义序列、已知的据链接在一起构成关键链接。用定义序列、已知的图谱定位和从表型信息推测的基因,为基因分配特图谱定位和从表型信息推测的基因,为基因分配特有标识符。这些标识符在有标识符。这些标识符在 NCBINCBI 的数据库中通用,的数据库中通用,可以用于注释更新跟踪和相关信息跟踪。可以用于注释更新跟踪和相关信息跟踪。 Entrez Entrez

GeneGene 用用 NCBINCBI参考序列(参考序列( RefSeqsRefSeqs )覆盖了)覆盖了基因组,还被整合到基因组,还被整合到 NCBINCBI 的的 EntrezEntrez 和和 E-E-

UtilitiesUtilities 系统的索引、查询和检索中。系统的索引、查询和检索中。

Page 49: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

NCBINCBI 检索首页检索窗口的数据库检索首页检索窗口的数据库选项下拉菜单 选项下拉菜单

Page 50: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

检索栏(检索栏( forfor )输入)输入““ IL-2 IL-2 humanhuman””

Page 51: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

(二)(二) Entrez GeneEntrez Gene 记录显示记录显示格式 格式 • 当进行检索时,检索结果以摘要(当进行检索时,检索结果以摘要( summarysummary )格式显)格式显

示,每页可显示多条记录,摘要显示的每条记录前有一个示,每页可显示多条记录,摘要显示的每条记录前有一个选择框,可以选择哪些记录需要显示。显示内容还包括首选择框,可以选择哪些记录需要显示。显示内容还包括首选名称标志、完整全名、双单词的物种名称(在方括号选名称标志、完整全名、双单词的物种名称(在方括号中)、基因组定位和基因编号。如果基因在已命名的质粒中)、基因组定位和基因编号。如果基因在已命名的质粒上,那么作为基因定位将给出质粒名称。右侧的上,那么作为基因定位将给出质粒名称。右侧的 LinksLinks

可以关联到显示相关的可以关联到显示相关的 EntrezEntrez记录,核对希望显示的记记录,核对希望显示的记录,选择灰色查询条目中的显示选项,可以显示希望显示录,选择灰色查询条目中的显示选项,可以显示希望显示的相关记录。的相关记录。

Page 52: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

Entrez GeneEntrez Gene 检索结果摘要格式显示页检索结果摘要格式显示页面面

Page 53: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

Entrez GeneEntrez Gene 全文报告页面 (前部分)全文报告页面 (前部分)

Page 54: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

Entrez GeneEntrez Gene全文报告页面 (后部分)全文报告页面 (后部分)

Page 55: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

IL2 mRNA IL2 mRNA 的的 NucleotideNucleotide 数据库记录检索结果显示界数据库记录检索结果显示界

面面

Page 56: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

((三)三) NucleotideNucleotide 数据库记录显示格数据库记录显示格式式

• NucleotideNucleotide 数据库记录的显示结果,可以数据库记录的显示结果,可以GenBankGenBank 、、 FASTAFASTA 、、 GraphicsGraphics 和和 ASN.1ASN.1格格式显示,序列信息通常用式显示,序列信息通常用 FASTAFASTA 和和 GenBankGenBank 两两种格式显示,种格式显示, FASTAFASTA格式仅包括该序列的简要特格式仅包括该序列的简要特征,并以征,并以 GG 、、 AA 、、 TT、、 CC 四种碱基列出核苷酸序四种碱基列出核苷酸序列,简单明了。而列,简单明了。而 GenBankGenBank 格式可显示较完整格式可显示较完整的基因序列记录,反映核苷酸序列的详细信息。 的基因序列记录,反映核苷酸序列的详细信息。

Page 57: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

四、通过四、通过 SRSSRS 从从 EBIEBI 中获取蛋白质序列信中获取蛋白质序列信息息 • SRSSRS (( http://srs.ebi.ac.uk/srsbin/cgi-bin/http://srs.ebi.ac.uk/srsbin/cgi-bin/

wgetz?-page+quickSearch+-wgetz?-page+quickSearch+-

id+76e2D1aC0Riid+76e2D1aC0Ri )是世界上主要的生物信息学、基)是世界上主要的生物信息学、基因组和相关数据整合、分析和显示工具。因组和相关数据整合、分析和显示工具。 SRSSRS 检索系统检索系统是个开放的系统,可以根据不同的需要安装不同的数据库,是个开放的系统,可以根据不同的需要安装不同的数据库,现在,安装在现在,安装在 EBIEBI 的数据库有的数据库有 300300 多个。多个。

• SRSSRS 有三种检索方式:快速检索、标准检索和批量检索。有三种检索方式:快速检索、标准检索和批量检索。

Page 58: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

SRSSRS开始页面 开始页面

Page 59: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

SRSSRS快速文本检索窗口 快速文本检索窗口

Page 60: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

SRSSRS 检索结果页面显示的检索结果 检索结果页面显示的检索结果

Page 61: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

SRSSRS 蛋白质记录详细内容页面 蛋白质记录详细内容页面

Page 62: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

SRSSRS 蛋白质序列显示窗口 蛋白质序列显示窗口

Page 63: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

SRSSRS 标准检索页面 标准检索页面

Page 64: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

SRSSRS 标准检索页面检索基因名为标准检索页面检索基因名为““ KRASKRAS”” 蛋白序列输入示意图蛋白序列输入示意图

Page 65: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

SRSSRS 标准检索结果输出页面 标准检索结果输出页面

Page 66: 第一章  DNA 、 RNA 和 蛋白质序列信息资源

小 结 小 结 • 本章介绍了生物信息学常用的数据库和重要网站,重点介绍了本章介绍了生物信息学常用的数据库和重要网站,重点介绍了

三大核酸数据库:三大核酸数据库: GenBankGenBank 数据库、数据库、 EMBLEMBL 数据库和数据库和DDBJDDBJ 数据库。数据库。

• NCBI NCBI 的的 Entrez GeneEntrez Gene 将分类、基因组、图谱、序列、表将分类、基因组、图谱、序列、表达、结构、功能、索引文献和同源数据链接在一起,为用户提达、结构、功能、索引文献和同源数据链接在一起,为用户提供了便捷的检索方式。 供了便捷的检索方式。

• EBIEBI 的的 SRSSRS 检索系统是世界上主要的生物信息学、基因组和检索系统是世界上主要的生物信息学、基因组和相关数据整合、分析和显示工具。相关数据整合、分析和显示工具。 SRSSRS 检索系统是个开放的检索系统是个开放的系统,可以根据用户不同的需要安装不同的数据库,便于用户系统,可以根据用户不同的需要安装不同的数据库,便于用户开发具有自己特性的操作平台,尤其在数据分析方面,对于检开发具有自己特性的操作平台,尤其在数据分析方面,对于检索的信息可以进行多种方式的分析处理。 索的信息可以进行多种方式的分析处理。