lecture 2 : he miao phd [email protected] sun yat-sen university, guangzhou mar. 2011

103
Lecture 2 : He Miao PhD [email protected] Sun Yat-sen University, Guangzhou Mar. 2011 1

Upload: amadahy-mitchell

Post on 30-Dec-2015

70 views

Category:

Documents


1 download

DESCRIPTION

Lecture 2 : He Miao PhD [email protected] Sun Yat-sen University, Guangzhou Mar. 2011. 生物信息数据库简介. 人类遗传数据国际宣言纲要(修正稿). 国际生命伦理学委员会( IBC )在第九次会议( 2002 年 11 月 26-28 日,加拿大蒙特利尔)初步审议后提出,在国际生命伦理学委员会起草小组第四次会议( 2002 年 11 月 29 日,加拿大蒙特利尔)缜密考虑基础上产生的。 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

Lecture 2 :

He Miao PhD

[email protected] Yat-sen University, GuangzhouMar. 2011

1

Page 2: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

人类遗传数据国际宣言纲要(修正稿)

• 国际生命伦理学委员会( IBC)在第九次会议( 2002 年 11 月 26-28 日,加拿大蒙特利尔)初步审议后提出,在国际生命伦理学委员会起草小组第四次会议( 2002 年 11 月 29日,加拿大蒙特利尔)缜密考虑基础上产生的。

• 每个人都有一套独特的基因结构。尽管如此,一个人的身份不应被归结为基因特性,因为它是由复杂的教育和其它环境因素以及同他人的情感、社会和文化纽带决定的。

2

Page 3: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

人类遗传数据国际宣言纲要(修正稿)

• 人类遗传数据只能以诊断和卫生保健目的,医学和其它研究,包括流行病学研究目的,法医学目的,在民事和刑事诉讼中的司法目的,以及任何其它与有关人类基因组和人权的世界宣言以及国际人权法一致的目的被收集、处理、使用和储存。

• 人类遗传数据不应用于歧视目的,其使用也不应可能导致对一个人、一个家庭或者一个群体的羞辱。

• 依照国家法律,一个人不能对产生人类遗传数据的样本采集表示同意的时候,则不管目的如何,应依照这个法律或者国家条例获得事先、自由、知情和明确表达的同意或者法律授权,并考虑有关个人最佳利益,特别在涉及儿童和残疾人时。

3

Page 4: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

人类遗传数据国际宣言纲要(修正稿)• 与一个可以确认身份的人有联系的人类遗传数据不应该被泄露给第三方或者让第三方获得,尤其不能让雇主、保险公司或者教育机构获得,除了有国家法律或条例的授权及获得当事人的同意,以及遵照国际人权法以外。

• 应该使以科学研究为目的收集人类遗传数据与一个可以确认身份的人脱离联系。如果这种脱离联系可以挽回,那么应当采取必要的防范措施来确保数据对第三方的保密,并对人权、基本自由和人类尊严的行使和遵守尊重,给予应有的重视以确保有关。

• 应该确保人类遗传数据的准确、可靠、质量和安全。在处理和解释人类遗传数据时,尤其在行为遗传学领域,鉴于它们的伦理和法律含义,相关专业人体应该严格、审慎、诚实和正直。 4

Page 5: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

人类遗传数据国际宣言纲要(修正稿)• 为了医学和科学研究,包括以人群为基础的遗传学研究而收集的人类遗传数据,通过使用它们产生的利益应该由整个国际社会分享,可以采取以下形式:

• 对参加研究的个人和群体的特殊援助• 获得医疗保健• 为源于研究的新的治疗方法或药物提供便利• 为卫生服务提供支持• 符合本宣言原则的任何其它形式

5

Page 6: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

什么是一级数据库什么是一级数据库 直接来源于实验获得的原始数据,只经过简单的归类、

整理和注释。 重要一级核酸数据库: GenBank 、 EMBL 、 DDBJ 重要一级蛋白质序列数据库: SWISS-PROT 、 PIR 重要一级蛋白质结构数据库: PDB

什么是一级数据库什么是一级数据库 直接来源于实验获得的原始数据,只经过简单的归类、

整理和注释。 重要一级核酸数据库: GenBank 、 EMBL 、 DDBJ 重要一级蛋白质序列数据库: SWISS-PROT 、 PIR 重要一级蛋白质结构数据库: PDB

什么是二级数据库什么是二级数据库 在一级数据库、实验数据和理论分析的基础上,针对

不同的研究内容和需要,对生物学知识和信息的进一 步整理得到的数据库。

人类基因组图谱库 GDB 转录因子和结合位点库 TRANSFAC 蛋白质序列功能位点数据库 Prosite 等。

什么是二级数据库什么是二级数据库 在一级数据库、实验数据和理论分析的基础上,针对

不同的研究内容和需要,对生物学知识和信息的进一 步整理得到的数据库。

人类基因组图谱库 GDB 转录因子和结合位点库 TRANSFAC 蛋白质序列功能位点数据库 Prosite 等。 6

Page 7: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

生物信息学

数据库

工具

染色体

核酸

蛋白质

基因组图谱

DNA 序列

蛋白质序列

蛋白质结构

基因组数据库

核酸序列数据库

蛋白质序列数据库

蛋白质结构数据库

二级数据库

复合数据库

基因组作图

序列测定

结构测定

生物信息数据库构建流程生物信息数据库构建流程

7

Page 8: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

一个数据库记录 (entry) 一般由两部分组成: 1. 原始序列数据 (sequence data) 2. 描述这些数据生物学信息的注释 (annotation)

注释中包含的信息与相应的序列数据同样重要和有应用 价值。

数据的完整性和注释工作量: 1. 如果库中序列数据广,序列注释通常不够完整 2. 如果库中的数据面窄,序列注释通常比较全面

数据库的动态更新: 1. 不断增加 2. 不断修正

关于数据库的基本信息关于数据库的基本信息

8

Page 9: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

1 1 一级数据库简介一级数据库简介

9

Page 10: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

世界三大核酸序列数据库( 公共序列数据库, Public Sequence

Database)

GenBankGenBank ( ( 美国 ) EMBLEMBL ( 欧洲 ) DDBJDDBJ ( 日本 )

1.1 1.1 核酸核酸 (DNA)(DNA) 序列数据库序列数据库

10

Page 11: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

三大数据库数据增长

11

Page 12: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2686462/pdf/gkn723.pdf

12

Page 13: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

13

Page 14: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

GenBankGenBank (美国国家生物技术信息中心,(美国国家生物技术信息中心, NCBNCBII )) 1980s1980s NIH(National Institute of Health)NIH(National Institute of Health) Los Alamos National LabLos Alamos National Lab NLM(National Library of Medicine)NLM(National Library of Medicine) NCBI NCBI((National Center for Biotechnology InformationNational Center for Biotechnology Information))

http://www.ncbi.nlm.nih.gov/Genbank/GenbankSearch.htmlhttp://www.ncbi.nlm.nih.gov/Genbank/GenbankSearch.html

关于 GenBank

14

Page 15: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

NCBI 资源

• 关于 NCBI• NCBI 序列数据库

—基础数据库—— GenBank— 派生数据库—— RefSeq

• Entrez数据库和文本搜索• BLAST 服务• 基因组资源

15

Page 16: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

The National Institutes of Health

Bethesda, MD

16

Page 17: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

The National Center for Biotechnology Information

17

Page 18: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

NCBI 基本信息

• 1988 年创立,作为 NLM的一部分—建立了公共数据库—开展计算生物学研究—研发用于序列分析的软件工具—传播生物医学信息

• 工具: BLAST ( 1990), Entrez ( 1992)

• GenBank ( 1992)• 免费 MEDLINE ( PubMed , 1997)• 人类基因组( 2001)

18

Page 19: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

NCBI Home Pagehttp://www.ncbi.nlm.nih.gov/http://www.ncbi.nlm.nih.gov/

To learn more, visit To learn more, visit thethe “ “Site MapSite Map” and ” and ““About NCBIAbout NCBI””web pagesweb pages

19

Page 20: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

20

Page 21: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

What does NCBI do?

• NCBI accepts submissions of primary data• NCBI develops tools to analyze these data• NCBI uses these tools to create derivative

databases based on the primary data• NCBI provides free search, link, and retrieval of

these data, primarily through the Entrez system

21

Page 22: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

Web Access

BLAST

VAST

Entrez

Text

Sequence

Structure

22

Page 23: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

Some NCBI Statistics….Growth of GenBank

0

2000

4000

6000

8000

10000

12000

14000

16000

18000

20000

22000

24000

26000

28000

30000

1982 1984 1986 1988 1990 1992 1994 1996 1998 2000 2002

Ba

se P

airs

of D

NA

(m

illio

ns)

0123456789

1011121314151617181920212223

Se

qu

en

ces

(mill

ion

s)

Base Pairs Sequences

23

Page 24: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

NCBINCBI 数据最近状况数据最近状况

• 7.9 million new sequences added over the past 12 months

• New species are being added at the rate of over 2000 per month

• The number of bases in GenBank has doubled approximately every 18 months.

24

Page 25: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

数据容量

• Uncompressed, the Release 155.0 flatfiles require roughly 230 GB, sequence files only

• 240 GB including the 'short directory', 'index' and the *.txt files.

25

Page 26: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

NCBI Web Traffic

Christmas and New Year’s Day

Users per day

26

Page 27: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

NCBI 数据库

• 基础数据库—由实验人员原始提交和修订—数据库技术人员组织但不增添任何附加信息—例如: GenBank, SNP, GEO, PubChem Substance

• 派生数据库—由专业人员或第三方管理 编辑和修订数据 例如: NCBI RefSeq, TPA, RefSNP, Protein, Structure, Conserved Domain, PubChem Compound —由计算派生 例如: UniGene—结合 例如: NCBI基因组集合

27

Page 28: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

GenBank DivisionsPRI (29) Primate ROD (21) Rodent PLN (16) Plant and FungalBCT (12) Bacterial/ArchealVRT (10) Other Vertebrate INV (8) Invertebrate VRL (5) ViralMAM (2) MammalianPHG (1) PhageSYN (1) SyntheticUNA (1) Unannotated

•Direct Submissions (Sequin/Bankit)•Accurate (~1 error per 10,000 bp)•Well characterized•Organized by taxonomy

EST (436) Expressed Sequence Tag GSS (158) Genome Survey SequenceHTG (68) High Throughput GenomicPAT (18) Patent sequencesSTS (14) Sequence Tagged Site HTC (10) High Throughput cDNA

•From sequencing projects•Batch submissions (ftp/email) •Inaccurate•Poorly Characterized•Organized by sequence type

Traditional

Bulk

28

Page 29: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

RefSeqNCBI 的派生序列数据库

• 将为中心法则中自然存在的分子,从染色体 -mRNA- 蛋白质提供参考序列标准

• RefSeq 标准为人类基因组的功能注解提供一个基础。它们为突变分析,基因表达分析研究和多态发现提供一个稳定的参考点

• 转录产物和蛋白质的管理—复核数据—人类、大鼠、小鼠、果蝇、斑马鱼、拟南芥

• 人类模式转录产物和蛋白质• 基因组区域的组装( Contigs)

—人类基因组草图—老鼠基因组

• 染色体记录—微生物—病毒—细胞器

29

Page 30: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

Entrez:Linking and Neighboring

30

Page 31: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

What is Entrez?

• A system of 29 linked databases• A text search engine• A tool for finding biologically linked data• A retrieval engine• A virtual workspace for manipulating large

datasets

31

Page 32: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

32

Page 33: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

The (ever) Expanding Entrez System

Nucleotide

Protein

Structure

PubMed

PopSet

Genome

OMIM

Taxonomy

Books

GenSAT

3D Domains

UniSTS

SNP

CDD

Entrez

UniGeneJournals

PubMedCentral

33

Page 34: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

34

Page 35: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

35

Page 36: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

Why do we need similarity searching?

To identify and annotate sequences with…• incomplete (or no) annotations (GenBank)• incorrect annotations

To assemble genomes To explore evolutionary relationships by…

• finding homologous molecules

• developing phylogenetic trees NOTE: Similar sequences may NOT have similar function!

Searching with Sequences

36

Page 37: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

Basic Local Alignment Search Tool

• Widely used similarity search tool• Heuristic approach based on Smith Waterman algorithm• Finds best local alignments• Provides statistical significance• All combinations (DNA/Protein) query and database.

– DNA vs DNA

– DNA translation vs Protein

– Protein vs Protein

– Protein vs DNA translation

– DNA translation vs DNA translation

• www, standalone, and network clients37

Page 38: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

What can BLAST do ?

• Nucleotide blast searches• Protein blast searches• Translated blast searches

38

Page 39: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

BLAST 主要程序类型程序 数据库 查询 内容

tBlastp 蛋白质 蛋白质 使用取代矩阵寻找

较远的关系:可以进行 SEG 过滤。

tBlastn 核苷酸 核苷酸 寻找较高分值的匹

配,对较远关系不太适用。

tBlastx 核苷酸(翻译) 蛋白质 对于新的 DNA 序

列和 ESTs 的分析极为有用。

tblastn 蛋白质 核苷酸(翻译) 对于寻找数据库中

没有标注的编码区极为有用。

tblastx 核苷酸(翻译) 核苷酸(翻译) 对于分析 EST 极为

有用。39

Page 40: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

40

Page 41: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

41

Page 42: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

EMBL(EMBL( 欧洲分子生物学实验欧洲分子生物学实验室,室, EMBL)EMBL) 19821982 European Molecular Biology LaboratoryEuropean Molecular Biology Laboratory EBIEBI (( European Bioinformatics InstituteEuropean Bioinformatics Institute )) http://www.ebi.ac.uk/emblhttp://www.ebi.ac.uk/embl

关于 EMBL

42

Page 43: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

43

Page 44: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

EMBL 数据库数据增长

44

Page 45: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

EMBL 数据库记录数增长

45

Page 46: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

EMBL 数据分布

46

Page 47: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

EMBL 数据库构成

人大鼠小鼠狗牛野猪玉米斑马鱼环境序列未定义

人大鼠小鼠狗牛埃及伊蚊猩猩斑马鱼短尾负鼠猕猴

47

Page 48: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

EMBL2003EMBL2003 年年 88 月数据月数据 (Release (Release 76)76)

Division Entries Nucleotides表达序列标签 (ESTs) 18,001,332 9,172,848,447真菌 (Fungi) 81,533 124,814,006基因组检测序列 (GSSs) 5,951,552 3,541,699,334高通量 cDNA(HTC) 148,033 198,301,795高通量基因组 (HTG) 69,070 11,827,270,957人 (Human) 253,122 3,999,942,455无脊椎动物 (Invertebrates) 126,656 618,391,776其它哺乳动物 (Other Mammals) 51,211 117,048,169鼠 (Mus musculus) 79,168 1,331,593,999细胞器 (Organelles) 217,902 180,804,604专利 (Patents) 1,326,009 717,107,725噬菌体 (Bacteriophage) 2,321 9,413,526植物 (Plants) 214,323 700,212,325原核生物 (Prokaryotes) 200,833 690,274,487啮齿动物 (Rodents) 25,459 64,607,453序列标签位点 (STSs) 239,292 114,379,671合成 (Synthetic) 9,196 16,869,561未分类 (Unclassified) 1,860 2,167,222病毒 (Viruses) 196,817 175,615,411其它脊椎动物 (Other Vertebrates) 52,583 282,545,232总计 27,248,475 33,885,908,155 48

Page 49: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

EMBL2009EMBL2009 年年 1111 月数据月数据 (Release (Release 102)102)

49

Page 50: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

EMBL 数据库分类构成信息

50

Page 51: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

EMBL 数据库记录长度

51

Page 52: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

EMBL RELEASE 102

• The EMBL Nucleotide Sequence Database was frozen to make Release 102 on 26-NOV-2009. The release contains 167,493,839 sequence entries comprising 266,361,987,641 nucleotides.

The Release 102 files total 125 GB compressed and 895 GB uncompressed.

52

Page 53: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

DDBJ(DDBJ( 日本国家遗传学研究所,日本国家遗传学研究所, NIG)NIG) 19861986 NIG(National Institute of Genetics) NIG(National Institute of Genetics) Databank of JapanDatabank of Japan http://www.ddbj.nig.ac.jphttp://www.ddbj.nig.ac.jp

关于 DDBJ

53

Page 54: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

54

Page 55: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

1.2 1.2 基因组数据库基因组数据库

来源于人类基因组计划及各种模式生物基因组计划来源于人类基因组计划及各种模式生物基因组计划

19771977 年,最早获得的生物基因组全序列是噬菌体年,最早获得的生物基因组全序列是噬菌体 (53kb)(53kb)

19951995 年,第一个自由生物体流感嗜血菌年,第一个自由生物体流感嗜血菌 ((H. infH. inf)) 被完被完 全测序 全测序

55

Page 56: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

部分生物基因组计划资源部分生物基因组计划资源

大鼠大鼠 (Mouse)(Mouse) http://www.informatics.jax.org/mgd.html 小鼠小鼠 (Rat)(Rat) http://ratmap.gen.gu.se 狗狗 (Dog)(Dog) http://mendel.berkeley.edu/dog.html 牛牛 (Cow)(Cow) http://locus.jouy.inra.fr/cgi-bin/bovmap/intro2.pl 猪猪 (Pig)(Pig) http://www.ri.bbsrc.ac.uk/pigmap/pigbase/pigbase.html 羊羊 (Sheep)(Sheep) http://dirk.invermay.cri.nz 鸡鸡 (Chicken)(Chicken) http://www.ri.bbsrc.ac.uk/chickmap/chickbase/manager.html 斑马鱼斑马鱼 (Zebra fish)(Zebra fish) http://zfish.uoregon.edu 线虫线虫 (C. elegans) (C. elegans) http://www.ddbj.nig.ac.jp/htmls/celegans/html/CE_INDEX.html 果蝇果蝇 (Drosophila)(Drosophila) http://morgan.harvard.edu 蚊子蚊子 (Mosquito)(Mosquito) http://klab.agsci.colostate.edu 拟南芥拟南芥 (Arabidopsis)(Arabidopsis) http://genome-www.stanford.edu/Arabidopsis 棉花棉花 (Cotton)(Cotton) http://algodon.tamu.edu 玉米玉米 (Maize)(Maize) http://www.agron.missouri.edu 水稻水稻 (Rice)(Rice) http://www.staff.or.jp 大豆大豆 (Soya)(Soya) http://mendel.agron.iastate.edu:8000/main.html 树树 (Trees)(Trees) http://s27w007.pswfs.gov

部分生物基因组计划资源部分生物基因组计划资源

大鼠大鼠 (Mouse)(Mouse) http://www.informatics.jax.org/mgd.html 小鼠小鼠 (Rat)(Rat) http://ratmap.gen.gu.se 狗狗 (Dog)(Dog) http://mendel.berkeley.edu/dog.html 牛牛 (Cow)(Cow) http://locus.jouy.inra.fr/cgi-bin/bovmap/intro2.pl 猪猪 (Pig)(Pig) http://www.ri.bbsrc.ac.uk/pigmap/pigbase/pigbase.html 羊羊 (Sheep)(Sheep) http://dirk.invermay.cri.nz 鸡鸡 (Chicken)(Chicken) http://www.ri.bbsrc.ac.uk/chickmap/chickbase/manager.html 斑马鱼斑马鱼 (Zebra fish)(Zebra fish) http://zfish.uoregon.edu 线虫线虫 (C. elegans) (C. elegans) http://www.ddbj.nig.ac.jp/htmls/celegans/html/CE_INDEX.html 果蝇果蝇 (Drosophila)(Drosophila) http://morgan.harvard.edu 蚊子蚊子 (Mosquito)(Mosquito) http://klab.agsci.colostate.edu 拟南芥拟南芥 (Arabidopsis)(Arabidopsis) http://genome-www.stanford.edu/Arabidopsis 棉花棉花 (Cotton)(Cotton) http://algodon.tamu.edu 玉米玉米 (Maize)(Maize) http://www.agron.missouri.edu 水稻水稻 (Rice)(Rice) http://www.staff.or.jp 大豆大豆 (Soya)(Soya) http://mendel.agron.iastate.edu:8000/main.html 树树 (Trees)(Trees) http://s27w007.pswfs.gov

56

Page 57: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

GDBGDB (美国、加拿大) 1990 年, John Hopkins 大学建立,后由加拿大儿童医院 生物信息中心管理 2003 年起,不知新主人? 目前由 RTI ( Research Triangle Institute ) International, North Carolina USA 托管 http://gdbwww.gdb.org/http://gdbwww.gdb.org/

数据内容数据内容:: 基因单位、 PCR位点、细胞遗传标记、 EST 、 Contigs 、

重复片段、基因组图谱 其它分子生物信息 网络资源( EMBL 、 GenBank… ) 的链接

GDBGDB (美国、加拿大) 1990 年, John Hopkins 大学建立,后由加拿大儿童医院 生物信息中心管理 2003 年起,不知新主人? 目前由 RTI ( Research Triangle Institute ) International, North Carolina USA 托管 http://gdbwww.gdb.org/http://gdbwww.gdb.org/

数据内容数据内容:: 基因单位、 PCR位点、细胞遗传标记、 EST 、 Contigs 、

重复片段、基因组图谱 其它分子生物信息 网络资源( EMBL 、 GenBank… ) 的链接

重要基因组数据库

57

Page 58: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

58

Page 59: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

AceDBAceDB 线虫基因组数据库。既是一个数据库,又是一个数据 库管理系统。 提供很好的图形界面,用户能够从大到整个基因组小 到序列的各个层次观察和分析基因组数据。

http://www.acedb.org

数据内容数据内容:: 限制性图谱,基因结构信息,质 粒图谱,序列数据, 参考文献…

AceDBAceDB 线虫基因组数据库。既是一个数据库,又是一个数据 库管理系统。 提供很好的图形界面,用户能够从大到整个基因组小 到序列的各个层次观察和分析基因组数据。

http://www.acedb.org

数据内容数据内容:: 限制性图谱,基因结构信息,质 粒图谱,序列数据, 参考文献…

重要基因组数据库

59

Page 60: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

60

Page 61: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

我国对基因组研究的重要贡献

• 华大基因研究院与生物信息系统国家工程研究中心、中国科学院北京基因组所组成的合作团队 2007 年 11 月完成首个命名为“炎黄一号”黄种人基因组图谱绘制工作。

61

Page 62: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

华大基因研究院简介• 深圳华大基因研究院是在深圳市政府、盐田区政府及相关企业的共同支持下,由华大基因公司等单位共同发起组建的民营公益性科研机构。

• 1999 年承担我国参与的人类基因组计划的 1 %任务。• 2001 年中国科学院国家基因研究中心北京基因组所,微生物

所和生物物理所完成嗜热菌基因组计划。• 2002 年独立完成了中国水稻基因组序列图的绘制。• 2003 年完成了 SARS病毒的全基因组测序。• 2004 年与美英等国合作完成了家鸡基因组计划。• 2005 年与中国西南农业大学合作完成家蚕基因组研究。• 2007 年 3 月启动大熊猫基因组测序计划, 2008 年 10 月完成

62

Page 63: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

SWISSSWISS -- PROTPROT( 欧洲 )

PIRPIR( 美国 )

1.3 1.3 蛋白质序列数据库蛋白质序列数据库

63

Page 64: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

SWISSSWISS -- PROTPROT 1. 早期由瑞士日内瓦大学医学生物 化学系和欧洲生 物信息学研究所 (EBI) 合作 维护( 1986 年); 2. 在 EMBL 和 GenBank 数据库上均建立了镜像站点 ; 3. 数据库包括了从 EMBL 翻译而来的蛋白质序列,这 些序列经过检验和注释; 4. 数据记录包括两部分: 序列 注释 ( 结构域、功能位点、跨膜区域、二硫键位置、

翻译后的修饰、突变体等 ) 5. 数据存在滞后性 TrEMBL 数据库的建立 SWISS-PROTSWISS-PROT 的网址:的网址: http://cn.expasy.org/sprot TrEMBLTrEMBL 的网址:的网址: http://www.ebi.ac.uk/trembl/index.html

SWISSSWISS -- PROTPROT 1. 早期由瑞士日内瓦大学医学生物 化学系和欧洲生 物信息学研究所 (EBI) 合作 维护( 1986 年); 2. 在 EMBL 和 GenBank 数据库上均建立了镜像站点 ; 3. 数据库包括了从 EMBL 翻译而来的蛋白质序列,这 些序列经过检验和注释; 4. 数据记录包括两部分: 序列 注释 ( 结构域、功能位点、跨膜区域、二硫键位置、

翻译后的修饰、突变体等 ) 5. 数据存在滞后性 TrEMBL 数据库的建立 SWISS-PROTSWISS-PROT 的网址:的网址: http://cn.expasy.org/sprot TrEMBLTrEMBL 的网址:的网址: http://www.ebi.ac.uk/trembl/index.html

重要蛋白质数据库

64

Page 65: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

65

Page 66: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

Composition in percent for the complete database

66

Page 67: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

Taxonomic distribution of the sequences

67

Page 68: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

68

Page 69: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

The sequence length in UniProtKB/Swiss-Prot

• The average sequence length in UniProtKB/Swiss-Prot is 367 amino acids.

• The shortest sequence is GWA_SEPOF (P83570): 2 amino acids.

• The longest sequence is TITIN_HUMAN (Q8WZ42): 34350 amino acids.

69

Page 70: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

PIR(protein information resource)PIR(protein information resource) 1. 由美国 NCBI 翻译自 GenBank 的 DNA 序列 (1984年 ); 2. 在 EMBL 和 GenBank 数据库上均建立了镜像站点; 3. 数据依据注释的质量分为 4 类。

网址: http://www-nbrf.georgetown.edu/

PIR(protein information resource)PIR(protein information resource) 1. 由美国 NCBI 翻译自 GenBank 的 DNA 序列 (1984年 ); 2. 在 EMBL 和 GenBank 数据库上均建立了镜像站点; 3. 数据依据注释的质量分为 4 类。

网址: http://www-nbrf.georgetown.edu/

分类名称(Name)

说明(Comment)

记录数(Number of entries)

PIR1 已分类、已注释(Classified and annotated) 13572

PIR2 已注释 (Annotated) 69368PIR3 未核实 (Unverified) 7508

PIR4 未翻译 (Unencoded or untranslated) 196

PIRPIR 数据库的分类情况数据库的分类情况 (Release 51.03)(Release 51.03)

重要蛋白质数据库

70

Page 71: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

71

Page 72: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

PIR 的信息整合

72

Page 73: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

PDBPDB (( protein data bankprotein data bank )) 1. 目前最重要的蛋白质分子结构数据库; 2. 1970 年代建立,由美国 Brookhaven 国家实验室维护 管理 ; 3. 1988 年,由美国 RCSB (Research Collaboratory for

Structural Biology) 管理; 4. 以文本格式存放数据,包括原子坐标、物种来源、 测定方法、提交者信息、一级结构、二级结构 等; 5. PDBsum 数据库: PDB 注释信息 综合数据库,具有 检索、分析、可视化的功能。

PDBPDB 的网址:的网址: http://www.rcsb.org/pdb(( 美国美国 ) ) PDBsumPDBsum 的网址:的网址: http://www.biochem.ucl.ac.uk/bsm/pdbsum

PDBPDB (( protein data bankprotein data bank )) 1. 目前最重要的蛋白质分子结构数据库; 2. 1970 年代建立,由美国 Brookhaven 国家实验室维护 管理 ; 3. 1988 年,由美国 RCSB (Research Collaboratory for

Structural Biology) 管理; 4. 以文本格式存放数据,包括原子坐标、物种来源、 测定方法、提交者信息、一级结构、二级结构 等; 5. PDBsum 数据库: PDB 注释信息 综合数据库,具有 检索、分析、可视化的功能。

PDBPDB 的网址:的网址: http://www.rcsb.org/pdb(( 美国美国 ) ) PDBsumPDBsum 的网址:的网址: http://www.biochem.ucl.ac.uk/bsm/pdbsum

1.4 1.4 蛋白质结构数据库蛋白质结构数据库

73

Page 74: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

74

Page 75: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

75

Page 76: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

SCOPSCOP (( Structural Classification Of ProteinStructural Classification Of Protein )) 英国医学研究 委员会分子生物学实验室和蛋白质工程 中心开发的基于 web 的蛋白质结构数据库分类、检索 和分析系统; SCOPSCOP 的网址:的网址: http://scop.mrc-lmb.cam.ac.uk/scop/

CATH(class, architecture, topology, homology)CATH(class, architecture, topology, homology) 英国伦敦大学开发维护;

CATHCATH 的网址:的网址: http://www.biochem.ucl.ac.uk/bsm/cath

1.5 1.5 蛋白质结构分类数据库蛋白质结构分类数据库

76

Page 77: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

77

Page 78: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

二级数据库的形式:二级数据库的形式: 大多以大多以 webweb 界面为基础,具有 文字信息、 表格、图界面为基础,具有 文字信息、 表格、图 形、图表等方式显示数据库内容 形、图表等方式显示数据库内容

一级数据库与二级数据库之间并无明确的界限。 一级数据库与二级数据库之间并无明确的界限。 例如:例如: GDBGDB 、、 AceDBAceDB 、、 SCOPSCOP 、、 CATHCATH 等都已经等都已经具具 有二级数据库的特色 有二级数据库的特色

2 2 二级数据库简介二级数据库简介

78

Page 79: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

2.1 2.1 基因组信息二级数据库基因组信息二级数据库

TransFac(TransFac( 真核生物基因 转录调控因子数据库真核生物基因 转录调控因子数据库 )) 德国生物工程研究所 开发维护,始建于 1988 年。 包括顺式调控位点、基因、转录因子、细胞来源、 分类和调控位点核苷酸分布 6 个子库。

TransFacTransFac 的网址:的网址: http://transfac.mirror.edu.cn

79

Page 80: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

80

Page 81: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

Prosite(Prosite( 蛋白质序列功能位点数据库蛋白质序列功能位点数据库 )) 始建于 1990 年代初,由瑞典生物信息学研究所 SIB负 责维护。 基于对蛋白质家族中同源序列多重序列比对得到的保 守区域,这些区域通常与生物学 功能相关。 数据库包括两个数据库文件: 数据文件 Prosite;说明文件 PrositeDoc

PrositeProsite 的网址:的网址: http://cn.expasy.org/prosite/http://cn.expasy.org/prosite/

Prosite(Prosite( 蛋白质序列功能位点数据库蛋白质序列功能位点数据库 )) 始建于 1990 年代初,由瑞典生物信息学研究所 SIB负 责维护。 基于对蛋白质家族中同源序列多重序列比对得到的保 守区域,这些区域通常与生物学 功能相关。 数据库包括两个数据库文件: 数据文件 Prosite;说明文件 PrositeDoc

PrositeProsite 的网址:的网址: http://cn.expasy.org/prosite/http://cn.expasy.org/prosite/

2.2 2.2 蛋白质序列二级数据库蛋白质序列二级数据库

81

Page 82: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

82

Page 83: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

DSSP (Definition of Secondary Structure of Proteins)DSSP (Definition of Secondary Structure of Proteins) 蛋白质二级结构构象参数数据库 DSSP 的网址: http://www.cmbi.kun.nl/gv/dssp/

FSSP (Families of Structural Similar Proteins)FSSP (Families of Structural Similar Proteins) 蛋白质家族数据库 FSSP 的网址: http://www2.embl-ebi.ac.uk/dall/fssp/

HSSP(Homology Derived Secondary Structure of HSSP(Homology Derived Secondary Structure of Proteins)Proteins) 同源蛋白质数据库 HSSP 的网址: http://www.cmbi.kun.nl/gv/hssp/

DSSP (Definition of Secondary Structure of Proteins)DSSP (Definition of Secondary Structure of Proteins) 蛋白质二级结构构象参数数据库 DSSP 的网址: http://www.cmbi.kun.nl/gv/dssp/

FSSP (Families of Structural Similar Proteins)FSSP (Families of Structural Similar Proteins) 蛋白质家族数据库 FSSP 的网址: http://www2.embl-ebi.ac.uk/dall/fssp/

HSSP(Homology Derived Secondary Structure of HSSP(Homology Derived Secondary Structure of Proteins)Proteins) 同源蛋白质数据库 HSSP 的网址: http://www.cmbi.kun.nl/gv/hssp/

2.3 2.3 蛋白质结构二级数据库蛋白质结构二级数据库

83

Page 84: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

84

Page 85: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

85

Page 86: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

86

Page 87: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

历史原因:历史原因: 没有完全统一的数据库格式没有完全统一的数据库格式

了解所用数据库格式的重要性了解所用数据库格式的重要性

一般由两部分组成:一般由两部分组成: 序列序列 文字注释 文字注释

3 3 数据库格式简介数据库格式简介

87

Page 88: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

EMBLEMBL 和和 GenBankGenBank 数据库的主要内容和格式数据库的主要内容和格式 序列名称、长度、日期序列说明、编号、版本号物种来源、学 名、分类学位置相关文献作者、题目、刊物、日 期序列特征表碱基组成序列(每行 60 个碱基)

EMBLEMBL 和和 GenBankGenBank 数据库的主要内容和格式数据库的主要内容和格式 序列名称、长度、日期序列说明、编号、版本号物种来源、学 名、分类学位置相关文献作者、题目、刊物、日 期序列特征表碱基组成序列(每行 60 个碱基)

EMBLEMBL 和和 GenBankGenBank 数据库的格式数据库的格式

88

Page 89: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

A Traditional GenBank RecordLOCUS AY182241 1931 bp mRNA linear PLN 04-MAY-2004DEFINITION Malus x domestica (E,E)-alpha-farnesene synthase (AFS1) mRNA, complete cds.ACCESSION AY182241VERSION AY182241.2 GI:32265057KEYWORDS .SOURCE Malus x domestica (cultivated apple) ORGANISM Malus x domestica Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta; Spermatophyta; Magnoliophyta; eudicotyledons; core eudicots; rosids; eurosids I; Rosales; Rosaceae; Maloideae; Malus.REFERENCE 1 (bases 1 to 1931) AUTHORS Pechous,S.W. and Whitaker,B.D. TITLE Cloning and functional expression of an (E,E)-alpha-farnesene synthase cDNA from peel tissue of apple fruit JOURNAL Planta 219, 84-94 (2004)REFERENCE 2 (bases 1 to 1931) AUTHORS Pechous,S.W. and Whitaker,B.D. TITLE Direct Submission JOURNAL Submitted (18-NOV-2002) PSI-Produce Quality and Safety Lab, USDA-ARS, 10300 Baltimore Ave. Bldg. 002, Rm. 205, Beltsville, MD 20705, USAREFERENCE 3 (bases 1 to 1931) AUTHORS Pechous,S.W. and Whitaker,B.D. TITLE Direct Submission JOURNAL Submitted (25-JUN-2003) PSI-Produce Quality and Safety Lab, USDA-ARS, 10300 Baltimore Ave. Bldg. 002, Rm. 205, Beltsville, MD 20705, USA REMARK Sequence update by submitterCOMMENT On Jun 26, 2003 this sequence version replaced gi:27804758.FEATURES Location/Qualifiers source 1..1931 /organism="Malus x domestica" /mol_type="mRNA" /cultivar="'Law Rome'" /db_xref="taxon:3750" /tissue_type="peel" gene 1..1931 /gene="AFS1" CDS 54..1784 /gene="AFS1" /note="terpene synthase" /codon_start=1 /product="(E,E)-alpha-farnesene synthase" /protein_id="AAO22848.2" /db_xref="GI:32265058" /translation="MEFRVHLQADNEQKIFQNQMKPEPEASYLINQRRSANYKPNIWK NDFLDQSLISKYDGDEYRKLSEKLIEEVKIYISAETMDLVAKLELIDSVRKLGLANLF EKEIKEALDSIAAIESDNLGTRDDLYGTALHFKILRQHGYKVSQDIFGRFMDEKGTLE NHHFAHLKGMLELFEASNLGFEGEDILDEAKASLTLALRDSGHICYPDSNLSRDVVHS LELPSHRRVQWFDVKWQINAYEKDICRVNATLLELAKLNFNVVQAQLQKNLREASRWW ANLGIADNLKFARDRLVECFACAVGVAFEPEHSSFRICLTKVINLVLIIDDVYDIYGS EEELKHFTNAVDRWDSRETEQLPECMKMCFQVLYNTTCEIAREIEEENGWNQVLPQLT KVWADFCKALLVEAEWYNKSHIPTLEEYLRNGCISSSVSVLLVHSFFSITHEGTKEMA DFLHKNEDLLYNISLIVRLNNDLGTSAAEQERGDSPSSIVCYMREVNASEETARKNIK GMIDNAWKKVNGKCFTTNQVPFLSSFMNNATNMARVAHSLYKDGDGFGDQEKGPRTHI LSLLFQPLVN"ORIGIN 1 ttcttgtatc ccaaacatct cgagcttctt gtacaccaaa ttaggtattc actatggaat 61 tcagagttca cttgcaagct gataatgagc agaaaatttt tcaaaaccag atgaaacccg 121 aacctgaagc ctcttacttg attaatcaaa gacggtctgc aaattacaag ccaaatattt 181 ggaagaacga tttcctagat caatctctta tcagcaaata cgatggagat gagtatcgga 241 agctgtctga gaagttaata gaagaagtta agatttatat atctgctgaa acaatggatt

1801 aataaatagc agcaaaagtt tgcggttcag ttcgtcatgg ataaattaat ctttacagtt 1861 tgtaacgttg ttgccaaaga ttatgaataa aaagttgtag tttgtcgttt aaaaaaaaaa 1921 aaaaaaaaaa a//

Header

Feature Table

Sequence

The Flatfile Format

89

Page 90: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

示例:示例: GenBankGenBank 数据库格式数据库格式

90

Page 91: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

文件格式实例:文件格式实例:

E. coliE. coli k-12 k-12 全基因组序列文件全基因组序列文件

91

Page 92: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

LOCUS U00096 4639221 bp DNA circular BCT 18-NOV-1998DEFINITION Escherichia coli K-12 MG1655 complete genome.ACCESSION U00096KEYWORDS .SOURCE Escherichia coli. ORGANISM Escherichia coli Bacteria; Proteobacteria; gamma subdivision; Enterobacteriaceae; Escherichia.REFERENCE 1 (bases 1 to 4639221) AUTHORS Blattner,F.R., Plunkett,G. III, Bloch,C.A., Perna,N.T., Burland,V., … TITLE The complete genome sequence of Escherichia coli K-12 JOURNAL Science 277 (5331), 1453-1474 (1997) MEDLINE 97426617…COMMENT This sequence was determined by the E. coli Genome Project at the University of Wisconsin-Madison (Frederick R. Blattner, director). Supported by NIH grants HG00301 and HG01428 (from Human Genome Project and NCHGR). The entire sequence was independently determined from E. coli K-12 strain MG1655. Predicted open reading frames were determined using GeneMark software, kindly supplied by …

GenBankGenBank 数据库格式数据库格式

92

Page 93: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

FEATURES Location/Qualifiers source 1..4639221 /organism="Escherichia coli" /strain="K-12“ /sub_strain="MG1655" /db_xref="taxon:562" promoter 71..99 /note="factor Sigma70; predicted +1 start at 106" promoter 104..132 /note="factor Sigma70; predicted +1 start at 139" promoter 188..212 /note="factor Sigma32; predicted +1 start at 219" gene 190..255 /note="b0001" /gene="thrL" CDS 190..255 /gene="thrL" /function="leader; Amino acid biosynthesis: Threonine" /note="o21; 100 pct identical to LPT_ECOLI SW: P03059" /codon_start=1 /transl_table=11 /product="thr operon leader peptide" /db_xref="PID:g1786182" /translation="MKRISTTITTTITITTGNGAG “ …BASE COUNT 1142136 a 1179433 c 1176775 g 1140877 t

GenBankGenBank 数据库格式数据库格式

93

Page 94: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

ORIGIN 1 agcttttcat tctgactgca acgggcaata tgtctctgtg tggattaaaa aaagagtgtc 61 tgatagcagc ttctgaactg gttacctgcc gtgagtaaat taaaatttta ttgacttagg 121 tcactaaata ctttaaccaa tataggcata gcgcacagac agataaaaat tacagagtac 181 acaacatcca tgaaacgcat tagcaccacc attaccacca ccatcaccat taccacaggt 241 aacggtgcgg gctgacgcgt acaggaaaca cagaaaaaag cccgcacctg acagtgcggg 301 cttttttttt cgaccaaagg taacgaggta acaaccatgc gagtgttgaa gttcggcggt 361 acatcagtgg caaatgcaga acgttttctg cgtgttgccg atattctgga aagcaatgcc 421 aggcaggggc aggtggccac cgtcctctct gcccccgcca aaatcaccaa ccacctggtg … … 4639021 caacatcaac tgcaagcttt acgcgaacga gccatgacat tgctgacgac tctggcagtg 4639081 gcagatgaca taaaactggt cgactggtta caacaacgcc tggggctttt agagcaacga 4639141 gacacggcaa tgttgcaccg tttgctgcat gatattgaaa aaaatatcac caaataaaaa 4639201 acgccttagt aagtattttt c//

GenBankGenBank 数据库格式数据库格式

94

Page 95: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

ID U00096 standard; circular genomic DNA; CON; 4639221 BP.AC U00096;SV U00096.1DT 24-JUL-2003 (Rel. 76, Last updated, Version 3)DE Escherichia coli K-12 MG1655 complete genome.KW .OS Escherichia coli K12OC Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales;OC Enterobacteriaceae; Escherichia; Escherichia coli.RN [1]RP 1-4639221RX MEDLINE; 97426617.RX PUBMED; 9278503.RA Blattner F.R., Plunkett G. III, Bloch C.A., Perna N.T., Burland V.,…RT "The complete genome sequence of Escherichia coli K-12";RL Science 277(5331):1453-1474(1997).DR GOA; O32528.DR REMTREMBL; AAC74436; AAC74436.DR SPTREMBL; O32530; O32530.DR SWISS-PROT; O32528; YPDI_ECOLI. …

EMBLEMBL 数据库格式数据库格式

95

Page 96: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

CC This sequence was determined by the E. coli Genome Project at theCC University of Wisconsin-Madison (Frederick R. Blattner, director).CC Supported by NIH grants HG00301 and HG01428 (from the Human GenomeCC Project and NCHGR). The entire sequence was independentlyCC determined from E. coli K-12 strain MG1655. Predicted open readingCC frames were determined using GeneMark software, kindly supplied by…FH Key Location/QualifiersFT source 1..4639221FT /db_xref="taxon:83333"FT /mol_type="genomic DNA"FT /organism="Escherichia coli K12"FT /strain="K12"FT /sub_strain="MG1655"FT promoter 71..99FT /note="factor Sigma70; predicted +1 start at 106"…FT CDS 190..255FT /codon_start=1FT /db_xref="GOA:P03059"FT /db_xref="SWISS-PROT:P03059"FT /note="o21; 100 pct identical to LPT_ECOLI SW: P03059"FT /transl_table=11FT /gene="thrL"FT /function="leader; Amino acid biosynthesis: Threonine"FT /product="thr operon leader peptide"FT /protein_id="AAC73112.1"FT /translation="MKRISTTITTTITITTGNGAG“…

EMBLEMBL 数据库格式数据库格式

96

Page 97: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

SQ Sequence 4639221 BP; 1142136 A; 1179433 C; 1176775 G; 1140877 T; 0 other; agcttttcat tctgactgca acgggcaata tgtctctgtg tggattaaaa aaagagtgtc 60 tgatagcagc ttctgaactg gttacctgcc gtgagtaaat taaaatttta ttgacttagg 120 tcactaaata ctttaaccaa tataggcata gcgcacagac agataaaaat tacagagtac 180 acaacatcca tgaaacgcat tagcaccacc attaccacca ccatcaccat taccacaggt 240 aacggtgcgg gctgacgcgt acaggaaaca cagaaaaaag cccgcacctg acagtgcggg 300 cttttttttt cgaccaaagg taacgaggta acaaccatgc gagtgttgaa gttcggcggt 360 acatcagtgg caaatgcaga acgttttctg cgtgttgccg atattctgga aagcaatgcc 420 aggcaggggc aggtggccac cgtcctctct gcccccgcca aaatcaccaa ccacctggtg 480 gcgatgattg aaaaaaccat tagcggccag gatgctttac ccaatatcag cgatgccgaa 540 … tattgctatc aattagcaac attaatacaa caaccggcga aaagtgatgc aacggcagac 4639020 caacatcaac tgcaagcttt acgcgaacga gccatgacat tgctgacgac tctggcagtg 4639080 gcagatgaca taaaactggt cgactggtta caacaacgcc tggggctttt agagcaacga 4639140 gacacggcaa tgttgcaccg tttgctgcat gatattgaaa aaaatatcac caaataaaaa 4639200 acgccttagt aagtattttt c 4639221//

EMBLEMBL 数据库格式数据库格式

97

Page 98: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

EMBL 标识字 GenBank 标识字 含义ID LOCUS 序列基本信息DE DEFINITION 序列简单说明AC ACCESSION 唯一的序列编号SV VERSION 序列版本号

KW KEYWORDS 与序列相关的关键词OS SOURCE 序列来源的物种 名OC ORGANISM 序列来源的物种学 名和分类学位置DT 建立日期RN REFERENCE 相关文献编号或提交注册信息RA AUTHORS 相关文献作者或提交序列作者RT TITLE 相关文献题目RL JOURNAL 相关文献刊物名或作者单位RX MEDLINE 相关文献Medline引文代码RC REMARK 相关文献注释RP 相关文献其它注释CC COMMENT 关于序列的注释信息DR 相关数据库交叉引用号FH FEATURES 序列特征表起始FT 序列特征表子项SQ BASE CONTENT 序列长度、碱基数目统计数空格 ORIGIN 序列

// // 序列结束标志、空行

EMBLEMBL 和和 GenBankGenBank 数据库的行识别标志比较数据库的行识别标志比较

98

Page 99: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

建议阅读文献 [1]

• Benson,D.A., Karsch-Mizrachi,I., Lipman,D.J., Ostell,J. and Wheeler,D.L. ( (2004) ) GenBank: update. Nucleic Acids Res., , 32, , D23–D26.[Abstract/Free Full Text] .

• Kulikova,T., Aldebert,P., Althorpe,N., Baker,W., Bates,K., Browne,P., van den Broek,A., Cochrane,G., Duggan,K., Eberhardt,R. et al. ( (2004) ) The EMBL Nucleotide Sequence Database. Nucleic Acids Res., , 32, , D27–D30.[Abstract/Free Full Text] .

• Miyazaki,S., Sugawara,H., Ikeo,K., Gojobori,T. and Tateno,Y. ( (2004) ) DDBJ in the stream of various biological data. Nucleic Acids Res., , 32, , D31–D34.[Abstract/Free Full Text] .

• Wheeler,D.L., Barrett,T., Benson,D.A., Bryant,S.H., Canese,K., Church,D.M., DiCuccio,M., Edgar,R., Federhen,S., Helmberg,W. et al. ( (2005) ) Database resources of the National Center for Biotechnology Information. Nucleic Acids Res., , 33, , D39–D45.[Abstract/Free Full Text] .

• Boguski,M.S., Lowe,T.M. and Tolstoshev,C.M. ( (1993) ) dbEST—database for ‘expressed sequence tags’. Nature Genet., , 4, , 332–333.[ISI][Medline] .

99

Page 100: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

建议阅读文献 [2]

• Smith,M.W., Holmsen,A.L., Wei,Y.H., Peterson,M. and Evans,G.A. ( (1994) ) Genomic sequence sampling: a strategy for high resolution sequence-based physical mapping of complex genomes. Nature Genet., , 7, , 40–47.[ISI][Medline] .

• Hayashizaki,Y. ( (2001) ) Functional annotation of a full-length mouse cDNA collection. Nature, , 409, , 685–690.[CrossRef][ISI][Medline] .

• Marchler-Bauer,A., Anderson,J.B., Cherukuri,P.F., DeWeese-Scott,C., Geer,L.Y., Gwadz,M., He,S., Hurwitz,D.I., Jackson,J.D., Ke,Z. et al. ( (2005) ) CDD: a Conserved Domain Database for protein classification. Nucleic Acids Res., , 33, , D192–D196.[Abstract/Free Full Text] .

• Altschul,S.F., Madden,T.L., Schaffer,A.A., Zhang,J., Miller,W. and Lipman,D.J. ( (1997) ) Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res., , 25, , 3389–3402.[Abstract/Free Full Text] .

• Zhang,Z., Schaffer,A.A., Miller,W., Madden,T.L., Lipman,D.J., Koonin,E.V. and Altschul,S.F. ( (1998) ) Protein sequence similarity searches using patterns as seeds. Nucleic Acids Res., , 26, , 3986–3991.[Abstract/Free Full Text] .

100

Page 101: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

建议阅读文献 [3]

• G. A. Reeves, J. M. Thornton, BioSapiens Network of Excellence Integrating biological data through the genome. Hum. Mol. Genet., April 15, 2006; 15(suppl_1): R81 - R87. [Abstract] [Full Text] [PDF]

• G. Cochrane, P. Aldebert, N. Althorpe, M. Andersson, W. Baker, A. Baldwin, K. Bates, S. Bhattacharyya, P. Browne, A. van den Broek, M. Castro, K. Duggan, R. Eberhardt, N. Faruque, J. Gamble, C. Kanz, T. Kulikova, C. Lee, R. Leinonen, Q. Lin, V. Lombard, R. Lopez, M. McHale, H. McWilliam, G. Mukherjee, F. Nardone, M. P. G. Pastor, S. Sobhany, P. Stoehr, K. Tzouvara, R. Vaughan, D. Wu, W. Zhu, and R. Apweiler. EMBL Nucleotide Sequence Database: developments in 2005.Nucleic Acids Res., January 1, 2006; 34(suppl_1): D10 - D15. [Abstract] [Full Text] [PDF]

101

Page 102: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

课后练习

• 使用 Entrez 检索 Cyp11a 、 G6PD• 利用 BLASTn 搜索 Cyp11a 、 G6PD 序列的同源序列

102

Page 103: Lecture 2 : He Miao PhD lsshem@mail.sysu Sun Yat-sen University, Guangzhou Mar. 2011

103