第三章 关键词或词组为基础的数据库检索 (i)

41
第第第 第第第第第第第第第第第第第第第 (I) 生生生生生

Upload: delano

Post on 11-Jan-2016

219 views

Category:

Documents


0 download

DESCRIPTION

生物信息学. 第三章 关键词或词组为基础的数据库检索 (I). Gene name Author Accession number …. Database. 检索数据库的方法. 用关键词或词组进行数据库检索 (Text-based database searching). 用核苷酸或蛋白质序列进行数据库检索 (Sequence-based database searching). 名词、描述性词、词组 序列注册号 (Accession number). 关键词. NCBI Entrez - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 第三章     关键词或词组为基础的数据库检索 (I)

第三章

关键词或词组为基础的数据库检索 (I)

生物信息学

Page 2: 第三章     关键词或词组为基础的数据库检索 (I)

检索数据库的方法 用关键词或词组进行数据库检索

(Text-based database searching)

用核苷酸或蛋白质序列进行数据库检索

(Sequence-based database searching)

Gene name

Author

Accession number

Database

Page 3: 第三章     关键词或词组为基础的数据库检索 (I)

关键词或词组为基础的数据库检索

关键词名词、描述性词、词组

序列注册号 (Accession number)

检索体系NCBI Entrez

Sequence Retrieval System (SRS)

Integrated database retrieval system (DBGET)

Trends in Biotechnology 1998, 16 (supplement 1):3-5.

最准确可靠

Page 4: 第三章     关键词或词组为基础的数据库检索 (I)

检索须知( 1 ) 连接词 AND, OR, NOT ( Boolean

operators )rice AND enzyme (AND 为缺省值,可略去 )

rice AND enzyme NOT kinase

retrotransposon OR retroelement

注意事项:1 、 AND, OR, NOT must be entered in UPPERCASE

2 、 Boolean operators are processed in a left-to-right sequence

rice AND (microarray OR expression profile)

rice AND microarray OR expression profile

3 、 The order can be changed by enclosing individual concepts in parentheses (processed first)

PubMed>27000 records

504 records

Page 5: 第三章     关键词或词组为基础的数据库检索 (I)

用引号将两个单词组成一个词组• 16S rRNA = 16S AND rRNA• “16S rRNA”

pseudopod* =pseudopod OR pseudopodia OR pseudopodium

检索须知( 2 )

Nucleotide 16S rRNA

“16S rRNA” ~380000 sequences

~3300000 sequences

exact match

wild card, *, 放在单词后使检索范围扩大,但专一性降低

表示范围 , :, 连接前后关键词,限定范围110:500[Sequence Length] 2009/3/1:2009/9/30[Publication Date]

Page 6: 第三章     关键词或词组为基础的数据库检索 (I)

1. Entrez

http://www.ncbi.nlm.nih.gov/gquery/

NCBI 的检索体系

优点:三种检索体系中最容易操作的体系,帮助文档完备

Entrez Help

Page 7: 第三章     关键词或词组为基础的数据库检索 (I)

Entrez可对6大类40个数据库进行检索

Nucleic Acids Research 2013, 41:D8-D20

Page 8: 第三章     关键词或词组为基础的数据库检索 (I)

Entrez可对6大类40个数据库进行检索

针对基因组已测序完成的物种

针对 GenBank 中具有大于 7 万条 EST 的物种Prokaryotic, chloroplast,

mitochondrial, virus, protist, plant

针对 17 个广泛研究的模式生物

Page 9: 第三章     关键词或词组为基础的数据库检索 (I)

Entrez 系统中数据库之间的连接

NCBI主页选择“ All Databases” 或 Entrez

主页,输入关键词

各个数据库中检索到的信息数量

点击相应数据库查看信息目录,每一条信息与其它数据库的相关信息链接

检索方法( 1 ):跨库检索 (cross-database search)

Page 10: 第三章     关键词或词组为基础的数据库检索 (I)

检索方法( 2 ):选择数据库检索

NCBI主页选择数据库,输入关键词

检索到的信息目录,每一条信息与其它数据库的相关信息链接

查看信息内容

Page 11: 第三章     关键词或词组为基础的数据库检索 (I)

序列数据库的搜索——精简搜索结果

查询 insulin 基因的序列

不是想要的结果!如何精简?

Page 12: 第三章     关键词或词组为基础的数据库检索 (I)

精简搜索结果的方法 1 :使用 Limits

Page 13: 第三章     关键词或词组为基础的数据库检索 (I)

查询人( human )的 insulin 基因的序列

关键词 [ 查询范围 ]: insulin [title] human [organism]

精简搜索结果的方法 2 :使用 Advanced search

Page 14: 第三章     关键词或词组为基础的数据库检索 (I)

如何定义查询范围?

LOCUS DQ176424 1980 bp DNA linear PLN 12-MAR-2006DEFINITION Oryza sativa (indica cultivar-group) pathogen-induced defense-responsive protein 8 (DR8) gene, complete cds.ACCESSION DQ176424VERSION DQ176424.1 GI:73918052KEYWORDS HTG.SOURCE Oryza sativa Indica Group ORGANISM Oryza sativa Indica Group Eukaryota; Viridiplantae; Streptophyta; Embryophyta;Tracheophyta; Spermatophyta; Magnoliophyta; Liliopsida; Poales; Poaceae; BEP clade; Ehrhartoideae; Oryzeae; Oryza.REFERENCE 1 (bases 1 to 1980) AUTHORS Wang,G., Ding,X., Yuan,M., Qiu,D., Li,X., Xu,C. and Wang,S. TITLE Dual function of rice OsDR8 gene in disease resistance and thiamine accumulation JOURNAL Plant Mol. Biol. 60 (3), 437-449 (2006) PUBMED 16514565

gbdiv_pln[Properties][Title]

[Modification Date]

1000:2000[Sequence Length]

[Accession] [GI]

任意搜索范围: Xa21[All Fields]

biomol_genomic[Properties] biomol_mrna: mRNA

biomol crna: cRNA

[Publication Date]:记录公开日期

[Keyword]: EST GSS HTG HTC TPA TSA

[Organism]

[Author]

[Journal]

注意:关键词和字段名( field )均不区分大小写

Page 15: 第三章     关键词或词组为基础的数据库检索 (I)

ORIGIN 1 ggtacattat atattctgtt tggaatatga tcaggcctag tgggaactgc tttaagttta 61 cttattcgag ctgagttagg acaacctggg gccctattag gggatgatca attatataat 121 gttattgtta cagcacacgc ttttgtaata atttttttct tagttatacc tataatgatc

FEATURES Location/Qualifiers source 1..646 /organism="Dicathais orbita" /organelle="mitochondrion" /mol_type="mRNA" /db_xref="taxon:69583" /clone="20006E09" /note="mitochondrial and ribosomal sequences produced by suppressive subtractive hybridization" CDS <1..>646 /gene="COXI" /codon_start=1 /transl_table=5 /product="cytochrome oxidase subunit I" /protein_id="ACT34372.1" /db_xref="GI:253740054" /translation="GTLYILFGMWSGLVGTALSLLIRAELGQPGALLGDDQLYNVIVT AHAFVMIFFLVMPMMIGGFGNWLVPLMLGAPDMAFPRLNNMSFWLLPPALLLLLSSAA

第四章讲述使用序列进行检索

[Feature Key]: promoter, mRNA, CDS, exon, intron, polyA_signal

COXI[Gene Name]

gene_in_mitochondrion[Properties]

如何定义查询范围?

Page 16: 第三章     关键词或词组为基础的数据库检索 (I)

human[ORGN] AND 50[SLEN]:60[SLEN] AND 1999[MDAT]

精简搜索结果

Aim: Find all human nucleotide sequences with the poly(A) signal.

不同数据库的 Search fields 不同,详见 Limits/Advanced 选项!

j mol evol[JOUR] AND drosophila[ORGN]

"polyA_signal“[FKEY] AND human[ORGN]

Aim: Find all human protein sequences with lengths between 50 and 60 amino acids that were entered into the database during 1999.

Aim: Find Drosophila population studies published in the Journal of Molecular Evolution

Search Field Descriptions for Sequence Database

Page 17: 第三章     关键词或词组为基础的数据库检索 (I)

查询人 insulin 基因的 RefSeq 序列

精简搜索结果的方法 3 :直接输入搜索字段

自动将俗名转换为学名

Page 18: 第三章     关键词或词组为基础的数据库检索 (I)

查询人 insulin 基因的 RefSeq 序列

精简搜索结果的方法 4 :组合多次搜索结果

Page 19: 第三章     关键词或词组为基础的数据库检索 (I)

使用 Clipboard 临时收集多条序列

永久保存收集的序列需要注册,然后 Send to Collections

Page 20: 第三章     关键词或词组为基础的数据库检索 (I)

第三章

关键词或词组为基础的数据库检索 (II)

生物信息学

Page 21: 第三章     关键词或词组为基础的数据库检索 (I)

文献数据库 Pubmed 的搜索

http://www.ncbi.nlm.nih.gov/PubMed/

美国国家医学图书馆的数据库数据来源

MEDLINE:已经规范处理的数据,已标注MeSH Terms,记录标有 [pubmed-indexed for medline]

In Process Citations:尚未经规范处理的数据,记录标有 [pubmed-in process]

Publisher-Supplied Citations:由出版商提供的电子文献,记录标有 [PubMed-as supplied by Publisher]

搜索结果举例

Page 22: 第三章     关键词或词组为基础的数据库检索 (I)

Pubmed 自动将检索词翻译为 MeSH 词汇

使用MeSH词汇能获得更加全面、准确的结果

Page 23: 第三章     关键词或词组为基础的数据库检索 (I)

精简 PubMed 搜索结果的方法:使用 Advanced

PubMed 数据库的搜索

1 2

"huazhong agricultural university"[Affiliation]

Page 24: 第三章     关键词或词组为基础的数据库检索 (I)

PubMed 数据库的字段:Affiliation [AD]Article Identifier [AID]All Fields [ALL]Author [AU]Book [book]Comment CorrectionsCorporate Author [CN]Create Date [CRDT]Completion Date [DCOM]EC/RN Number [RN]Editor [ED]Entrez Date [EDAT]Filter [FILTER]First Author Name [1AU]Full Author Name [FAU]Full Investigator Name [FIR]Grant Number [GR]

Investigator [IR]ISBN [ISBN]Issue [IP]Journal [TA]Language [LA]Last Author [LASTAU]Location ID [LID]MeSH Date [MHDA]MeSH Major Topic [MAJR]MeSH Subheadings [SH]MeSH Terms [MH]Modification Date [LR]NLM Unique ID [JID]Other Term [OT]OwnerPagination [PG]Personal Name as Subject [PS]

Pharmacological Action [PA]Place of Publication [PL]PMID [PMID]Publisher [PUBN]Publication Date [DP]Publication Type [PT]Secondary Source ID [SI]Subset [SB]Supplementary Concept[NM]Text Words [TW]Title [TI]Title/Abstract [TIAB]Transliterated Title [TT]UID [PMID]VersionVolume [VI]

Watson J [author] 1953 [publication date] nature [journal]

Watson J [AU] 1953 [DP] nature [TA]

Search Field Descriptions and Tags for Pubmed

精简 PubMed 搜索结果的方法:组合多个搜索字段

Page 25: 第三章     关键词或词组为基础的数据库检索 (I)

小技巧:通过添加“ &report=imagesdocsum” 能搜索图片http://www.ncbi.nlm.nih.gov/pmc/?term=rice+root&report=imagesdocsum

PubMed Discovery Tools

Page 26: 第三章     关键词或词组为基础的数据库检索 (I)

如果已知文献部分信息:

单篇文献匹配器( Single Citation Matcher ):

http://www.ncbi.nlm.nih.gov/pubmed/citmatch

多篇文献匹配器( Batch Citation Matcher ):

http://www.ncbi.nlm.nih.gov/pubmed/batchcitmatch

Page 27: 第三章     关键词或词组为基础的数据库检索 (I)

如何自动获得最近更新的结果?

Page 28: 第三章     关键词或词组为基础的数据库检索 (I)

Google 学术搜索

http://scholar.google.com/schhp?hl=zh-CN

Page 29: 第三章     关键词或词组为基础的数据库检索 (I)

检索、管理和引用文献的工具

http://www.endnote.com

http://www.refman.com

http://www.procite.com

http://www.mendeley.com

Page 30: 第三章     关键词或词组为基础的数据库检索 (I)

2. SRS (Sequence Reterieval System)

http://srs.ebi.ac.uk/ Help•European Bioinformatics Institute (EBI) 的传统检索体系•优点:检索面宽•缺点:操作复杂

注意:目前 EBI 提供的 SRS 功能正在逐步废除,但世界上仍有很多镜像站点可以使用:德国 http://www.dkfz.de/srs/意大利 http://bioinfo.ceinge.unina.it/srs7131/

EBI 新版的检索体系: EBI search

Page 31: 第三章     关键词或词组为基础的数据库检索 (I)

17大类194个数据库与 SRS 体系相连 Literature, Bibliography and Reference databases Nucleotide sequence databases Uniprot Universal Protein Resource Other protein sequence databases Deprecated Protein Databases Nucleotide related databases Protein function databases Protein structure databases Enzymes, reactions and metabolic pathway databases Mutation and SNP databases Gene ontology resources Biological Resources Catalogues Mapping databases Other databases User owned databases Application result databases EMBOSS result databases

Page 32: 第三章     关键词或词组为基础的数据库检索 (I)

检索方法( 1 ):快速检索 (Quick search)

操作简单,检索数据库有限 适用于目标明确的检索

在 SRS主页选择检索类别,输入关键词

检索到的信息目录,每一条信息与其它数据库的相关信息链接

查看信息内容

Page 33: 第三章     关键词或词组为基础的数据库检索 (I)

检索方法( 2 ):高级检索 (advanced search)

操作稍微复杂,可以检索所有数据库 适用于范围广泛的检索

在 SRS主页点击“ Library Page”

在“ Library Page”网页选择数据库,然后点击“ Query Form”

在“ Query Form”网页输入关键词检索

检索到的信息目录,每一条信息与其它数据库的相关信息链接

Page 34: 第三章     关键词或词组为基础的数据库检索 (I)

3. DBGET (Integrated database retrieval system)

http://www.genome.jp/dbget/

日本 GenomeNet 的检索体系

优点:与 Kyoto Encyclopedia of Genes and

Genomes

(KEGG) database 相连 操作较 SRS 简单

缺点:检索面较 SRS 窄

DBGET 与 40 多个数据库相连DBGET 检索体系中数据库之间的连接

Page 35: 第三章     关键词或词组为基础的数据库检索 (I)

检索方法( 1 ):单库检索( basic search )

在 DBGET主页选择一个数据库

输入关键词检索

查看检索到的信息目录

查看信息详细内容

Page 36: 第三章     关键词或词组为基础的数据库检索 (I)

检索方法( 2 ):跨库检索 ( LinkDB )

在 DBGET主页点击“ LinkDB”

在查询网页选择数据库

输入关键词检索(数据库 : 编号)

结果

Page 37: 第三章     关键词或词组为基础的数据库检索 (I)

检索时如果所得信息与预期不符,需仔细检查: 数据库

不同的数据库包含不同的内容,检索前需弄清数据库所包含数据的内容和范围

关键词 关键词的拼写是否正确 关键词的使用是否合乎主流 retrotransposon retro-transposon

是否使用了过多的关键词,以至于检索范围太窄。通常先使用最主要的关键词搜索,如果结果过多再逐步缩小范围

最后的提醒:

Page 38: 第三章     关键词或词组为基础的数据库检索 (I)

生物信息学第三章

关键词或词组为基础的数据库检索 ( 上机操作 )

Page 40: 第三章     关键词或词组为基础的数据库检索 (I)

5 、上机操作

1 、查找与水稻抗病基因 Xa21 有关的资料 :

( 1 )有多少条序列具有全长 CDS ,分别由多少碱基构成?编码多少个氨基酸?

( 2 )选择修改时间最早的一条序列,指出该基因 exon 和 intron 的位置。

2 、检索注册号在 AF123456 - AF123478 之间并且序列长度在 1500 到1800 bp 之间的核苷酸数据,共有多少条?如何批量下载?

3 、查找线虫 (Caenorhabditis elegans) 基因组的资料: ( 1 ) chromosome I 的测序是否已完成? ( 2 )已知的 chromosome I 的序列有多少碱基?序列发表在哪份杂志

上?期号和页码?4 、查看拟南芥 (Arabidopsis thaliana) 的系谱关系 (lineage) 。5 、在 PubMed 中检索我校在 2013 年 1月发表的科研论文。

Page 41: 第三章     关键词或词组为基础的数据库检索 (I)

5 、上机操作(续)6 、 2013 年 3月底,在上海和安徽两地率先发现了一种能感染人类的 H7N9型禽流感病毒( Avian-Origin Influenza A )。中国科学家迅速分离了该病毒并进行了初步研究,首篇正式的论文 4月发表在医学领域权威期刊《 The New England Journal of Medicine》。目前, NCBI GenBank 中已收录该病毒分离自不同病人的多个毒株的序列,以下问题如提到“新 H7N9”特指名为“ A/Hangzhou/1/2013” 的毒株。请根据该背景资料回答以下问题。(1)请找出这篇文献,列出其在 PubMed 中的 PMID 号。(2)该病毒属于 H7N9亚型,其中的“ H”代表血凝素( Hemagglutinin ),“ N”代表神经氨酸酶 (Neuraminidase) ,分别是病毒外膜上的两种蛋白。 H 是病毒吸咐于细胞表面的工具, N则是病毒复制完成后脱离细胞表面的工具。请在 NCBI 核酸数据库( Nucleotide )中找出该毒株编码这两种蛋白的基因的序列,列出 Accession号并简要写明过程。(3)列出该毒株在 NCBI物种分类数据库( Taxonomy )中的 ID 号。 NCBI 蛋白质数据库( Protein )目前收录了多少条该毒株的蛋白质序列?