Structural Bioinformaticscbb.sjtu.edu.cn/~qinxu/files/lecture160418.pdf · 2016-04-18 · • Advance in structural bioinformatics -- 《Advance in experimental medicine and biology
– Theoretical calculation in quantum chemistry (QM) as early as 1927
– Computational calculations in theoretical chemistry in 1950s ~ 1970s
• Ab initio methods • Empirical method and semi-empirical methods • Molecular mechanical (MM) methods
– “Computational Chemistry” in the 1970 book “Computers and Their Role in the Physical Sciences”
– In 1980s, available softwares for computations on biological systems
Molecular Simulation AMBER
CHARMM
NAMD
GROMACS
Computational structural biology • 1998 Nobel Prize in Chemistry
– Walter Kohn, "for his development of the density-functional theory", and John Pople, "for his development of computational methods in quantum chemistry”
• 2013 Nobel Prize in Chemistry – Martin Karplus, Michael Levitt and Arieh
Warshel for "the development of multiscale models for complex chemical systems”
Cheminformatics • Cheminformatics defined by F.K. Brown in
1998: Chemoinformatics is the mixing of those
information resources to transform data into information and information into knowledge for the intended purpose of making better decisions faster in the area of drug lead identification and optimization.
• “Chemomics and drug innovation”
XU Jun, et. al., Sci China Chem, 2013, 56(1): 71–85
Some Useful Public Databases for Structural Bioinformatics
• General databases – Sequence: NCBI, UniProt, PIR – Structures: PDB, SWISS-Model – Classification: CATH, SCOP, Pfam, InterPro – Pathways: KEGG – Small molecules/Drugs: Drugbank, ZiNC, STITCH, STRING
• Special databases – Special subjects: SuperTarget, CYP-allele,
CYPSI – Special group / project: BMRB, TADB, VNP,
MetaNet
演示者
演示文稿备注
介绍一些关于蛋白质结构、分类或者结构/功能关系的数据库资源。
National Center for Biotechnology Information (NCBI)
www.ncbi.nlm.nih.gov
演示者
演示文稿备注
国家生物技术信息中心(National Center for Biotechnology Information, 简称NCBI) 是美国国家医学图书馆(NLM)的一部分(该图书馆是美国国家卫生研究所的一部分).
BLAST (Basic Local Alignment Search Tool)
UniProt, Universal Protein Resource
UniProt Kowledgebase
Translated EMBL Nucleotide Sequence Data Library
EBI (European Bioinformatics Institute) + SIB (Swiss Institute of Bioinformatics)
演示者
演示文稿备注
(http://www.uniprot.org/ )Universal Protein Resource,其中的UniProt Knowledgebase ,是由EBI (European Bioinformatics Institute) 的与SIB (Swiss Institute of Bioinformatics)联合建立的蛋白质序列和功能注释数据库,2004起统和了PIR数据库,是当前最全面的公共蛋白质序列数据库。
PIR, Protein Information Resource
演示者
演示文稿备注
PIR(http://pir.georgetown.edu/)全称The Protein Information Resource。PIR是世界上最早的蛋白质序列分类与功能注释数据库,起始于1965-1978年的Atlas of Protein Sequence and Structure项目。后通过与MIPS(the Munich Information Center for Protein Sequences)、JIPID(the Japan International Protein Information Database)合作,共同构成了PIR-国际蛋白质序列数据库(Protein Sequence Database,PSD),而在八九十年代成为当时世界上最为全面的公共蛋白质序列数据库,直到2004年12月31日发布的最终版80.00。2002年PIR加入了 EBI (European Bioinformatics Institute) 与SIB (Swiss Institute of Bioinformatics)联合建立的UniProt数据库,实现了与Swiss-Prot和 TrEMBL数据库的统一。PIR的最新版本于2014年8月发布,包括了107,198,274条条目,目前由University of Delaware和Georgetown University Medical Center进行维护。
Research Collaboratory for Structural Bioinformatics (RCSB) Protein Data Bank (PDB)
Protein Data Bank Research Collaboratory for Structural
Bioinformatics,RCSB
演示者
演示文稿备注
这里重点介绍PDB数据库。 PDB是用于保存生物大分子结构数据的常用档案库,由美国Brookhaven国家实验室于1971年创建的。1998年10月为适应结构基因组和生物信息学研究的需要,由美国国家科学基金委员会、能源部和卫生研究院资助成立了结构生物学合作研究协会(Research Collaboratory for Structural Bioinformat-ics,RCSB)。之后,PDB数据库的维护主要是由该组织负责,目前主要成员为拉特格斯大学(Rutgers University)、圣地亚哥超级计算中心(San Diego Supercomputer Center, SDSC)和国家标准化研究所(National Institutes of Standards and Technology, NIST)。 最新的版本中,在新一代的交互式界面的支持下,其大多数页面可由用户自行定义不同的显示面板。 PDB中包含了通过X射线单晶衍射、磁共振和电子衍射等实验手段确定的蛋白质、多糖和核酸等生物大分子的三维结构数据。最初PDB中只含有七个生物大分子的结构,之后随着结构测定方法的成熟以及人们对数据共享观点的改变,PDB库中的数据量迅速增加(图6-23)。目前PDB库的信息是每周进行更新,截止到2014年9月16日,PDB总共收录了103 354条结构数据,
CATH数据库可以通过英国伦敦大学(UCL)的生物分子结构和模拟实验室的网络服务器来实现用户数据的查询和分析。最简便的方式是在CATH首页右上角搜索框(Search CATH by keywords or ID)内输入待查询关键字,直接回车查询。 此外CATH给用户提供了满足不同需求而进行的相应的数据查询方式, 如通过关键字或ID查询:进入链接“Search CATH by text, ID or keyword”,或点击“Search”按钮后选“Search by Keywords / ID”。结果如图。其中点开“CATH Domains”栏右上的标识2,可见该蛋白质1ucr包括两个结构域“1ucrA00”和“1ucrB00”,这两个结构域属于同一同源超家族“CATH Superfamilies”1.10.10.10,其定义为“"winged helix" repressor DNA binding domain”。
用户输入的搜索关键字也可以是描述功能起源的“chaperone”或结构相关的 “helix”。以搜索关键字“lysine”为例,如图可见与lysine相关找到94个超家族,3878个结构域和1576个PDB结构。点击相应栏目右下的“View all entries”可以展开列表,查询每个结果的具体信息。
InterPro, Integrated Resources of Proteins Domains and Functional Sites
演示者
演示文稿备注
整合蛋白质结构域和功能位点资源数据库(Integrated Resources of Proteins Domains and Functional Sites,InterPro),其主页地址为http://www.ebi.ac.uk/interpro/scan.html,是个集成的蛋白质结构域和功能位点数据库,包含关于蛋白质家族、域和作用位点的整合的数据资源。它最初是作为对PROSITE、PRINTS、Pfam和ProDom数据库工程的一种补充手段而建立的。当前版本为48.0,发布日期为2014年7月17日,包含了26 238个蛋白质相关的条目信息,它们包括17 620个蛋白质家族、7497个蛋白质结构域、277个重复区域、108个活性位点、73个结合位点、647个保守基序(motif)、16个后转录修饰位点等信息。
Kyoto Encyclopedia of Genes and Genomes (KEGG)
http://www.kegg.jp/kegg/
演示者
演示文稿备注
京都基因与基因组百科全书
DrugBank
http://www.drugbank.ca/
演示者
演示文稿备注
drugs
ZINC
http://zinc.docking.org/
演示者
演示文稿备注
compounds
STITCH
http://stitch.embl.de/
演示者
演示文稿备注
Chemical-protein interaction
STRING
http://string.embl.de/
演示者
演示文稿备注
Protein-protein interaction
Much more… 药物(小分子)数据库:
PubChem (in NCBI) KEGG DRUG/KEGG COMPOUND Manually Annotated Targets and Drugs Online Resource (MATADOR)
Therapeutic Target Database (TTD) Potential Drug Target Database (PDTD)
中药数据库:
Traditional Chinese Medicine Database (TCMD) Chinese herb constituents database (CHCD) 3D structural database of biochemical components TCM Database@Taiwan Traditional Chinese Medicine Information Database (TCM-ID) TCM Drugs Information System Comprehensive Herbal Medicine Information System for Cancer (CHMIS)-C China Natural Products Database (CNPD) Marine Natural Products Database (MNPD) Bioactive Plant Compounds Database (BPCD)
演示者
演示文稿备注
MATADOR: Manually Annotated Targets and Drugs Online Resource (http://matador.embl.de/)