第一章 生物信息学的发展和研究内容 (i)
DESCRIPTION
生物信息学. 第一章 生物信息学的发展和研究内容 (I). 1 、什么是生物信息学?. 生物信息学是信息科学领域和生命科学领域的一门新兴的、应用型 交叉学科 。. 采用数理和信息科学的理论、技术和方法,分析生物学数据,研究 生命现象 的一门科学. 以计算机为主要工具,以 大量生物数据库 和分析软件为基础. 依赖于因特网. 为人类揭示生命的奥秘提供了一条新的途径. Sanger sequences insulin protein. Watson and Crick DNA model. 1955. Dayhoff’s Atlas. 1960. - PowerPoint PPT PresentationTRANSCRIPT
第一章
生物信息学的发展和研究内容
(I)
生物信息学
1 、什么是生物信息学?
生物信息学是信息科学领域和生命科学领域的一门新兴的、应用型交叉学科。
以计算机为主要工具,以大量生物数据库和
分析软件为基础
采用数理和信息科学的理论、技术和方法,分析生物学数据,研究生命现象的一门科学
为人类揭示生命的奥秘提供了一条新的途径
依赖于因特网
Watson and Crick DNA model
Sanger sequences insulin protein
Sanger dideoxy DNA sequen
cingPCR (Polymerase Chain Reaction)
1955
1960
1965
1970
1975
1980
1985
ARPANET (early Internet)
PDB (Protein Data Bank)
Sequence alignment
GenBank database
Dayhoff’s Atlas
2 、生物信息学发展简史
1995
1990
2000
SWISS-PROT database
NCBI
World Wide Web
BLAST
FASTA
EBI
Human Genome Initiative
First human genome draft
First bacterial genome
Yeast genome
2 、生物信息学发展简史
Human genome project (HGP)
生物信息学学科的迅速发展在 90 年代
1. identify all the approximately 20,000-25,000 genes in human DNA,
2. determine the sequences of the 3 billion chemical base pairs that make up human DNA,
3. store this information in databases, 4. improve tools for data analysis, 5. transfer related technologies to the private sector,6. address the ethical, legal, and social issues (ELSI) that
may arise from the project.
Goals
Towards a Paradigm Shift in Biology
The new paradigm, now emerging, is that all “genes” will be known (in the sense of being resident in databases available electronically), and that the starting point of a biological investigation will be theoretical. An individual scientist will begin with a theoretical conjecture, only then turning to experiments to follow or to test that hypothesis.
In vivo In vitro In silico
Walter Gilbert, Nature 349:99 (1991)
3 、生物信息学的基本方法和技术
建立生物数据库 各种公共数据库 本地化数据库
数据库检索 各种数据检索工具的开发和使用
Entrez 检索体系 BLAST 检索体系
3 、生物信息学的基本方法和技术 生物大分子序列分析
Homologous sequence analysis (同源序列分析)
Multiple sequence alignment (多序列对位排列)
Phylogenetic analysis(进化分析)
基因结构、功能分析Mapping (ePCR) 、 Exon/Intron 、 Promoter 、 Regulatory regions……
蛋白质结构、功能分析Motif 、 3-D structure 、 post-translational modification 、 interactions……
3 、生物信息学的基本方法和技术 统计概率模型
Hidden Markov model (隐马尔可夫模型)
基因识别和药物设计 Maximum likelihood model (最大似然模型)
序列进化分析 Bayesian network (贝叶斯网络)
调控网络构建
程序设计 C/C++, Python, Perl
4 、生物信息学的研究内容
收集、整理、储存、加工、发布和分析生物学数据
发展新的数理和信息科学的技术和方法用于管理和分析生物数据
(数理和信息科学工作者)
(生物工作者)
The field of science in which biology, computer science and information technology merge into a single discipline
5 、生物信息学的应用
基础研究和教学 分子生物学研究的重要手段之一 生命科学的教学
药物开发( Pharmaceutical Bioinformatics )
新药筛选 药靶设计 分子药理学研究
5 、生物信息学的应用
疾病诊断 利用疑难病症的病原 DNA 序列诊断疾病 遗传病
其他 环境监测 (Metagenomics)
食品安全检测 海关检测
5 、生物信息学的应用
序列拼接 Sequence assembly
Bioinformatics: computational analysis of genomics data
Human Chromosome 6
基因组注释Genome annotation
5 、生物信息学的应用
CCTGACAAATTCGACGTGCGGCATTGCATGCAGACGTGCATG
CGTGCAAATAATCAATGTGGACTTTTCTGCGATTATGGAAGAA
CTTTGTTACGCGTTTTTGTCATGGCTTTGGTCCCGCTTTGTTC
AGAATGCTTTTAATAAGCGGGGTTACCGGTTTGGTTAGCGAGA
AGAGCCAGTAAAAGACGCAGTGACGGAGATGTCTGATG CAA
TAT GGA CAA TTG GTT TCT TCT CTG AAT .................................
.............. TGAAAAACGTA
TF binding sitepromoter
Ribosome binding Site
ORF = Open Reading FrameCDS = Coding Sequence
Transcription
Start Site
Assign structure to all proteins encoded in a genome
结构基因组Structural gen
omics
5 、生物信息学的应用
Functionalgenomics
Genome-wide profiling of:• mRNA levels• Protein levels
Co-expression of genesand/or proteins
Identifying protein-protein interactions
Networks of interactions
5 、生物信息学的应用
5 、生物信息学的应用
功能基因组Functional gen
omics
Amin AR (2003) Arthritis Res. Ther. 5:76-79
Synteny between Human chromosome 6 and Mouse
• Gene location• Gene structure
– Exon number– Exon lengths– Intron lengths– Sequence similarity
• Gene characteristics– Splice sites– Codon usage– Conserved synteny
5 、生物信息学的应用
比较基因组Comparative
genomics
Genomics, Transcriptomics, Proteomics, Metabolomics…
5 、生物信息学的应用
Omics
第一章
生物信息学的发展和研究内容
(II)
生物信息学
Xenopus MALWMQCLP-LVLVLLFSTPNTEALANQHLBos MALWTRLRPLLALLALWPPPPARAFVNQHL **** : * *.*: *:..* :. *:****
Xenopus CGSHLVEALYLVCGDRGFFYYPKIKRDIEQBos CGSHLVEALYLVCGERGFFYTPKARREVEG ***************:***** ** :*::*
Xenopus AQVNGPQDNELDG-MQFQPQEYQKMKRGIVBos PQVG---ALELAGGPGAGGLEGPPQKRGIV .**. ** * * *****
Xenopus EQCCHSTCSLFQLENYCNBos EQCCASVCSLYQLENYCN **** *.***:*******
5 、生物信息学的应用
Molecular evolution
Smith et al. (2009) Nature 459, 1122-25
Origins and evolutionary genomics of the 2009 swine-origin H1N1 influenza A epidemic
Analysis of gene expression
5 、生物信息学的应用
Filtering
Background correction
Normalization
Summarization
Imputation
Heat map
Analysis of regulation
Toledo and Bardot (2009) Nature 460, 466-467
5 、生物信息学的应用
Molecular docking
5 、生物信息学的应用
Protein structure prediction
新药研制的两大瓶颈
靶标生物大分子的确定及验证
具有生物活性的小分子药物的设计和发现
Phmaceutical
5 、生物信息学的应用
COMPUTER-AIDED DRUG DISCOVERY
传统流程改进流程
时间、金钱
Luscombe, Greenbaum, Gerstein (2001)
5 、生物信息学的应用
6 、本课程主要内容
检索数据库
序列数据的检索和分析 比较基因组学( comparative genomics ) 进化分析
文字数据(文献)的检索 序列( DNA 、蛋白质)数据的检索 其他(三维结构、网络图等)数据的检索
分析和解释实验数据(核苷酸和蛋白质序列)
利用国际上共享的数据库和分析软件
生物信息学学科的发展和研究内容
生物数据库
关键词或词组为基础的数据库检索
核酸和蛋白质序列为基础的数据库检索
多序列对位排列分析和系谱分析
基因预测和基因结构分析
蛋白质性质和结构分析
农业类数据库的利用
核酸序列的其他分析方法
基因芯片表达谱分析
课程组成
了解各种生物数据库
掌握利用 Internet 上的各种数据库、软件,查找生物相关信息,分析和解释各种生物数据。
学习本课程的目的
Sequence analysis
Genome annotation
Analysis of gene expression
Analysis of regulation
Prediction of protein structure
Comparative genomics
参考教材
David W. Mount. Bioinformatics: Sequence and Genome Analysis. (2nd edition) New York: Cold Spring Harbor Laboratory Press, 2004.
钟扬等译,生物信息学(第一版),高等教育出版社, 2003 。
参考教材
周艳红、王石平,生物信息学,高等教育出版社, 2007 。
A. D. Boxevanis and B. F. F. Ouellette. Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins. (3rd edition) New York: Wile-Interscience, 2004.
http://nhjy.hzau.edu.cn/kech/swxxx/
华农主页-南湖教苑-精品课程-国家精品课程- 2007 年国家精品课程-生物信息学
教学网站
获取课件(仅限校园网内)http://disk.hzau.edu.cn—— 提取文件——提取码: bioinf
第一章
生物信息学的发展和研究内容
( 上机操作 )
生物信息学
上机操作
初步了解 Internet 上的数据库和分析工具
自学课程
http://www.ncbi.nlm.nih.gov/education
http://www.ebi.ac.uk/2can/home.html
http://www.oxfordjournals.org/nar/database/c/
上机操作
浏览本年度 NAR 数据库专刊的数据库列表
• Sequences (DNA, protein)• Genomics• Mutation/polymorphism• Protein domain/family• Proteomics (2D gel, Mass Spectrometry)• 3D structure• Metabolic networks• Regulatory networks• Bibliography• Expression (Microarrays,…)• Specialized
在 NAR 数据库列表中选取一个自己感兴趣的数据库
• 任务一:亲自试用所选数据库,然后文字介绍数据库并简要评论,说明该数据库可能会为你解决什么样的生物问题。
• 任务二:将上述内容制作成约 5-10页 PPT,向他人介绍你选择的数据库。
上机操作
• 格式如下:• 标题:标题应为简明易懂的一句介绍,比如上图
的数据库,可以写:AnimalTFDB: 动物转录因子数据库
• 标签:选择该数据库的分类,可多选• 内容包括:英文原文 Title 、 Authors 、 Abstract 、
期刊期号及页码,然后是你翻译的摘要或撰写的中文介绍,最后是评论
上机操作
生物信息学是联系各个生物学科的桥梁
Use of computational tools to discover new information in complex data sets (from the one-dimensional information of DNA through the two-dimensional information of RNA and the three-dimensional information of proteins, to the four-dimensional information of evolving living systems).
不同层次的生物数据
The 20th annual Database Issue of Nucleic Acids Research includes 176 articles, half of which describe new online molecular biology databases and the other half provide updates on the databases previously featured in NAR and other journals. This year’s highlights include two databases of DNA repeat elements; several databases of transcriptional factors and transcriptional factor-binding sites; databases on various aspects of protein structure and protein–protein interactions; databases for metagenomic and rRNA sequence analysis; and four databases specifically dedicated to Escherichia coli. The increased emphasis on using the genome data to improve human health is reflected in the development of the databases of genomic structural variation (NCBI’s dbVar and EBI’s DGVa), the NIH Genetic Testing Registry and several other databases centered on the genetic basis of human disease, potential drugs, their targets and the mechanisms of protein–ligand binding. Two new databases present genomic and RNAseq data for monkeys, providing wealth of data on our closest relatives for comparative genomics purposes. The NAR online Molecular Biology Database Collection, available at http://www.oxfordjournals.org/nar/database/a/, has been updated and currently lists 1512 online databases. The full content of the Database Issue is freely available online on the Nucleic Acids Research website (http://nar.oxfordjournals.org/).