コンピュータ実習 - lecture.ecc.u-tokyo.ac.jpコンピュータ実習...
TRANSCRIPT
コンピュータ実習(バイオインフォマティクス基礎)
生物情報工学研究室
2020年度 生命化学・工学専修 学生実験
2020.07.08(水)オンライン
バイオインフォマティクスとは
情報学(インフォマティクス)の考え方や手法を用いて、生物の問題を解こうという学問
2
Bioinformatics
生物学Biology
情報学Informatics
融合
物理学Physics
数学Mathematics
化学Chemistry
統計学Statistics
in silico コンピュータによるin vitro 試験管内でin vivo 生体内で
PubMedの論文検索ヒット数
件数
0
5000
10000
15000
20000
25000
30000
35000
40000
1985 1990 1995 2000 2005 2010 2015 2020
bioinformatics
"in silico"
"computational"
年
3
実験に代わる解析、予測、設計へ
仮説の構築
ゲノム等の網羅的な解析による大量のデータ
生物と情報
生物という複雑な対象を理解するには、実験データを蓄積し、
生命現象をシミュレートして、生物の理解、応用に役立てる
それを解析することにより、そこに埋もれている情報を探し出して、新しい知識を得る
データベース
ソフトウェア
複雑/膨大な計算
data
driv
en
theory driven
生命現象の理論的な究明 • 計算機の高性能化• 新たな計算手法の開発
4
1.E+00
1.E+01
1.E+02
1.E+03
1.E+04
1.E+05
1.E+06
1.E+07
1.E+08
1.E+09
1.E+10
1980 1982 1984 1986 1988 1990 1992 1994 1996 1998 2000 2002 2004 2006 2008 2010 2012 2014 2016 2018
GenBank
TrEMBL
SwissProt
PDB
PROSITE
データベースの拡大
主要な生物データベースの登録数 GenBankはWhole Genome Shotgunを含む
PROSITEはdocumentation entryを除く
109
108
107
106
105
104
103
102
ゲノム・遺伝子の配列
タンパク質の配列(遺伝子から自動変換)
タンパク質の配列(アノテーションが充実)
タンパク質などの構造
タンパク質によく見られる配列パターンとその機能
101
100
4
1010
ゲノムからタンパク質へ
6
mRNA tRNA rRNA
DNA
遺伝子
DNA
複製
遺伝子 遺伝子
複製(replication)
転写(transcription)
翻訳(translation)
DNAの情報がmRNAに写しとられる
DNAのコピーが作られ、遺伝情報が継承される
mRNAの情報をもとにタンパク質が合成される
DNA
RNA
タンパク質
tRNA
アミノ酸
リボソーム
mRNA
生合成されたタンパク質
(ポリペプチド鎖)
フォールドした構造
他の分子との相互作用
局在化
KKK GI E
修飾
生物の形や働き
ゲノムからタンパク質へ
7
• KEGG代謝パスウェイ
mRNA tRNA rRNA
DNA
遺伝子
DNA
複製
遺伝子 遺伝子
tRNA
アミノ酸
リボソーム
mRNA
生合成されたタンパク質
(ポリペプチド鎖)
フォールドした構造
KKK GI E
• GenBankゲノム・遺伝子の配列
• Swiss-Protタンパク質の配列
• PDBタンパク質の構造
• PROSITE配列パターンと機能
• GEO遺伝子発現
• PubMed文献
データベース
NCBI• National Center of Biotechnology Information • http://www.ncbi.nlm.nih.gov/
文献検索
書籍検索
塩基配列データベース
アミノ酸配列データベース
SNPデータベース
フリーアクセスの文献データベース
BLAST
ゲノムデータベース
遺伝子疾患データベース
化合物データベース
7
NCBIゲノムデータベースの利用
ゲノムプロジェクト
ゲノムデータの利用
FTPのサイト
生物種によるゲノムブラウジング
ヒトゲノム
微生物
オルガネラ
原核動物のリファレンスゲノム
ウィルス
Genome → ゲノムデータのダウンロード、ブラウジング、解析ツール
Genome Data Viewer
Map Viewerは利用できなくなった
8
NCBIゲノムデータベース
ゲノムサイズ
真核生物 染色体の数
生物種 生物群 生物亜群界
原核生物 ウィルス
オルガネラ
プラスミド
プロジェクトタブで選択可能
10
ゲノムデータのダウンロード(1)
GCF_000005845.2_ASM584v2_genomic.fna.gz
GCF_000005845.2_ASM584v2_protein.faa.gz
大腸菌K12株のゲノム
11
ゲノムデータのダウンロード(2)GCF_000005845.2_ASM584v2_genomic.fna>NC_000913.3 Escherichia coli str. K-12 substr. MG1655, complete genome
AGCTTTTCATTCTGACTGCAACGGGCAATATGTCTCTGTGTGGATTAAAAAAAGAGTGTCTGATAGCAGCTTCTGAACTG
GTTACCTGCCGTGAGTAAATTAAAATTTTATTGACTTAGGTCACTAAATACTTTAACCAATATAGGCATAGCGCACAGAC
AGATAAAAATTACAGAGTACACAACATCCATGAAACGCATTAGCACCACCATTACCACCACCATCACCATTACCACAGGT
AACGGTGCGGGCTGACGCGTACAGGAAACACAGAAAAAAGCCCGCACCTGACAGTGCGGGCTTTTTTTTTCGACCAAAGG
TAACGAGGTAACAACCATGCGAGTGTTGAAGTTCGGCGGTACATCAGTGGCAAATGCAGAACGTTTTCTGCGTGTTGCCG
ATATTCTGGAAAGCAATGCCAGGCAGGGGCAGGTGGCCACCGTCCTCTCTGCCCCCGCCAAAATCACCAACCACCTGGTG
GCGATGATTGAAAAAACCATTAGCGGCCAGGATGCTTTACCCAATATCAGCGATGCCGAACGTATTTTTGCCGAACTTTT
GACGGGACTCGCCGCCGCCCAGCCGGGGTTCCCGCTGGCGCAATTGAAAACTTTCGTCGATCAGGAATTTGCCCAAATAA
AACATGTCCTGCATGGCATTAGTTTGTTGGGGCAGTGCCCGGATAGCATCAACGCTGCGCTGATTTGCCGTGGCGAGAAA
ATGTCGATCGCCATTATGGCCGGCGTATTAGAAGCGCGCGGTCACAACGTTACTGTTATCGATCCGGTCGAAAAACTGCT
GGCAGTGGGGCATTACCTCGAATCTACCGTCGATATTGCTGAGTCCACCCGCCGTATTGCGGCAAGCCGCATTCCGGCTG
ATCACATGGTGCTGATGGCAGGTTTCACCGCCGGTAATGAAAAAGGCGAACTGGTGGTGCTTGGACGCAACGGTTCCGAC
TACTCTGCTGCGGTGCTGGCTGCCTGTTTACGCGCCGATTGTTGCGAGATTTGGACGGACGTTGACGGGGTCTATACCTG
CGACCCGCGTCAGGTGCCCGATGCGAGGTTGTTGAAGTCGATGTCCTACCAGGAAGCGATGGAGCTTTCCTACTTCGGCG
CTAAAGTTCTTCACCCCCGCACCATTACCCCCATCGCCCAGTTCCAGATCCCTTGCCTGATTAAAAATACCGGAAATCCT
CAAGCACCAGGTACGCTCATTGGTGCCAGCCGTGATGAAGACGAATTACCGGTCAAGGGCATTTCCAATCTGAATAACAT
GGCAATGTTCAGCGTTTCTGGTCCGGGGATGAAAGGGATGGTCGGCATGGCGGCGCGCGTCTTTGCAGCGATGTCACGCG
CCCGTATTTCCGTGGTGCTGATTACGCAATCATCTTCCGAATACAGCATCAGTTTCTGCGTTCCACAAAGCGACTGTGTG
CGAGCTGAACGGGCAATGCAGGAAGAGTTCTACCTGGAACTGAAAGAAGGCTTACTGGAGCCGCTGGCAGTGACGGAACG
GCTGGCCATTATCTCGGTGGTAGGTGATGGTATGCGCACCTTGCGTGGGATCTCGGCGAAATTCTTTGCCGCACTGGCCC
GCGCCAATATCAACATTGTCGCCATTGCTCAGGGATCTTCTGAACGCTCAATCTCTGTCGTGGTAAATAACGATGATGCG
ACCACTGGCGTGCGCGTTACTCATCAGATGCTGTTCAATACCGATCAGGTTATCGAAGTGTTTGTGATTGGCGTCGGTGG
CGTTGGCGGTGCGCTGCTGGAGCAACTGAAGCGTCAGCAAAGCTGGCTGAAGAATAAACATATCGACTTACGTGTCTGCG
GTGTTGCCAACTCGAAGGCTCTGCTCACCAATGTACATGGCCTTAATCTGGAAAACTGGCAGGAAGAACTGGCGCAAGCC
AAAGAGCCGTTTAATCTCGGGCGCTTAATTCGCCTCGTGAAAGAATATCATCTGCTGAACCCGGTCATTGTTGACTGCAC
TTCCAGCCAGGCAGTGGCGGATCAATATGCCGACTTCCTGCGCGAAGGTTTCCACGTTGTCACGCCGAACAAAAAGGCCA
ACACCTCGTCGATGGATTACTACCATCAGTTGCGTTATGCGGCGGAAAAATCGCGGCGTAAATTCCTCTATGACACCAAC
GTTGGGGCTGGATTACCGGTTATTGAGAACCTGCAAAATCTGCTCAATGCAGGTGATGAATTGATGAAGTTCTCCGGCAT
TCTTTCTGGTTCGCTTTCTTATATCTTCGGCAAGTTAGACGAAGGCATGAGTTTCTCCGAGGCGACCACGCTGGCGCGGG
AAATGGGTTATACCGAACCGGACCCGCGAGATGATCTTTCTGGTATGGATGTGGCGCGTAAACTATTGATTCTCGCTCGT
GAAACGGGACGTGAACTGGAGCTGGCGGATATTGAAATTGAACCTGTGCTGCCCGCAGAGTTTAACGCCGAGGGTGATGT
TGCCGCTTTTATGGCGAATCTGTCACAACTCGACGATCTCTTTGCCGCGCGCGTGGCGAAGGCCCGTGATGAAGGAAAAG
TTTTGCGCTATGTTGGCAATATTGATGAAGATGGCGTCTGCCGCGTGAAGATTGCCGAAGTGGATGGTAATGATCCGCTG
TTCAAAGTGAAAAATGGCGAAAACGCCCTGGCCTTCTATAGCCACTATTATCAGCCGCTGCCGTTGGTACTGCGCGGATA
TGGTGCGGGCAATGACGTTACAGCTGCCGGTGTCTTTGCTGATCTGCTACGTACCCTCTCATGGAAGTTAGGAGTCTGAC
12
TCCTCATTCTTTGAATCCGCGGCTCCGCGGTCTTCGGCGTCAGACCAGCC
GGAGGAAGCCTGTTTGCAATTTAAGCGGGCTGTGAACGCCCAGGGCCGGC
GGGGGCAGGGCCGAGGCGGGCCATTTTGAATAAAGAGGCGTGCCTTCCAG
GCAGGCTCTATAAGTGACCGCCGCGGCGAGCGTGCGCGCGTTGCAGGTCA
CTGTAGCGGACTTCTTTTGGTTTTCTTTCTCTTTGGGGCACCTCTGGACT
CACTCCCCAGCATGAAGGCGCTGAGCCCGGTGCGCGGCTGCTACGAGGCG
GTGTGCTGCCTGTCGGAACGCAGTCTGGCCATCGCCCGGGGCCGAGGGAA
GGGCCCGGCAGCTGAGGAGCCGCTGAGCTTGCTGGACGACATGAACCACT
GCTACTCCCGCCTGCGGGAACTGGTACCCGGAGTCCCGAGAGGCACTCAG
CTTAGCCAGGTGGAAATCCTACAGCGCGTCATCGACTACATTCTCGACCT
GCAGGTAGTCCTGGCCGAGCCAGCCCCTGGACCCCCTGATGGCCCCCACC
TTCCCATCCAGGTAAGCCTCGAAGTCGGGACAGGGCTGAACACCCAGGCA
AGGATGCTGCGGGACCCTCGGAGCTCCCGATTGCCTCGCGTAACTCTTCC
CTCTTTTCCTCTAATCAGACAGCCGAGCTCGCTCCGGAACTTGTCATCTC
CAACGACAAAAGGAGCTTTTGCCACTGACTCGGCCGTGTCCTGACACCTC
CAGAACGCAGGTGCTGGCGCCCGTTCTGCCTGGGACCCCGGGAACCTCTC
CTGCCGGAAGCCGGACGGCAGGGATGGGCCCCAACTTCGCCCTGCCC
10 20 30 40 50
10566021
10566121
10566221
10566321
10566421
10566521
10566621
10566721
CAATボックス
TATAボックス 転写開始点
5’非翻訳領域
開始コドン
終始コドン 3’非翻訳領域
エクソン
イントロン
エクソン
10566821
ゲノム配列の中から遺伝子をどう見つけるか
13
特徴的なパターンの存在を調べる
生物種間でゲノムを比較する
すでに分かっている遺伝子との一致を調べる
コード領域の内容や長さを考慮する
MGDVEKGKKIFIMKCSQCHTVEKGGKHKTGPNLHGLFGRKTGQAPGYSYTAANKNKGIIWGEDTLMEYLENPKKYIPGTKMIFVGIKKKEERADLIAYLKKATNE
配列データベース
ホモロジー検索
類似配列を探す(ホモロジー検索)
配列とその機能
遺伝子の塩基配列タンパク質のアミノ酸配列
機能を推定する
バイオインフォマティクス
遺伝子あるいはタンパク質の配列から機能をどう調べるか?
14
• NCBI nr• Swiss-Prot
・・・
NCBI BLAST
• ホモロジー: 遺伝子が共通の祖先をもつ• ホモロジー検索: 進化的に類縁の遺伝子
をデータベースから探索する
アミノ酸配列の進化的な保存の例
ヒト
チンパンジー
マウス
ミツバチ
イネ
ジャガイモ
酵母
テトラヒメナ
発しんチフスリケッチア
---------MGDVEKGKKIFIMKCSQCHTVEKGGKHKTGPNLHGLFGRKTGQAPGYSYTAANKNKGIIWGEDTLMEYLENPKKYIPGTKMIFVGIKKKEERADLIAYLKKATNE
---------MGDVEKGKKIFIMKCSQCHTVEKGGKHKTGPNLHGLFGRKTGQAPGYSYTAANKNKGIIWGEDTLMEYLENPKKYIPGTKMIFVGIKKKEERADLIAYLKKATNE
---------MGDVEKGKKIFVQKCAQCHTVEKGGKHKTGPNLHGLFGRKTGQAAGFSYTDANKNKGITWGEDTLMEYLENPKKYIPGTKMIFAGIKKKGERADLIAYLKKATNE
-----MGIPAGDPEKGKKIFVQKCAQCHTIESGGKHKVGPNLYGVYGRKTGQAPGYSYTDANKGKGITWNKETLFEYLENPKKYIPGTKMVFAGLKKPQERADLIAYIEQASK-
-MASFSEAPPGNPKAGEKIFKTKCAQCHTVDKGAGHKQGPNLNGLFGRQSGTTPGYSYSTANKNMAVIWEENTLYDYLLNPKKYIPGTKMVFPGLKKPQERADLISYLKEATS-
--ASFGEAPPGNPKAGEKIFKTKCAQCHTVDKGAGHKEGPNLNGLFGRQSGTTAGYSYSNANKNMAVTWGENTLYDYLLNPKKYIPGTKMVFPGLKKPQERADLIAYLKEATA-
----MTEFKAGSAKKGATLFKTRCLQCHTVEKGGPHKVGPNLHGIFGRHSGQAEGYSYTDANIKKNVLWDENNMSEYLTNPKKYIPGTKMAFGGLKKEKDRNDLITYLKKACE-
PKEPEVTVPEGDASAGRDIFDSQCSACHAIE--GDSTAAPVLGGVIGRKAGQEK-FAYSKGMKGSGITWNEKHLFVFLKNPSKHVPGTKMAFAGLPADKDRADLIAYLKSV---
ESVNIQELMKTANANHGREIAKKCLMCHSLDKDGPNKLGPHLWNIVGRPKASITDYKYSFAISKLGGVWDDENLFAFLHKPSSYAPGTKMSFAGISKPQDIADVILFLKNYVHD
104/104(100%)
96/105 (91%)
76/103 (73%)
65/101 (64%)
46/99 (46%)
35/97 (36%)
シトクロームCの例
15
68/103 (66%)
68/102 (67%)
シトクロームCの構造PDB ID:5ty3
実習の資料について• 「コンピュータ実習」のトップページ
– https://lecture.ecc.u-tokyo.ac.jp/~ashimizu/computer/
本日の実習資料(Web教材)と配付資料のpdfファイル
19
Web教材にしたがって実習して下さい。
実習の内容Web教材にしたがって実行して下さい
• 遺伝子情報の検索
– 遺伝子に関連した情報の検索 → GenBank
– コード領域の予測 → ORF Finder
– ゲノムブラウザ → Map Viewer
– 遺伝子発現情報の検索 → GEO
– 代謝パスウェイの検索 → KEGG
– 文献データベースの検索 → PubMed
– 統合データベースの検索 → GQuery
– アミノ酸配列データベースの検索 → SwissProt
– タンパク質機能(モチーフ)データベースの検索 → PROSITE
– タンパク質立体構造データベースの検索 → PDB
– タンパク質立体構造分類情報の検索 → SCOPe
• ホモロジー検索
– ホモロジー検索 → NCBI BLAST Search
– マルチプルアラインメントと進化系統樹解析 → NCBI BLAST
17
「遺伝子情報の検索」の流れ1. データベースサイトにアクセスして
例: https://www.ncbi.nlm.nih.gov/2. 適当なデータベースを選択し、
例: 「Nucleotide」(遺伝子データベースGenBank)3. キーワードや条件式を入力すると、
例: c-cbl [titl] AND “homo sapiens” [orgn] NOT similar
4. その条件にマッチするキーワードをもつエントリがヒットし、
例: X57110.15. 中身をみると、その遺伝子に関するさまざまな情報が
得られるこの遺伝子(塩基配列)のうちタンパク質に翻訳されるのは149-2869番目の範囲の塩基で、そのアミノ酸配列は…
• あとは、Web教材にしたがって、この遺伝子に関連するさまざまな情報を検索してみよう
18
cbl: Casitas B-lineage lymphoma
「ホモロジー検索」の流れ
1. ホモロジー検索サイトにアクセスして
例: http://blast.genome.jp/
2. 手持ちの未知のアミノ酸(塩基)配列を入力し、
例: MAGNVKKSS…
3. 検索プログラムとデータベースを指定し実行すると、
例: 「BLASTP」「Swiss-Prot」
4. データベース中の入力配列とまったく同じ配列、
例: 「シロイヌナズナのホウ素トランスポーター」
5. あるいはよく似た配列がヒットとして得られ、
例: 「他のホウ素トランスポーター」
• 手持ちの未知のアミノ酸配列の正体を知る手がかりとなる
19
提出のしかた
20
• 解答用フォームに入力してGoogle Formsで提出し、チェックを受ける
– https://docs.google.com/forms/d/1H5qRumzNlLf6lG7YYQO_8iCKcENKIxu0PyhtT017GpI/edit?usp=sharing
提出のしかたと注意
チャットで修正が指摘されたら再提出、OKが出たら終了。再提出するとき、どこを修正したか、わかるようにしていただくと、チェックがスムーズに行えます。
午後4時30分に終了しますので、それまでに提出して下さい。
• 以下のURLから、解答用フォームをダウンロード
– https://lecture.ecc.u-tokyo.ac.jp/~ashimizu/database/form.docx
提出するもの
• 課題1 (GenBank)
• 課題2 (PubMed)
• 課題3 (BLAST)
• コンピュータ実習2日間の感想
58提出のしかたと注意
では、はじめましょう!
• 実習資料をよく読んでください
• すべてのリンクをたどる必要はありませんが、課題からみるのではなく、ウェブテキストの流れにしたがって、着実に取り組んでください
• 疑問点や質問などはスタッフ・TAまで!