コンピュータ実習 - lecture.ecc.u-tokyo.ac.jpコンピュータ実習...

コンピュータ実習（バイオインフォマティクス基礎）

生物情報工学研究室

2020年度生命化学・工学専修学生実験

2020.07.08（水）オンライン

バイオインフォマティクスとは

情報学（インフォマティクス）の考え方や手法を用いて、生物の問題を解こうという学問

2

Bioinformatics

生物学Biology

情報学Informatics

融合

物理学Physics

数学Mathematics

化学Chemistry

統計学Statistics

in silico コンピュータによるin vitro 試験管内でin vivo 生体内で

PubMedの論文検索ヒット数

件数

0

5000

10000

15000

20000

25000

30000

35000

40000

1985 1990 1995 2000 2005 2010 2015 2020

bioinformatics

"in silico"

"computational"

年

3

実験に代わる解析、予測、設計へ

仮説の構築

ゲノム等の網羅的な解析による大量のデータ

生物と情報

生物という複雑な対象を理解するには、実験データを蓄積し、

生命現象をシミュレートして、生物の理解、応用に役立てる

それを解析することにより、そこに埋もれている情報を探し出して、新しい知識を得る

データベース

ソフトウェア

複雑／膨大な計算

data

driv

en

theory driven

生命現象の理論的な究明 • 計算機の高性能化• 新たな計算手法の開発

4

1.E+00

1.E+01

1.E+02

1.E+03

1.E+04

1.E+05

1.E+06

1.E+07

1.E+08

1.E+09

1.E+10

1980 1982 1984 1986 1988 1990 1992 1994 1996 1998 2000 2002 2004 2006 2008 2010 2012 2014 2016 2018

GenBank

TrEMBL

SwissProt

PDB

PROSITE

データベースの拡大

主要な生物データベースの登録数 GenBankはWhole Genome Shotgunを含む

PROSITEはdocumentation entryを除く

109

108

107

106

105

104

103

102

ゲノム・遺伝子の配列

タンパク質の配列（遺伝子から自動変換）

タンパク質の配列（アノテーションが充実）

タンパク質などの構造

タンパク質によく見られる配列パターンとその機能

101

100

4

1010

ゲノムからタンパク質へ

6

mRNA tRNA rRNA

DNA

遺伝子

DNA

複製

遺伝子遺伝子

複製（replication）

転写（transcription）

翻訳（translation）

DNAの情報がmRNAに写しとられる

DNAのコピーが作られ、遺伝情報が継承される

mRNAの情報をもとにタンパク質が合成される

DNA

RNA

タンパク質

tRNA

アミノ酸

リボソーム

mRNA

生合成されたタンパク質

（ポリペプチド鎖）

フォールドした構造

他の分子との相互作用

局在化

KKK GI E

修飾

生物の形や働き

ゲノムからタンパク質へ

7

• KEGG代謝パスウェイ

mRNA tRNA rRNA

DNA

遺伝子

DNA

複製

遺伝子遺伝子

tRNA

アミノ酸

リボソーム

mRNA

生合成されたタンパク質

（ポリペプチド鎖）

フォールドした構造

KKK GI E

• GenBankゲノム・遺伝子の配列

• Swiss-Protタンパク質の配列

• PDBタンパク質の構造

• PROSITE配列パターンと機能

• GEO遺伝子発現

• PubMed文献

データベース

NCBI• National Center of Biotechnology Information • http://www.ncbi.nlm.nih.gov/

文献検索

書籍検索

塩基配列データベース

アミノ酸配列データベース

SNPデータベース

フリーアクセスの文献データベース

BLAST

ゲノムデータベース

遺伝子疾患データベース

化合物データベース

7

NCBIゲノムデータベースの利用

ゲノムプロジェクト

ゲノムデータの利用

FTPのサイト

生物種によるゲノムブラウジング

ヒトゲノム

微生物

オルガネラ

原核動物のリファレンスゲノム

ウィルス

Genome → ゲノムデータのダウンロード、ブラウジング、解析ツール

Genome Data Viewer

Map Viewerは利用できなくなった

8

NCBIゲノムデータベース

ゲノムサイズ

真核生物染色体の数

生物種生物群生物亜群界

原核生物ウィルス

オルガネラ

プラスミド

プロジェクトタブで選択可能

10

ゲノムデータのダウンロード（１）

GCF_000005845.2_ASM584v2_genomic.fna.gz

GCF_000005845.2_ASM584v2_protein.faa.gz

大腸菌K12株のゲノム

11

ゲノムデータのダウンロード（２）GCF_000005845.2_ASM584v2_genomic.fna>NC_000913.3 Escherichia coli str. K-12 substr. MG1655, complete genome

AGCTTTTCATTCTGACTGCAACGGGCAATATGTCTCTGTGTGGATTAAAAAAAGAGTGTCTGATAGCAGCTTCTGAACTG

GTTACCTGCCGTGAGTAAATTAAAATTTTATTGACTTAGGTCACTAAATACTTTAACCAATATAGGCATAGCGCACAGAC

AGATAAAAATTACAGAGTACACAACATCCATGAAACGCATTAGCACCACCATTACCACCACCATCACCATTACCACAGGT

AACGGTGCGGGCTGACGCGTACAGGAAACACAGAAAAAAGCCCGCACCTGACAGTGCGGGCTTTTTTTTTCGACCAAAGG

TAACGAGGTAACAACCATGCGAGTGTTGAAGTTCGGCGGTACATCAGTGGCAAATGCAGAACGTTTTCTGCGTGTTGCCG

ATATTCTGGAAAGCAATGCCAGGCAGGGGCAGGTGGCCACCGTCCTCTCTGCCCCCGCCAAAATCACCAACCACCTGGTG

GCGATGATTGAAAAAACCATTAGCGGCCAGGATGCTTTACCCAATATCAGCGATGCCGAACGTATTTTTGCCGAACTTTT

GACGGGACTCGCCGCCGCCCAGCCGGGGTTCCCGCTGGCGCAATTGAAAACTTTCGTCGATCAGGAATTTGCCCAAATAA

AACATGTCCTGCATGGCATTAGTTTGTTGGGGCAGTGCCCGGATAGCATCAACGCTGCGCTGATTTGCCGTGGCGAGAAA

ATGTCGATCGCCATTATGGCCGGCGTATTAGAAGCGCGCGGTCACAACGTTACTGTTATCGATCCGGTCGAAAAACTGCT

GGCAGTGGGGCATTACCTCGAATCTACCGTCGATATTGCTGAGTCCACCCGCCGTATTGCGGCAAGCCGCATTCCGGCTG

ATCACATGGTGCTGATGGCAGGTTTCACCGCCGGTAATGAAAAAGGCGAACTGGTGGTGCTTGGACGCAACGGTTCCGAC

TACTCTGCTGCGGTGCTGGCTGCCTGTTTACGCGCCGATTGTTGCGAGATTTGGACGGACGTTGACGGGGTCTATACCTG

CGACCCGCGTCAGGTGCCCGATGCGAGGTTGTTGAAGTCGATGTCCTACCAGGAAGCGATGGAGCTTTCCTACTTCGGCG

CTAAAGTTCTTCACCCCCGCACCATTACCCCCATCGCCCAGTTCCAGATCCCTTGCCTGATTAAAAATACCGGAAATCCT

CAAGCACCAGGTACGCTCATTGGTGCCAGCCGTGATGAAGACGAATTACCGGTCAAGGGCATTTCCAATCTGAATAACAT

GGCAATGTTCAGCGTTTCTGGTCCGGGGATGAAAGGGATGGTCGGCATGGCGGCGCGCGTCTTTGCAGCGATGTCACGCG

CCCGTATTTCCGTGGTGCTGATTACGCAATCATCTTCCGAATACAGCATCAGTTTCTGCGTTCCACAAAGCGACTGTGTG

CGAGCTGAACGGGCAATGCAGGAAGAGTTCTACCTGGAACTGAAAGAAGGCTTACTGGAGCCGCTGGCAGTGACGGAACG

GCTGGCCATTATCTCGGTGGTAGGTGATGGTATGCGCACCTTGCGTGGGATCTCGGCGAAATTCTTTGCCGCACTGGCCC

GCGCCAATATCAACATTGTCGCCATTGCTCAGGGATCTTCTGAACGCTCAATCTCTGTCGTGGTAAATAACGATGATGCG

ACCACTGGCGTGCGCGTTACTCATCAGATGCTGTTCAATACCGATCAGGTTATCGAAGTGTTTGTGATTGGCGTCGGTGG

CGTTGGCGGTGCGCTGCTGGAGCAACTGAAGCGTCAGCAAAGCTGGCTGAAGAATAAACATATCGACTTACGTGTCTGCG

GTGTTGCCAACTCGAAGGCTCTGCTCACCAATGTACATGGCCTTAATCTGGAAAACTGGCAGGAAGAACTGGCGCAAGCC

AAAGAGCCGTTTAATCTCGGGCGCTTAATTCGCCTCGTGAAAGAATATCATCTGCTGAACCCGGTCATTGTTGACTGCAC

TTCCAGCCAGGCAGTGGCGGATCAATATGCCGACTTCCTGCGCGAAGGTTTCCACGTTGTCACGCCGAACAAAAAGGCCA

ACACCTCGTCGATGGATTACTACCATCAGTTGCGTTATGCGGCGGAAAAATCGCGGCGTAAATTCCTCTATGACACCAAC

GTTGGGGCTGGATTACCGGTTATTGAGAACCTGCAAAATCTGCTCAATGCAGGTGATGAATTGATGAAGTTCTCCGGCAT

TCTTTCTGGTTCGCTTTCTTATATCTTCGGCAAGTTAGACGAAGGCATGAGTTTCTCCGAGGCGACCACGCTGGCGCGGG

AAATGGGTTATACCGAACCGGACCCGCGAGATGATCTTTCTGGTATGGATGTGGCGCGTAAACTATTGATTCTCGCTCGT

GAAACGGGACGTGAACTGGAGCTGGCGGATATTGAAATTGAACCTGTGCTGCCCGCAGAGTTTAACGCCGAGGGTGATGT

TGCCGCTTTTATGGCGAATCTGTCACAACTCGACGATCTCTTTGCCGCGCGCGTGGCGAAGGCCCGTGATGAAGGAAAAG

TTTTGCGCTATGTTGGCAATATTGATGAAGATGGCGTCTGCCGCGTGAAGATTGCCGAAGTGGATGGTAATGATCCGCTG

TTCAAAGTGAAAAATGGCGAAAACGCCCTGGCCTTCTATAGCCACTATTATCAGCCGCTGCCGTTGGTACTGCGCGGATA

TGGTGCGGGCAATGACGTTACAGCTGCCGGTGTCTTTGCTGATCTGCTACGTACCCTCTCATGGAAGTTAGGAGTCTGAC

12

TCCTCATTCTTTGAATCCGCGGCTCCGCGGTCTTCGGCGTCAGACCAGCC

GGAGGAAGCCTGTTTGCAATTTAAGCGGGCTGTGAACGCCCAGGGCCGGC

GGGGGCAGGGCCGAGGCGGGCCATTTTGAATAAAGAGGCGTGCCTTCCAG

GCAGGCTCTATAAGTGACCGCCGCGGCGAGCGTGCGCGCGTTGCAGGTCA

CTGTAGCGGACTTCTTTTGGTTTTCTTTCTCTTTGGGGCACCTCTGGACT

CACTCCCCAGCATGAAGGCGCTGAGCCCGGTGCGCGGCTGCTACGAGGCG

GTGTGCTGCCTGTCGGAACGCAGTCTGGCCATCGCCCGGGGCCGAGGGAA

GGGCCCGGCAGCTGAGGAGCCGCTGAGCTTGCTGGACGACATGAACCACT

GCTACTCCCGCCTGCGGGAACTGGTACCCGGAGTCCCGAGAGGCACTCAG

CTTAGCCAGGTGGAAATCCTACAGCGCGTCATCGACTACATTCTCGACCT

GCAGGTAGTCCTGGCCGAGCCAGCCCCTGGACCCCCTGATGGCCCCCACC

TTCCCATCCAGGTAAGCCTCGAAGTCGGGACAGGGCTGAACACCCAGGCA

AGGATGCTGCGGGACCCTCGGAGCTCCCGATTGCCTCGCGTAACTCTTCC

CTCTTTTCCTCTAATCAGACAGCCGAGCTCGCTCCGGAACTTGTCATCTC

CAACGACAAAAGGAGCTTTTGCCACTGACTCGGCCGTGTCCTGACACCTC

CAGAACGCAGGTGCTGGCGCCCGTTCTGCCTGGGACCCCGGGAACCTCTC

CTGCCGGAAGCCGGACGGCAGGGATGGGCCCCAACTTCGCCCTGCCC

10 20 30 40 50

10566021

10566121

10566221

10566321

10566421

10566521

10566621

10566721

CAATボックス

TATAボックス転写開始点

5’非翻訳領域

開始コドン

終始コドン 3’非翻訳領域

エクソン

イントロン

エクソン

10566821

ゲノム配列の中から遺伝子をどう見つけるか

13

特徴的なパターンの存在を調べる

生物種間でゲノムを比較する

すでに分かっている遺伝子との一致を調べる

コード領域の内容や長さを考慮する

MGDVEKGKKIFIMKCSQCHTVEKGGKHKTGPNLHGLFGRKTGQAPGYSYTAANKNKGIIWGEDTLMEYLENPKKYIPGTKMIFVGIKKKEERADLIAYLKKATNE

配列データベース

ホモロジー検索

類似配列を探す（ホモロジー検索）

配列とその機能

遺伝子の塩基配列タンパク質のアミノ酸配列

機能を推定する

バイオインフォマティクス

遺伝子あるいはタンパク質の配列から機能をどう調べるか？

14

• NCBI nr• Swiss-Prot

･･･

NCBI BLAST

• ホモロジー: 遺伝子が共通の祖先をもつ• ホモロジー検索: 進化的に類縁の遺伝子

をデータベースから探索する

アミノ酸配列の進化的な保存の例

ヒト

チンパンジー

マウス

ミツバチ

イネ

ジャガイモ

酵母

テトラヒメナ

発しんチフスリケッチア

---------MGDVEKGKKIFIMKCSQCHTVEKGGKHKTGPNLHGLFGRKTGQAPGYSYTAANKNKGIIWGEDTLMEYLENPKKYIPGTKMIFVGIKKKEERADLIAYLKKATNE

---------MGDVEKGKKIFIMKCSQCHTVEKGGKHKTGPNLHGLFGRKTGQAPGYSYTAANKNKGIIWGEDTLMEYLENPKKYIPGTKMIFVGIKKKEERADLIAYLKKATNE

---------MGDVEKGKKIFVQKCAQCHTVEKGGKHKTGPNLHGLFGRKTGQAAGFSYTDANKNKGITWGEDTLMEYLENPKKYIPGTKMIFAGIKKKGERADLIAYLKKATNE

-----MGIPAGDPEKGKKIFVQKCAQCHTIESGGKHKVGPNLYGVYGRKTGQAPGYSYTDANKGKGITWNKETLFEYLENPKKYIPGTKMVFAGLKKPQERADLIAYIEQASK-

-MASFSEAPPGNPKAGEKIFKTKCAQCHTVDKGAGHKQGPNLNGLFGRQSGTTPGYSYSTANKNMAVIWEENTLYDYLLNPKKYIPGTKMVFPGLKKPQERADLISYLKEATS-

--ASFGEAPPGNPKAGEKIFKTKCAQCHTVDKGAGHKEGPNLNGLFGRQSGTTAGYSYSNANKNMAVTWGENTLYDYLLNPKKYIPGTKMVFPGLKKPQERADLIAYLKEATA-

----MTEFKAGSAKKGATLFKTRCLQCHTVEKGGPHKVGPNLHGIFGRHSGQAEGYSYTDANIKKNVLWDENNMSEYLTNPKKYIPGTKMAFGGLKKEKDRNDLITYLKKACE-

PKEPEVTVPEGDASAGRDIFDSQCSACHAIE--GDSTAAPVLGGVIGRKAGQEK-FAYSKGMKGSGITWNEKHLFVFLKNPSKHVPGTKMAFAGLPADKDRADLIAYLKSV---

ESVNIQELMKTANANHGREIAKKCLMCHSLDKDGPNKLGPHLWNIVGRPKASITDYKYSFAISKLGGVWDDENLFAFLHKPSSYAPGTKMSFAGISKPQDIADVILFLKNYVHD

104/104(100%)

96/105 (91%)

76/103 (73%)

65/101 (64%)

46/99 (46%)

35/97 (36%)

シトクロームCの例

15

68/103 (66%)

68/102 (67%)

シトクロームCの構造PDB ID:5ty3

実習の資料について• 「コンピュータ実習」のトップページ

– https://lecture.ecc.u-tokyo.ac.jp/~ashimizu/computer/

本日の実習資料（Web教材）と配付資料のpdfファイル

19

Web教材にしたがって実習して下さい。

https://lecture.ecc.u-tokyo.ac.jp/~ashimizu/computer/

実習の内容Web教材にしたがって実行して下さい

• 遺伝子情報の検索

– 遺伝子に関連した情報の検索 → GenBank

– コード領域の予測 → ORF Finder

– ゲノムブラウザ → Map Viewer

– 遺伝子発現情報の検索 → GEO

– 代謝パスウェイの検索 → KEGG

– 文献データベースの検索 → PubMed

– 統合データベースの検索 → GQuery

– アミノ酸配列データベースの検索 → SwissProt

– タンパク質機能（モチーフ）データベースの検索 → PROSITE

– タンパク質立体構造データベースの検索 → PDB

– タンパク質立体構造分類情報の検索 → SCOPe

• ホモロジー検索

– ホモロジー検索 → NCBI BLAST Search

– マルチプルアラインメントと進化系統樹解析 → NCBI BLAST

17

「遺伝子情報の検索」の流れ1. データベースサイトにアクセスして

例: https://www.ncbi.nlm.nih.gov/2. 適当なデータベースを選択し、

例: 「Nucleotide」（遺伝子データベースGenBank）3. キーワードや条件式を入力すると、

例: c-cbl [titl] AND “homo sapiens” [orgn] NOT similar

4. その条件にマッチするキーワードをもつエントリがヒットし、

例: X57110.15. 中身をみると、その遺伝子に関するさまざまな情報が

得られるこの遺伝子（塩基配列）のうちタンパク質に翻訳されるのは149-2869番目の範囲の塩基で、そのアミノ酸配列は…

• あとは、Web教材にしたがって、この遺伝子に関連するさまざまな情報を検索してみよう

18

cbl: Casitas B-lineage lymphoma

「ホモロジー検索」の流れ

1. ホモロジー検索サイトにアクセスして

例: http://blast.genome.jp/

2. 手持ちの未知のアミノ酸（塩基）配列を入力し、

例: MAGNVKKSS…

3. 検索プログラムとデータベースを指定し実行すると、

例: 「BLASTP」「Swiss-Prot」

4. データベース中の入力配列とまったく同じ配列、

例: 「シロイヌナズナのホウ素トランスポーター」

5. あるいはよく似た配列がヒットとして得られ、

例: 「他のホウ素トランスポーター」

• 手持ちの未知のアミノ酸配列の正体を知る手がかりとなる

19

提出のしかた

20

• 解答用フォームに入力してGoogle Formsで提出し、チェックを受ける

– https://docs.google.com/forms/d/1H5qRumzNlLf6lG7YYQO_8iCKcENKIxu0PyhtT017GpI/edit?usp=sharing

提出のしかたと注意

チャットで修正が指摘されたら再提出、OKが出たら終了。再提出するとき、どこを修正したか、わかるようにしていただくと、チェックがスムーズに行えます。

午後4時30分に終了しますので、それまでに提出して下さい。

• 以下のURLから、解答用フォームをダウンロード

– https://lecture.ecc.u-tokyo.ac.jp/~ashimizu/database/form.docx

https://docs.google.com/forms/d/1H5qRumzNlLf6lG7YYQO_8iCKcENKIxu0PyhtT017GpI/edit?usp=sharing

https://lecture.ecc.u-tokyo.ac.jp/~ashimizu/database/form.docx

提出するもの

• 課題1 (GenBank)

• 課題2 (PubMed)

• 課題3 (BLAST)

• コンピュータ実習2日間の感想

58提出のしかたと注意

では、はじめましょう！

• 実習資料をよく読んでください

• すべてのリンクをたどる必要はありませんが、課題からみるのではなく、ウェブテキストの流れにしたがって、着実に取り組んでください

• 疑問点や質問などはスタッフ・TAまで！

コンピュータ実習 - lecture.ecc.u-tokyo.ac.jpコンピュータ実習...

Documents