ゲノムビッグデータチャレンジbd.comp.ae.keio.ac.jp/wp-content/uploads/2014/03/...生命とit...

18
ゲノムビッグデータチャレンジ 慶應義塾大学理工学部生命情報学科 榊原康文 「ビッグデータ・イノベーションシンポジウム2014」 2014年3月17日

Upload: others

Post on 05-Feb-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ゲノムビッグデータチャレンジbd.comp.ae.keio.ac.jp/wp-content/uploads/2014/03/...生命とIT IT企業「グーグル(Google)」が出資するベンチャー企業

ゲノムビッグデータチャレンジ

慶應義塾大学理工学部生命情報学科

榊原康文

「ビッグデータ・イノベーションシンポジウム2014」

2014年3月17日

Page 2: ゲノムビッグデータチャレンジbd.comp.ae.keio.ac.jp/wp-content/uploads/2014/03/...生命とIT IT企業「グーグル(Google)」が出資するベンチャー企業

遺伝子検査・診断

• アンジェリーナ・ジョリー,がん予防で両乳房切除

• 遺伝子検査の結果,乳がんや卵巣がんリスクを高め

る恐れのある病的変異のある遺伝子が見つかった

• 「将来の乳がん予防のための乳房切除」

Page 3: ゲノムビッグデータチャレンジbd.comp.ae.keio.ac.jp/wp-content/uploads/2014/03/...生命とIT IT企業「グーグル(Google)」が出資するベンチャー企業

生命とITIT企業「グーグル(Google)」が出資するベンチャー企業

「23andMe」という会社のサービスは?

唾液のサンプルを送付

個人のDNA情報の解析:

– 祖先などに関する情報

– (病気(がんなどの)リスク (現在,サービスを中止中)

– 解析情報はインターネット経由で閲覧

– バイオとITが産業レベルでも結びついた技術がいよいよ私た

ちの生活の身近に迫っていることを示唆

– Googleの戦略:ネット検索,メール,ブログ,動画,地図,そ

していよいよDNA情報?

Page 4: ゲノムビッグデータチャレンジbd.comp.ae.keio.ac.jp/wp-content/uploads/2014/03/...生命とIT IT企業「グーグル(Google)」が出資するベンチャー企業

1個の受精卵

中にはたくさんの遺伝子が入っている

コピーして増やす

DNA

体は60兆個の細胞でできている

遺伝子は全部で約3万種類,30億文字ある。

新聞50年分:

朝刊と夕刊をすみからすみまで読んで,365日×50年 分

Page 5: ゲノムビッグデータチャレンジbd.comp.ae.keio.ac.jp/wp-content/uploads/2014/03/...生命とIT IT企業「グーグル(Google)」が出資するベンチャー企業

コピーして増やす

やせた人

太った人

肌の色が違う人

1個の受精卵

一人一人の遺伝子の違いは約0.1%

30億文字の中で300万カ所

この違いにより,体質が決まる

がんになりやすさも違ってくる

生まれつき遺伝子は少しずつちがう

Page 6: ゲノムビッグデータチャレンジbd.comp.ae.keio.ac.jp/wp-content/uploads/2014/03/...生命とIT IT企業「グーグル(Google)」が出資するベンチャー企業

[http://nordwave.net/Great_Britain/category/science/]

地球上70億人の「個人」の多様性

• 一塩基多型(SNP)

• 挿入,欠失(Indel)

• コピー数多型(CNV)

• 構造多型(SV)

• 目の色

• 肌の色

• 糖尿病になりやすさ

• がんになりやすさ

Page 7: ゲノムビッグデータチャレンジbd.comp.ae.keio.ac.jp/wp-content/uploads/2014/03/...生命とIT IT企業「グーグル(Google)」が出資するベンチャー企業

NHGRI GWA Catalogwww.genome.gov/GWAStudieswww.ebi.ac.uk/fgpt/gwas/ 

Catalog of Published Genome-Wide Association Studies

Page 8: ゲノムビッグデータチャレンジbd.comp.ae.keio.ac.jp/wp-content/uploads/2014/03/...生命とIT IT企業「グーグル(Google)」が出資するベンチャー企業

Catalog of Published Genome-Wide Association Studies

1番染色体

Page 9: ゲノムビッグデータチャレンジbd.comp.ae.keio.ac.jp/wp-content/uploads/2014/03/...生命とIT IT企業「グーグル(Google)」が出資するベンチャー企業

生命科学における「情報爆発」

ゲノム配列情報の蓄積

決定済:真核生物 313 種, 原核生物 12631 種⇒ ついに1000ゲノムを超えた!!

進行中:真核生物 6661 種, 原核生物 20931 種( 2014年3月現在,GOLD Genomes OnLine Database v4.0 )

生命科学におけるムーアの

法則:

① 半導体の集積度は18ヶ月で二倍になるという経験則

② GenBankにおけるDNA配列データの増加度:

最初のゲノム解読:1995年インフルエンザ菌 1.8Mbp(Haemophilus influenzae)

Page 10: ゲノムビッグデータチャレンジbd.comp.ae.keio.ac.jp/wp-content/uploads/2014/03/...生命とIT IT企業「グーグル(Google)」が出資するベンチャー企業

医学・生命科学ビッグデータ時代の到来

オミックスデータベース

ゲノム配列,遺伝子発現プロファイル,エピゲノム,化合物データベース

バイオバンク

検体の収集・管理,...

電子カルテ EHR(患者の履歴,検査値,臨床データ),PHR コホート

個人ゲノム,SNPs,環境要因,生活習慣

ビッグデータの特徴 (3つのV)

①Volume(量) ②Variety(多様性) ③Velocity(発生頻度)

化合物

GATTTAAGATT

ゲノム変異

C A B C

発現プロファイル

がんゲノムハブ(CGHub)【UCSC】

(1ぺタバイト)

遺伝子ネットワーク

化合物データベース【PubChem】

(1億1700万化合物)

遺伝子ネットワーク【KEGG PATHWAY】

(24万エントリー)

遺伝子発現【NCBI GEO】

(92万細胞サンプル)

Page 11: ゲノムビッグデータチャレンジbd.comp.ae.keio.ac.jp/wp-content/uploads/2014/03/...生命とIT IT企業「グーグル(Google)」が出資するベンチャー企業

予測学

• 多くの事象は予測できると主張

「何を買うか」から「いつ死ぬか」まで,あなたの行動はすべて読まれている

「ヤバい予測学」,エリック・シーゲル (著), 矢羽野薫 (翻訳)

• 保険会社は被保険者の死亡年齢を予測

• 患者が30日以内に再入院するかどうか

を予測して退院の判断に役立てる

• 米国税庁は予測技術から脱税摘発を25倍

に増加

• ある州では犯罪が起きやすい地域を予測し

た上で警官が巡回する

Page 12: ゲノムビッグデータチャレンジbd.comp.ae.keio.ac.jp/wp-content/uploads/2014/03/...生命とIT IT企業「グーグル(Google)」が出資するベンチャー企業

バイオインフォマティクスという分野

①近年の生命科学データの爆発的な増大!

②コンピュータを用いる2つのアプローチ:

i. 網羅的(ハイスループット)なウエット実験から生成される大量データの処理

ii. 実験前にコンピュータによる情報処理を徹底的に行うことにより,ウエット実験を絞り込み効率化する ⇒インシリコスクリーニング

③バイオインフォマティシャンの育成は喫緊の課題

「なぜ生命科学の解析にコンピュータが必要なのか?」

Page 13: ゲノムビッグデータチャレンジbd.comp.ae.keio.ac.jp/wp-content/uploads/2014/03/...生命とIT IT企業「グーグル(Google)」が出資するベンチャー企業

例題:ゲノム配列からの解析出芽酵母の6番染色体のある領域:

Page 14: ゲノムビッグデータチャレンジbd.comp.ae.keio.ac.jp/wp-content/uploads/2014/03/...生命とIT IT企業「グーグル(Google)」が出資するベンチャー企業

CDS

AAGTAAGTTGTTAGTGTAACTATGATCACGGCTGCGTGCCGGGTAATAAATCAATTTTGA

GGAAAACTGGAAGTTCACCACTGAGAATGATCAACGGCAGGGAAACGTTATACCAAACAA

AGCATTCTACCTCTAGGGAAGCTGGAAACTTGAATTACCCACTATAGCTTGTCTTTTAGT

GATCCATTATTCCAACCTATTGCAATTCCAAGAAAATAAACTAGGAACTTTTTTTTTTGG

AAGAATAAGAAAAGGAGAAAAAGTAGACATACTGTATATACACGAGGGCGTATCGTTCAC

CAGAAAGAATATAAACATAACAAGATAAACATGTCAGGCTTGAGAACTGTTTCTGCTTCA

TCCGGTAATGGAAAGAGCTATGACTCTATTATGAAAATTTTATTGATTGGTGATTCTGGT

GTTGGGAAATCATGTTTATTGGTTCGTTTTGTTGAAGACAAATTTAACCCGTCATTTATC

ACCACCATTGGTATTGATTTCAAAATAAAGACTGTCGATATCAACGGTAAGAAGGTAAAG

CTGCAACTTTGGGATACCGCTGGTCAAGAACGTTTCCGGACAATCACCACAGCGTATTAT

CGTGGTGCTATGGGTATCATTCTTGTATATGATGTGACAGACGAGAGAACATTTACTAAT

ATCAAGCAATGGTTTAAAACCGTTAATGAGCATGCGAACGATGAAGCACAGCTACTGTTG

GTTGGTAACAAGAGCGATATGGAGACGAGAGTGGTAACAGCTGATCAAGGTGAAGCCTTG

GCTAAGGAGCTGGGTATACCATTCATCGAGTCCAGTGCTAAGAACGATGACAATGTCAAC

GAGATTTTTTTCACCTTGGCGAAGTTAATCCAAGAAAAAATCGACAGTAACAAGCTTGTT

GGCGTCGGTAACGGTAAAGAGGGCAATATTAGCATCAATAGTGGGAGCGGAAACAGTTCT

AAATCAAATTGCTGTTGAAGAAAAGAAGATTTTTGCTTCTTTGAGAATTAATCGTGAACT

GGAATTAGAGCTATAAATCGCTTGATTCTTTTTTCCCTTTTTCTCAATATTCGCAGGTTA

TTTTTCCTTTATATATATACATTGTTTGTATCTTTTTTTGATTACCATACTTACTATTTT

例題:ゲノム配列からの解析出芽酵母の6番染色体のある領域:

開始コドン

ATG

終止コドン

TGA

遺伝子領域:SEC4(YFL005W)

Page 15: ゲノムビッグデータチャレンジbd.comp.ae.keio.ac.jp/wp-content/uploads/2014/03/...生命とIT IT企業「グーグル(Google)」が出資するベンチャー企業

納豆菌(Bacillus subtilis natto )のゲノム(Nishito et al., BMC Genomics, 2010)

T

・・

A

・・

納豆菌ゲノム

G C

A

T

GC

-ポリグルタミン酸(PGA)

ドラッグデリバリーシステム

水の浄化

(朝日新聞 朝刊科学面2010年5月14日)

サプリメント化粧品

Page 16: ゲノムビッグデータチャレンジbd.comp.ae.keio.ac.jp/wp-content/uploads/2014/03/...生命とIT IT企業「グーグル(Google)」が出資するベンチャー企業

納豆菌ゲノムの解読から分かること

1. ゲノム全長:410万塩基対,総遺伝子数:4,429

2. γポリグルタミン酸の合成関連遺伝子群

非常に高い吸水性,保湿力,カルシウム結合能 ⇒ 化粧品,石鹸,

サプリメント,納豆樹脂(紙オムツ,水質浄化剤),など

3. ナットウキナーゼ遺伝子

プロテアーゼの一種 ⇒ 血栓溶解能,血圧降下,コレステロール

低下などの血中脂質改善

4. エラスターゼ遺伝子

エラスチン(動脈などの弾性繊維の主成分)の分解 ⇒ 動脈硬化

症,高血圧,糖尿病,などの改善

5. 納豆菌ゲノムブラウザー

http://www.natto-genome.org/

Page 17: ゲノムビッグデータチャレンジbd.comp.ae.keio.ac.jp/wp-content/uploads/2014/03/...生命とIT IT企業「グーグル(Google)」が出資するベンチャー企業

さまざまな納豆菌

(Nishito et al., 2010)

Bacillussubtilisnatto

納豆菌(BEST195)ゲノムの決定

食味・成分の違い

原料(大豆)

製造方法

菌株ゲノム

あづま食品(栃木)奥野食品(三重)

水戸納豆(茨城)やぐちフーズ(埼玉)

丸美屋(熊本)

ヤマダフーズ(秋田)

タカノフーズ(茨城)

黒石納豆(青森)

鎌倉山納豆(神奈川)ミツカン(愛知)旭松食品(大阪)

高畠納豆(山形)萬歳食品(宮城)

オシキリ食品(北海道)

キネマ(ネパール)

多くの工業株が存在

納豆は日本の伝統的食品

Page 18: ゲノムビッグデータチャレンジbd.comp.ae.keio.ac.jp/wp-content/uploads/2014/03/...生命とIT IT企業「グーグル(Google)」が出資するベンチャー企業

②「ビッグデータ実践演習教材等」 ②-4

• これからの生命科学において要となるツールである次世代シークエンサーが産生する大規模データを用いたゲノム解析を体験する

⇒ 納豆菌株のゲノム比較解析

1. 演習で行う具体的な課題を決定し,そのためのデータ解析ソフトウエアと環境を整備した.

2. バイオインフォマティクス専用のR言語の処理系 Bioconductor を準備して,主成分分析などを行う統計解析基盤を整備した.