次世代シーケンサが求める機械学習

33
次世代シーケンサ解析で 新たに求められる機械学習 東京工業大学 大学院情報理工学研究科 瀬々 潤 [email protected] 2011/11/10 @ IBIS 2011

Upload: sesejun

Post on 11-Jun-2015

8.821 views

Category:

Technology


2 download

TRANSCRIPT

Page 1: 次世代シーケンサが求める機械学習

次世代シーケンサ解析で新たに求められる機械学習

東京工業大学 大学院情報理工学研究科瀬々 潤

[email protected]

2011/11/10 @ IBIS 2011

Page 2: 次世代シーケンサが求める機械学習

2

DNA(ゲノム)

mRNA

遺伝子

タンパク質

細胞

Illustrations are © 2011 DBCLS Licensed under a Creative Commons 表示 2.1 日本 License

Page 3: 次世代シーケンサが求める機械学習

次世代シーケンサとは?• DNAを読む機械• 単純にはDNAを読む量が,今までより増え,安価になっただけの機械.ただ,その規模が半端ない.• 大規模データの扱い→統計解析→学習モデルへ?

速度 or コスト

長さ

円の大きさは精度を表す

サンガー法(ヒトゲノムが読まれた00年代前半のスペック)

次世代シーケンサ(第2世代, 2005~)60億本 x100bp

96本 x500bp

次世代シーケンサ(第3世代,2010~)

7万本 x2000bp

Page 4: 次世代シーケンサが求める機械学習

単に読める塩基が増えただけ?• 「シーケンスをする」という用途は多様• 高速かつ安価になったことで,今までコストや時間の面から不可能と思われていた実験が現実になる

• 既存の方法が置き換えられる例• マイクロアレイからRNA-seqへ

Mcpherson JD. 2009. Next-generation gap.

Nature Methods 6: S2–S5.

Page 5: 次世代シーケンサが求める機械学習

マイクロアレイ

• 遺伝子の量を蛍光強度に変換して観測

マイクロアレイ

DNA

mRNA(遺伝子)

発現量

Page 6: 次世代シーケンサが求める機械学習

RNA-seq

• 遺伝子の量をリードの数を数えることで定量化

DNA

mRNA

次世代シーケンサから得られるリード(100塩基程度の塩基配列)

リードのマッピング(リードをゲノムの領域に対応付ける)

発現量

Page 7: 次世代シーケンサが求める機械学習

進化 ゲノム科学

タンパク質

マイクロアレイ

システム生物学系統樹作成 翻訳領域予測 RNA遺伝子予測選択的

スプライシング

スプライス部位予測

ゲノムの比較

遺伝子機能比較

遺伝子発見

転写因子結合部位予測

オペロン予測

タンパク質機能予測

配列アセンブリ

連鎖解析(SNPs, GWAS)

遺伝子機能予測

メチル化サイト予測

機能予測

専門用語の対応付け

知識抽出

タンパク質局在予測

タンパク質間相互作用予測

テキスト

マイニング

RNA構造予測

タンパク質構造予測

構造予測

質量分析データ前処理

質量分析データ解析

医療画像解析

マイクロアレイデータ前処理マイクロアレイデータ解析

マイクロアレイ画像解析

実験データ解析

画像解析

シグナルネットワーク

代謝パスウエイ

遺伝子ネットワーク

Larranaga et al. 2006.Briefings in Bioinformatics. を改変

配列アラインメント

機械学習の応用範囲

ネットワーク予測

Page 8: 次世代シーケンサが求める機械学習

進化 ゲノム科学

タンパク質

マイクロアレイ

システム生物学系統樹作成 翻訳領域予測 RNA遺伝子予測選択的

スプライシング

スプライス部位予測

ゲノムの比較

遺伝子機能比較

遺伝子発見

転写因子結合部位予測

オペロン予測

タンパク質機能予測

配列アセンブリ

連鎖解析(SNPs, GWAS)

遺伝子機能予測

メチル化サイト予測

機能予測

専門用語の対応付け

知識抽出

タンパク質局在予測

タンパク質間相互作用予測

テキスト

マイニング

RNA構造予測

タンパク質構造予測

構造予測

質量分析データ前処理

質量分析データ解析

医療画像解析

マイクロアレイデータ前処理マイクロアレイデータ解析

マイクロアレイ画像解析

実験データ解析

画像解析

シグナルネットワーク

代謝パスウエイ

遺伝子ネットワーク

Larranaga et al. 2006.Briefings in Bioinformatics. を改変

配列アラインメント

次世代シーケンサの影響範囲

ネットワーク予測

Page 9: 次世代シーケンサが求める機械学習

Re-sequencing/methylation

RNA-seqChIP-seq/

MeDIP/CLIP-seq

Genome Assembly

Meta-Genomics

mRNA assembly

parameter fitting ◯ ◯ ◎ ◯

unsupervised learning

(clustering)◯ ◯ ◯ ◯ ◎ ◯

semi-supervised

learning◎ ◯ ◯ ◯ ◯

supervised learning ◯ ◯ ◯ ◎

committee(モデルの結合) ◎ ◯

Page 10: 次世代シーケンサが求める機械学習

Re-sequencing/methylation

RNA-seqChIP-seq/

MeDIP/CLIP-seq

Genome Assembly

Meta-Genomics

mRNA assembly

parameter fitting ◯ ◯ ◎ ◯

unsupervised learning

(clustering)◯ ◯ ◯ ◯ ◎ ◯

semi-supervised

learning◎ ◯ ◯ ◯ ◯

supervised learning ◯ ◯ ◯ ◎

committee(モデルの結合) ◎ ◯

Page 11: 次世代シーケンサが求める機械学習

Re-sequencing• 異なる個人の配列をシークエンスする• ゲノム配列の種族間の差,個人間の差を明確にする• “James Watson Genotype Viewer”• http://jimwatsonsequence.cshl.edu/about.html

Page 12: 次世代シーケンサが求める機械学習

SNPs/GWAS• 個人間のゲノムの違いを調べる

対象者のゲノム

ヒトの参照ゲノムG

T CT

C

SNPs (single nucleotide polymorphisms), GWAS (genome wide association study)

疾患との関連性を見つける

塩基置換

次世代シーケンサで読む参照ゲノムにマッピングする

Page 13: 次世代シーケンサが求める機械学習

• 各readは,他のreadの情報と独立に,参照ゲノムにマッピングされる• 2個のSNPsが存在する様に見えるが,おそらく本当は4塩基の欠失が起きている例• 各置換に確率分布を設定し,Bayes Gasussian mixture modelでモデル化

DePristo MA, Banks E, Poplin R, Garimella KV, Maguire JR, Hartl C, Philippakis AA, del Angel G, Rivas MA, Hanna M, et al. 2011. A framework for variation discovery and genotyping using next-generation DNA sequencing data. Nat Genet 43: 491–498.

Page 14: 次世代シーケンサが求める機械学習

その他の問題• 家系図が与えられている上で本当に疾患に関連しているmutationを見つける

• ベイズ的な方法の利用• mutation集合が与えられた上で,細胞の分裂系譜を予測する• 因果関係の予測

TC G TG T

C

G T

T T

T

Page 15: 次世代シーケンサが求める機械学習

Re-sequencing/methylation

RNA-seqChIP-seq/

MeDIP/CLIP-seq

Genome Assembly

Meta-Genomics

mRNA assembly

parameter fitting ◯ ◯ ◎ ◯

unsupervised learning

(clustering)◯ ◯ ◯ ◯ ◎ ◯

semi-supervised

learning◎ ◯ ◯ ◯ ◯

supervised learning ◯ ◯ ◯ ◎

committee(モデルの結合) ◎ ◯

Page 16: 次世代シーケンサが求める機械学習

RNA-seq

Page 17: 次世代シーケンサが求める機械学習

スプライシング(Splicing)• 一つの遺伝子のDNA領域は,途中使われない事もある.

Page 18: 次世代シーケンサが求める機械学習

選択的スプライシング(alternative splicing)• 一つの遺伝子から,複数の異なるスプライシングが起きることがある.特に高等生物の神経系でよく見られる.

• 観測できるのは,複数のスプライシングの値の総和.• 元のスプライシングパターンを知りたい.

?

Page 19: 次世代シーケンサが求める機械学習

ISMB 2010 NGS TutorialのSlideより

Page 20: 次世代シーケンサが求める機械学習

RNA-seqで変わる行列• マイクロアレイ• n遺伝子 x mサンプル• RNA-seq• 遺伝子数nが(ざっくり言って)5倍以上に増加• 選択的スプライシング• non-codingRNA• 観測レンジ,定量性の向上

non-coding RNA. 遺伝子領域以外.タンパク質にならない.

遺伝子数 n

サンプル数 m

Page 21: 次世代シーケンサが求める機械学習

RNA-seq (定量化後)• 定量化の後は,基本的にマイクロアレイと同様• 遺伝子数は増加.• データの精度向上,粒度向上によるデータ量の増加• 手法• クラスタリング• 類似の挙動を示す遺伝子群の発見• クラス分類• 疾患予測

• SNPs/GWASと併せて,両親いずれの遺伝子が発現したのかを同定する観測も進んでいる

• アリル特異的な発現

Page 22: 次世代シーケンサが求める機械学習

Re-sequencing/methylation

RNA-seqChIP-seq/

MeDIP/CLIP-seq

Genome Assembly

Meta-Genomics

mRNA assembly

parameter fitting ◯ ◯ ◎ ◯

unsupervised learning

(clustering)◯ ◯ ◯ ◯ ◎ ◯

semi-supervised

learning◎ ◯ ◯ ◯ ◯

supervised learning ◯ ◯ ◯ ◎

committee(モデルの結合) ◎ ◯

Page 23: 次世代シーケンサが求める機械学習

ChIP-seq• 転写因子(遺伝子の活動をオンにするスイッチ)が,DNAに結合(スイッチをオンにする)した状態を取り出して,該当部分のDNA配列を読む.その後,その配列をゲノムにマップ.

• 理想的にはゲノムの一部しか観測されないはずだが,現実は全領域に渡る.本当の結合部位を予測する.

理想 現実

DNA転写因子

ChIP-seq

Page 24: 次世代シーケンサが求める機械学習

ChIP-seq(2)• 分布の推定問題• どの山が本当の結合点で,どの山が観測ノイズか.• 答え自身も曖昧• ある種のsemi-supervised learning• もし,予測があっていれば,計算量は高いけれど他の種のゲノム情報と比較することで,ある程度の検証が可能

Feng X, Grossman R, and Stein L. 2011. PeakRanger: A cloud-enabled peak caller for ChIP-seq data. BMC Bioinformatics 12: 139.

Page 25: 次世代シーケンサが求める機械学習

RNA-seqとChIP-seq• RNA-seqで観測している遺伝子発現とChIP-seqで発現している転写因子には深い関連

• 遺伝子が発現するスイッチを入れるが転写因子• 他にもメチル化(スイッチのフタを開ける)やmiRNA(スイッチを切る)など複数の要素が関連

• これら複数のデータを組み合わせて解析する技術が必要

ChIP-seqRNA-seq

Page 26: 次世代シーケンサが求める機械学習

Re-sequencing/methylation

RNA-seqChIP-seq/

MeDIP/CLIP-seq

Genome Assembly

Meta-Genomics

mRNA assembly

parameter fitting ◯ ◯ ◎ ◯

unsupervised learning

(clustering)◯ ◯ ◯ ◯ ◯ ◯

semi-supervised

learning◎ ◯ ◯ ◎ ◯

supervised learning ◯ ◯ ◯ ◎

committee(モデルの結合) ◎ ◯

Page 27: 次世代シーケンサが求める機械学習

種の多様化が進む

モデル生物

既に全ゲノムが読まれている

多くの研究室が研究対象としている

非モデル生物

ゲノム配列が無い

ほとんど全部の生物種はこちら

対象種が増えたことで比較をする研究が増加

1000人ゲノム(ヒト)1001個体ゲノム(ナズナ)

脊椎動物10,000種ゲノム

Page 28: 次世代シーケンサが求める機械学習

Re-sequencing/methylation

RNA-seqChIP-seq/

MeDIP/CLIP-seq

Genome Assembly

Meta-Genomics

mRNA assembly

parameter fitting ◯ ◯ ◎ ◯

unsupervised learning

(clustering)◯ ◯ ◯ ◯ ◎ ◯

semi-supervised

learning◎ ◯ ◯ ◯ ◯

supervised learning ◯ ◯ ◯ ◎

committee(モデルの結合) ◎ ◯

Page 29: 次世代シーケンサが求める機械学習

Meta-Genomics• 微生物ゲノムの解析• 大きな動植物は「1種1個体」を得ることが可能だが,微生物は単離することが難しい

• 複数種をまとめてゲノム解析する• 問題• 腸内から得た,数億本x100bpの配列から,どのような種がいたか分かるか?

• そして,それぞれの種は,どのような役割を果たしているのか?

• 話者判別に近い?• 土壌細菌でも同様の問題• オープンな環境ほど,種数が増えるので大変

Wooley JC, Godzik A, and Friedberg I. 2010. A primer on metagenomics. PLoS Computational Biology 6: e1000667.

Page 30: 次世代シーケンサが求める機械学習

Re-sequencing/methylation

RNA-seqChIP-seq/

MeDIP/CLIP-seq

Genome Assembly

Meta-Genomics

mRNA assembly

parameter fitting ◯ ◯ ◎ ◯

unsupervised learning

(clustering)◯ ◯ ◯ ◯ ◎ ◯

semi-supervised

learning◎ ◯ ◯ ◯ ◯

supervised learning ◯ ◯ ◯ ◎

committee(モデルの結合) ◎ ◯

Page 31: 次世代シーケンサが求める機械学習

遺伝子機能予測• 非モデル生物は,今までモデル生物では発見出来なかった• 遺伝子機能は大抵配列から決定されている• 配列が類似している遺伝子は,機能も類似している仮定• 非モデル生物では,配列類似性の低い遺伝子も多い

モデル生物の領域 非モデル生物の領域

モデル生物の知識を活かして理解

Page 32: 次世代シーケンサが求める機械学習

遺伝子機能予測(2)• 遺伝子の機能は分類が進んでいる• 遺伝子オントロジー• DAG構造を持った機能クラス• 可能な限り下(細かい)分類を行いたい

• クラスに階層構造を持った超多クラス分類問題• 遺伝子発現(数値ベクトル)と機能のDAG構造(階層化されたクラス)で予測.[Bi and Kwok, ICML 2011]

• 種毎に配列の傾向が異なるので,ある種の転移学習と考えられないか?

ヒトの学習結果 猿データの予想

ヒトの学習結果 うさぎデータの予想マウスの学習結果

Page 33: 次世代シーケンサが求める機械学習

進化 ゲノム科学

タンパク質

マイクロアレイ

システム生物学系統樹作成 翻訳領域予測 RNA遺伝子予測選択的

スプライシング

スプライス部位予測

ゲノムの比較

遺伝子機能比較

遺伝子発見

転写因子結合部位予測

オペロン予測

タンパク質機能予測

配列アセンブリ

連鎖解析(SNPs, GWAS)

遺伝子機能予測

メチル化サイト予測

機能予測

専門用語の対応付け

知識抽出

タンパク質局在予測

タンパク質間相互作用予測

テキスト

マイニング

RNA構造予測

タンパク質構造予測

構造予測

質量分析データ前処理

質量分析データ解析

医療画像解析

マイクロアレイデータ前処理マイクロアレイデータ解析

マイクロアレイ画像解析

実験データ解析

画像解析

シグナルネットワーク

代謝パスウエイ

遺伝子ネットワーク

Larranaga et al. 2006.Briefings in Bioinformatics. を改変

配列アラインメント

次世代シーケンサの影響範囲

ネットワーク予測