integrating different data types by regularized unsupervised multiple kernel learning with ...

10
Integrating different data types by regularized unsupervised multiple kernel learning with application to cancer subtype discovery Nora K. Speicher and Nico Pfeifer 発表者:中央大学理工学部物理学科田口善弘 Bioinformatics, 31, 2015, i268–i275

Upload: y-h-taguchi

Post on 18-Aug-2015

58 views

Category:

Science


4 download

TRANSCRIPT

Page 1: Integrating different data types by regularized  unsupervised multiple kernel learning with  application to cancer subtype discovery

Integrating different data types by regularized unsupervised multiple kernel learning with 

application to cancer subtype discovery

Nora K. Speicher and Nico Pfeifer 

発表者:中央大学理工学部物理学科田口善弘

Bioinformatics, 31, 2015, i268–i275

Page 2: Integrating different data types by regularized  unsupervised multiple kernel learning with  application to cancer subtype discovery

(x11 x12 … x1 N

x21 x22 … x2 N… … … …xd 1 xd 2 … xdN

)=( x⃗1, x⃗2,…, x⃗N )

Nサンプル × d次元 特徴量 (N≪d)

目的

(w11 w12 … w1N

w21 w22 … w2N… … … …wN 1 wN 2 … wNN

)類似度行列 w ij δ( x⃗i , x⃗ j)⇔

大 小

類似度 距離

Page 3: Integrating different data types by regularized  unsupervised multiple kernel learning with  application to cancer subtype discovery

δ( x⃗i , x⃗ j)

普通は...

K ij

カーネル

x⃗ i→Φ( x⃗ i)

x⃗ i x⃗ j Φ( x⃗ i)

Φ( x⃗ j)

αn

δ( x⃗i , x⃗ j)=∑n=1

N

{αn(K i n−K j n) }2

現実にはP本のαを使用=P次元空間への射影

Page 4: Integrating different data types by regularized  unsupervised multiple kernel learning with  application to cancer subtype discovery

利点:

・入力データはカーネルなのでカーネル化できるものはなんでも入力になる(複数種のカーネルの混合使用可)。

・教師あり、教師なし、半教師あり学習に対応 (wijをデータから作れば教師なし学習)。

・正規化項(次頁参照)を付加して過学習を抑止。

複数カーネルの統合法:線型結合(わりと芸がない..)

K ij=∑m=1

Mβm K ij

m , βm⩾0

Page 5: Integrating different data types by regularized  unsupervised multiple kernel learning with  application to cancer subtype discovery

∑ij

δ( x⃗ i , x⃗ j)wijminα,β

∑i=1

N

[δ( x⃗i){∑j=1

N

wij}]=const . ∑m=1

M

|βm|=1

δ( x⃗i)=∑n=1

N

(αn K i n )2 ←カーネル空間でのxi

のα方向への射影の2乗

xiの重要度 Kij=0を防ぐ∀αn=0 を防ぐ

Page 6: Integrating different data types by regularized  unsupervised multiple kernel learning with  application to cancer subtype discovery

今回の目的:ガンのサブタイプ

w ij=1 i∈N ( j) , j∈N (i)0

N(i):iのk近傍→教師なし学習&低次元の構造誘導

δ( x⃗i , x⃗ j)求まった      を使ってカーネルK-means

最適クラスター数は silhouette width(クラスターのコンパクトさを示す指標の一種)の平均値が最大になるように決定

Page 7: Integrating different data types by regularized  unsupervised multiple kernel learning with  application to cancer subtype discovery

結局、やっていること:カーネル空間(高次元空間)からP次元空間(低次元空間)になるべくコンパクトになるように射影する

「ランチはヘルメットをかぶって」1987 福田繁雄

Page 8: Integrating different data types by regularized  unsupervised multiple kernel learning with  application to cancer subtype discovery

評価方法(生存解析):全時期を通して多群の瞬間死亡率が等しいと仮定した時のP値をχ二乗分布を仮定した対数順位検定で求める。

対象データ(TCGA):5種類のガンのサブタイプに対して、mRNA,miRNA,DNAメチル化の3種類のデータが与えられている(非常に高次元)。

時間

生存率

Page 9: Integrating different data types by regularized  unsupervised multiple kernel learning with  application to cancer subtype discovery

5種のガン

mRNA,miRNA,メチル化に各1( )個のカーネル使用

αは5本で5次元への縮約、wij決定のための近傍

数は9,カーネルはガウスカーネル。

5Similarity Network Fusion(従来法) 

()内はクラスター数

Page 10: Integrating different data types by regularized  unsupervised multiple kernel learning with  application to cancer subtype discovery

ISMB/ECCB2015に選ばれた理由:

・教師なし学習で生存曲線に差があるクラスターを作成することに成功

・ロバストネス(説明できなかったが全サンプルの50%しか使わなくてもLOOCVで求めたランド指数が90%超)

・従来の高精度な手法は遺伝子数に対して指数時間が必要なため、プレスクリーニングが必要だったが提案手法は3乗程度なのでプレスクリーニング不要

・mRNA/miRNA/メチル化の統合解析可