integrating different data types by regularized unsupervised multiple kernel learning with ...

Integrating different data types by regularized unsupervised multiple kernel learning with

application to cancer subtype discovery

Nora K. Speicher and Nico Pfeifer

発表者：中央大学理工学部物理学科田口善弘

Bioinformatics, 31, 2015, i268–i275

(x11 x12 … x1 N

x21 x22 … x2 N… … … …xd 1 xd 2 … xdN

)=( x⃗1, x⃗2,…, x⃗N )

Nサンプル　×　ｄ次元　特徴量 (N≪ｄ）

目的

(w11 w12 … w1N

w21 w22 … w2N… … … …wN 1 wN 2 … wNN

)類似度行列 w ij δ( x⃗i , x⃗ j)⇔

大小

類似度距離

δ( x⃗i , x⃗ j)

普通は...

K ij

カーネル

x⃗ i→Φ( x⃗ i)

x⃗ i x⃗ j Φ( x⃗ i)

Φ( x⃗ j)

αn

δ( x⃗i , x⃗ j)=∑n=1

N

{αn(K i n−K j n) }2

現実にはP本のαを使用＝P次元空間への射影

利点：

・入力データはカーネルなのでカーネル化できるものはなんでも入力になる（複数種のカーネルの混合使用可）。

・教師あり、教師なし、半教師あり学習に対応　（wijをデータから作れば教師なし学習）。

・正規化項（次頁参照）を付加して過学習を抑止。

複数カーネルの統合法：線型結合（わりと芸がない..）

K ij=∑m=1

Mβm K ij

m , βm⩾0

∑ij

δ( x⃗ i , x⃗ j)wijminα,β

∑i=1

N

[δ( x⃗i){∑j=1

N

wij}]=const . ∑m=1

M

|βm|=1

δ( x⃗i)=∑n=1

N

(αn K i n )2 ←カーネル空間でのxi

のα方向への射影の２乗

xiの重要度 Kij=0を防ぐ∀αn=0 を防ぐ

今回の目的：ガンのサブタイプ

w ij=1 i∈N ( j) , j∈N (i)0

N(i):iのｋ近傍→教師なし学習＆低次元の構造誘導

δ( x⃗i , x⃗ j)求まった　　　　　　を使ってカーネルK-means

最適クラスター数は silhouette width（クラスターのコンパクトさを示す指標の一種）の平均値が最大になるように決定

結局、やっていること：カーネル空間（高次元空間）からP次元空間（低次元空間）になるべくコンパクトになるように射影する

「ランチはヘルメットをかぶって」1987　福田繁雄

評価方法（生存解析）：全時期を通して多群の瞬間死亡率が等しいと仮定した時のP値をχ二乗分布を仮定した対数順位検定で求める。

対象データ（TCGA)：５種類のガンのサブタイプに対して、mRNA,miRNA,DNAメチル化の３種類のデータが与えられている（非常に高次元）。

時間

生存率

５種のガン

mRNA,miRNA,メチル化に各１( )個のカーネル使用

αは５本で５次元への縮約、wij決定のための近傍

数は９，カーネルはガウスカーネル。

5Similarity Network Fusion（従来法)

()内はクラスター数

ISMB／ECCB２０１５に選ばれた理由：

・教師なし学習で生存曲線に差があるクラスターを作成することに成功

・ロバストネス（説明できなかったが全サンプルの５０％しか使わなくてもLOOCVで求めたランド指数が９０％超）

・従来の高精度な手法は遺伝子数に対して指数時間が必要なため、プレスクリーニングが必要だったが提案手法は３乗程度なのでプレスクリーニング不要

・mRNA/miRNA/メチル化の統合解析可

integrating different data types by regularized unsupervised multiple kernel learning with ...

Science