![Page 1: Integrating different data types by regularized unsupervised multiple kernel learning with application to cancer subtype discovery](https://reader036.vdocuments.pub/reader036/viewer/2022071804/55d2cc2fbb61eb697e8b47ce/html5/thumbnails/1.jpg)
Integrating different data types by regularized unsupervised multiple kernel learning with
application to cancer subtype discovery
Nora K. Speicher and Nico Pfeifer
発表者:中央大学理工学部物理学科田口善弘
Bioinformatics, 31, 2015, i268–i275
![Page 2: Integrating different data types by regularized unsupervised multiple kernel learning with application to cancer subtype discovery](https://reader036.vdocuments.pub/reader036/viewer/2022071804/55d2cc2fbb61eb697e8b47ce/html5/thumbnails/2.jpg)
(x11 x12 … x1 N
x21 x22 … x2 N… … … …xd 1 xd 2 … xdN
)=( x⃗1, x⃗2,…, x⃗N )
Nサンプル × d次元 特徴量 (N≪d)
目的
(w11 w12 … w1N
w21 w22 … w2N… … … …wN 1 wN 2 … wNN
)類似度行列 w ij δ( x⃗i , x⃗ j)⇔
大 小
類似度 距離
![Page 3: Integrating different data types by regularized unsupervised multiple kernel learning with application to cancer subtype discovery](https://reader036.vdocuments.pub/reader036/viewer/2022071804/55d2cc2fbb61eb697e8b47ce/html5/thumbnails/3.jpg)
δ( x⃗i , x⃗ j)
普通は...
K ij
カーネル
x⃗ i→Φ( x⃗ i)
x⃗ i x⃗ j Φ( x⃗ i)
Φ( x⃗ j)
αn
δ( x⃗i , x⃗ j)=∑n=1
N
{αn(K i n−K j n) }2
現実にはP本のαを使用=P次元空間への射影
![Page 4: Integrating different data types by regularized unsupervised multiple kernel learning with application to cancer subtype discovery](https://reader036.vdocuments.pub/reader036/viewer/2022071804/55d2cc2fbb61eb697e8b47ce/html5/thumbnails/4.jpg)
利点:
・入力データはカーネルなのでカーネル化できるものはなんでも入力になる(複数種のカーネルの混合使用可)。
・教師あり、教師なし、半教師あり学習に対応 (wijをデータから作れば教師なし学習)。
・正規化項(次頁参照)を付加して過学習を抑止。
複数カーネルの統合法:線型結合(わりと芸がない..)
K ij=∑m=1
Mβm K ij
m , βm⩾0
![Page 5: Integrating different data types by regularized unsupervised multiple kernel learning with application to cancer subtype discovery](https://reader036.vdocuments.pub/reader036/viewer/2022071804/55d2cc2fbb61eb697e8b47ce/html5/thumbnails/5.jpg)
∑ij
δ( x⃗ i , x⃗ j)wijminα,β
∑i=1
N
[δ( x⃗i){∑j=1
N
wij}]=const . ∑m=1
M
|βm|=1
δ( x⃗i)=∑n=1
N
(αn K i n )2 ←カーネル空間でのxi
のα方向への射影の2乗
xiの重要度 Kij=0を防ぐ∀αn=0 を防ぐ
![Page 6: Integrating different data types by regularized unsupervised multiple kernel learning with application to cancer subtype discovery](https://reader036.vdocuments.pub/reader036/viewer/2022071804/55d2cc2fbb61eb697e8b47ce/html5/thumbnails/6.jpg)
今回の目的:ガンのサブタイプ
w ij=1 i∈N ( j) , j∈N (i)0
N(i):iのk近傍→教師なし学習&低次元の構造誘導
δ( x⃗i , x⃗ j)求まった を使ってカーネルK-means
最適クラスター数は silhouette width(クラスターのコンパクトさを示す指標の一種)の平均値が最大になるように決定
![Page 7: Integrating different data types by regularized unsupervised multiple kernel learning with application to cancer subtype discovery](https://reader036.vdocuments.pub/reader036/viewer/2022071804/55d2cc2fbb61eb697e8b47ce/html5/thumbnails/7.jpg)
結局、やっていること:カーネル空間(高次元空間)からP次元空間(低次元空間)になるべくコンパクトになるように射影する
「ランチはヘルメットをかぶって」1987 福田繁雄
![Page 8: Integrating different data types by regularized unsupervised multiple kernel learning with application to cancer subtype discovery](https://reader036.vdocuments.pub/reader036/viewer/2022071804/55d2cc2fbb61eb697e8b47ce/html5/thumbnails/8.jpg)
評価方法(生存解析):全時期を通して多群の瞬間死亡率が等しいと仮定した時のP値をχ二乗分布を仮定した対数順位検定で求める。
対象データ(TCGA):5種類のガンのサブタイプに対して、mRNA,miRNA,DNAメチル化の3種類のデータが与えられている(非常に高次元)。
時間
生存率
![Page 9: Integrating different data types by regularized unsupervised multiple kernel learning with application to cancer subtype discovery](https://reader036.vdocuments.pub/reader036/viewer/2022071804/55d2cc2fbb61eb697e8b47ce/html5/thumbnails/9.jpg)
5種のガン
mRNA,miRNA,メチル化に各1( )個のカーネル使用
αは5本で5次元への縮約、wij決定のための近傍
数は9,カーネルはガウスカーネル。
5Similarity Network Fusion(従来法)
()内はクラスター数
![Page 10: Integrating different data types by regularized unsupervised multiple kernel learning with application to cancer subtype discovery](https://reader036.vdocuments.pub/reader036/viewer/2022071804/55d2cc2fbb61eb697e8b47ce/html5/thumbnails/10.jpg)
ISMB/ECCB2015に選ばれた理由:
・教師なし学習で生存曲線に差があるクラスターを作成することに成功
・ロバストネス(説明できなかったが全サンプルの50%しか使わなくてもLOOCVで求めたランド指数が90%超)
・従来の高精度な手法は遺伝子数に対して指数時間が必要なため、プレスクリーニングが必要だったが提案手法は3乗程度なのでプレスクリーニング不要
・mRNA/miRNA/メチル化の統合解析可