次元圧縮周りでの気付き＆１細胞発現データにおける次元圧縮の利用例@第３回wacode...

(1). 次元圧縮周りでの気付き

(2). 次元圧縮 vs 直接的なモデル化

自己紹介• 松本　拡高

• 東大　メディカル情報生命専攻 D3

• バイオインフォにおける確率モデルと機械学習

• 連絡先– @gggtta– [email protected]

次元圧縮とは• 自然言語による大雑把な私の理解

• 高次元のデータを解釈できるよう、うまいこと低次元に落とし込みたい。

次元圧縮 (PCA) とは• 目的関数による理解

• 元の高次元データ Xi を、データ共通の Wと低次元 Zi を用いて上手く近似できる Wと Zi を求める。 (W は直交する )

• 可視化するときは、たいてい Zi を plot

Sparse coding• そもそも、この話をするようになったきっかけ• なんか解釈可能な特徴量 ( 辞書 ) が出てくるら

しい。という話を聞いて調べてみたところ。。。

引用： http://charles.cadieu.us/?p=184

Sparse coding• 目的関数は

• W の直交性の条件はない• Zi にスパース性を含めただけ• PCA とほとんど同じではないか。。。• 確率論的には– PCA : zi の事前分布がガウス分布– SC : zi の事前分布がラプラス分布

Topic model• Topic ごとに単語の使われる頻度が異な

り、文章ごとに topic の頻度が違う。

引用： http://www.scottbot.net/HIAL/?p=221

Topic model• topic の出現確率が、文章ごとに違う mixture

model の拡張だと私は最初に思った

• 混合モデル： topic の出現確率は一定

Topic model

• でも確率的に解釈すると、次元圧縮に Wが B 、 πi が Zi とみなすと、ほぼprobabilistic PCA

• 要は Zi に、 Zi>0 かつ足したら１という条件が加わっただけ

topic model -> mixture model -> k-means

• トピックモデル–出現確率がデータごとに異なる。

• 混合モデル–出現確率はデータで共通

• K-means–混合ガウスのある極限

Diffusion map• PCA を非線形に拡張したものに diffusion map

というものがある

芳村さんのスライドから拝借

Diffusion map• 手順

• 高次元空間上でのデータ間の遷移確率行列をガウスカーネルから作る ( ある種のグラフラプラシアン )

• 遷移確率行列を固有値分解してえられる固有ベクトルが Zi に相当

Spectral clustering• グラフラプラシアンといえばこいつ• グラフラプラシアンを固有値分解して、固有ベ

クトルで k-means など

引用： http://d.hatena.ne.jp/mr_r_i_c_e/20121214/1355499195

Diffusion map vs spectral clustering

• グラフラプラシアンを固有値分解して固有ベクトルを見るところまで同じ– ※ 正確には許容できるグラフラプラシアンが違うはず

• 固有ベクトルを、連続量として扱うか、離散的なクラスタに分類するかの違いでしかない。

個人的な俯瞰図 (scatter plot)

PCA Diffusion map

Sparse coding

スパース性非線形

グラフラプラシアンの固有値分解

クラスタリングK-means Spectral clustering混合モデル

混合ガウストピックモデル正則化条件

次元圧縮

個人的感想• いろいろかっこいい名前をつけているが、基盤

はたいてい同じである。

• 次元圧縮もクラスタリングも混合モデルもたいてい同じようなことをしている– 機械学習は案外浅い研究分野？（※学習理論ではなく、

モデルの多様性という意味で）– いろいろ機械学習の手法を勉強してきたつもりだけ

ど、実はたいして学んでいない！！？？？

• もっとディープな新しい何かが欲しい。– ※ ただし決してそれはディープラーニングではない

Single cell expression data• Bulk data–ある程度細胞数が含まれたサンプルをまとめ

て計測する–異なる分化進行度、細胞運命の細胞が混ざっ

ており、データは平均像でしかない

• Single cell data–各細胞のデータを取得できるようになった

Single cell expression data• Bulk data

• Single cell data

平均身長平均体重平均年収

身長体重年収身長体重年収

Motivation• 高解像度データを用いて、細胞の分化過

程を理解したい。

幼稚な例えをしますがご容赦ください

１細胞を１個人で考える• １細胞を１個人。遺伝子の発現量を身長や年収などの特性と考える。

１細胞

発現量遺伝子 1 : 0.3 遺伝子 2 : 1.9

1 個人

　値身長 : 170 年収 : 300

細胞分化を知る、人の成長を知る

• 幹細胞→心筋細胞の分化過程を知りたい• 子供→大人の成長過程を知りたい

１細胞

発現量遺伝子 1 : 0.3 遺伝子 2 : 1.9

1 個人

　値身長 : 170 年収 : 300

具体的に知りたいのは？• 各細胞の分化進行度や細胞運命は未知• 各個人の年齢や職業は未知

１細胞

発現量遺伝子 1 : 0.3 遺伝子 2 : 1.9

1 個人

　値身長 : 170 年収 : 300

次元圧縮を用いた経路再構築• 発現量または身長などに対する次元圧縮

1 細胞 or 1 個人

次元圧縮を用いた経路再構築とは？• 分化過程 or成長過程を推定する• MST, principal curve, ….子供

iPS 警察官心筋細胞

医者肝細胞

次元圧縮を用いた経路再構築とは？• 経路上の位置から、分化進行度 (年齢 )や

細胞運命 (将来の職業 ) を推定する。子供 iPS 警察官心筋細胞

医者肝細胞

次元圧縮の問題点• 圧縮空間上での経路の生物学的な意味の

解釈が困難

• 必ずしも第１、第２成分が見たいものを表すわけではない–ノイズに弱く、いろいろぶれる–第何成分まで見れば良いのか？

ぶれる端的な例

子供分化前大人分化後

医者肝細胞

• 仮に赤が０歳のデータだとしても、圧縮空間上では分散し、経路上はずれる

直接的なモデル化• 細胞の気持ちになって考える

分化進行度　　年齢

　　発現量　　　体重

1 細胞 or １個人の経路平均的な振る舞い

直接的なモデル化• 生物学的な機構を考慮したモデル化• Ornstein-Uhlenbeck process

第１回wacode より再掲

Essentially, all models are wrong,

but some are useful.George E. P. Box(18 October 1919 – 28 March 2013)

結果 ( 論文 )

In preparation

まとめ• 教師なし学習は基本的に PCA を基盤とし

てちょっと変わってるだけ。

• 次元圧縮は優れた手法だが、万能ではない–思考停止をしてはダメ–直接的なモデル化をぜひ

次元圧縮周りでの気付き＆１細胞発現データにおける次元圧縮の利用例@第３回wacode...

Science