次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacode...

35
(1). 次次次次次次次次次次次 (2). 次次次次 vs 次次次次次次次次

Upload: hirotaka-matsumoto

Post on 11-Apr-2017

1.000 views

Category:

Science


0 download

TRANSCRIPT

Page 1: 次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacode

(1). 次元圧縮周りでの気付き

(2). 次元圧縮 vs 直接的なモデル化

Page 2: 次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacode

自己紹介• 松本 拡高

• 東大 メディカル情報生命専攻 D3

• バイオインフォにおける確率モデルと機械学習

• 連絡先– @gggtta– [email protected]

Page 3: 次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacode

(1). 次元圧縮周りでの気付き

(2). 次元圧縮 vs 直接的なモデル化

Page 4: 次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacode

次元圧縮とは• 自然言語による大雑把な私の理解

• 高次元のデータを解釈できるよう、うまいこと低次元に落とし込みたい。

Page 5: 次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacode

次元圧縮 (PCA) とは• 目的関数による理解

• 元の高次元データ Xi を、データ共通の Wと低次元 Zi を用いて上手く近似できる Wと Zi を求める。 (W は直交する )

• 可視化するときは、たいてい Zi を plot

Page 6: 次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacode

Sparse coding• そもそも、この話をするようになったきっかけ• なんか解釈可能な特徴量 ( 辞書 ) が出てくるら

しい。という話を聞いて調べてみたところ。。。

引用: http://charles.cadieu.us/?p=184

Page 7: 次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacode

Sparse coding• 目的関数は

• W の直交性の条件はない• Zi にスパース性を含めただけ• PCA とほとんど同じではないか。。。• 確率論的には– PCA : zi の事前分布がガウス分布– SC : zi の事前分布がラプラス分布

Page 8: 次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacode

Topic model• Topic ごとに単語の使われる頻度が異な

り、文章ごとに topic の頻度が違う。

引用: http://www.scottbot.net/HIAL/?p=221

Page 9: 次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacode

Topic model• topic の出現確率が、文章ごとに違う mixture

model の拡張だと私は最初に思った

• 混合モデル: topic の出現確率は一定

Page 10: 次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacode

Topic model

• でも確率的に解釈すると、次元圧縮に Wが B 、 πi が Zi とみなすと、ほぼprobabilistic PCA

• 要は Zi に、 Zi>0 かつ足したら1という条件が加わっただけ

Page 11: 次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacode

topic model -> mixture model -> k-means

• トピックモデル–出現確率がデータごとに異なる。

• 混合モデル–出現確率はデータで共通

• K-means–混合ガウスのある極限

Page 12: 次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacode

Diffusion map• PCA を非線形に拡張したものに diffusion map

というものがある

芳村さんのスライドから拝借

Page 13: 次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacode

Diffusion map• 手順

• 高次元空間上でのデータ間の遷移確率行列をガウスカーネルから作る ( ある種のグラフラプラシアン )

• 遷移確率行列を固有値分解してえられる固有ベクトルが Zi に相当

Page 14: 次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacode

Spectral clustering• グラフラプラシアンといえばこいつ• グラフラプラシアンを固有値分解して、固有ベ

クトルで k-means など

引用: http://d.hatena.ne.jp/mr_r_i_c_e/20121214/1355499195

Page 15: 次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacode

Diffusion map vs spectral clustering

• グラフラプラシアンを固有値分解して固有ベクトルを見るところまで同じ– ※ 正確には許容できるグラフラプラシアンが違うはず

• 固有ベクトルを、連続量として扱うか、離散的なクラスタに分類するかの違いでしかない。

Page 16: 次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacode

個人的な俯瞰図 (scatter plot)

PCA Diffusion map

Sparse coding

スパース性非線形

グラフラプラシアンの固有値分解

クラスタリングK-means Spectral clustering混合モデル

混合ガウストピックモデル正則化条件

次元圧縮

Page 17: 次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacode

個人的感想• いろいろかっこいい名前をつけているが、基盤

はたいてい同じである。

• 次元圧縮もクラスタリングも混合モデルもたいてい同じようなことをしている– 機械学習は案外浅い研究分野?(※学習理論ではなく、

モデルの多様性という意味で)– いろいろ機械学習の手法を勉強してきたつもりだけ

ど、実はたいして学んでいない!!???

• もっとディープな新しい何かが欲しい。– ※ ただし決してそれはディープラーニングではない

Page 18: 次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacode

(1). 次元圧縮周りでの気付き

(2). 次元圧縮 vs 直接的なモデル化

Page 19: 次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacode

Single cell expression data• Bulk data–ある程度細胞数が含まれたサンプルをまとめ

て計測する–異なる分化進行度、細胞運命の細胞が混ざっ

ており、データは平均像でしかない

• Single cell data–各細胞のデータを取得できるようになった

Page 20: 次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacode

Single cell expression data• Bulk data

• Single cell data

平均身長平均体重平均年収

身長体重年収身長体重年収

Page 21: 次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacode

Motivation• 高解像度データを用いて、細胞の分化過

程を理解したい。

Page 22: 次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacode

幼稚な例えをしますがご容赦ください

Page 23: 次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacode

1細胞を1個人で考える• 1細胞を1個人。遺伝子の発現量を身長や年収などの特性と考える。

1細胞

発現量遺伝子 1 : 0.3 遺伝子 2 : 1.9

1 個人

  値身長 : 170 年収 : 300

Page 24: 次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacode

細胞分化を知る、人の成長を知る

• 幹細胞→心筋細胞の分化過程を知りたい• 子供→大人の成長過程を知りたい

1細胞

発現量遺伝子 1 : 0.3 遺伝子 2 : 1.9

1 個人

  値身長 : 170 年収 : 300

Page 25: 次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacode

具体的に知りたいのは?• 各細胞の分化進行度や細胞運命は未知• 各個人の年齢や職業は未知

1細胞

発現量遺伝子 1 : 0.3 遺伝子 2 : 1.9

1 個人

  値身長 : 170 年収 : 300

Page 26: 次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacode

次元圧縮を用いた経路再構築• 発現量または身長などに対する次元圧縮

1 細胞 or 1 個人

Page 27: 次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacode

次元圧縮を用いた経路再構築とは?• 分化過程 or成長過程を推定する• MST, principal curve, ….子供

iPS 警察官心筋細胞

医者肝細胞

Page 28: 次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacode

次元圧縮を用いた経路再構築とは?• 経路上の位置から、分化進行度 (年齢 )や

細胞運命 (将来の職業 ) を推定する。子供 iPS 警察官心筋細胞

医者肝細胞

Page 29: 次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacode

次元圧縮の問題点• 圧縮空間上での経路の生物学的な意味の

解釈が困難

• 必ずしも第1、第2成分が見たいものを表すわけではない–ノイズに弱く、いろいろぶれる–第何成分まで見れば良いのか?

Page 30: 次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacode

ぶれる端的な例

子供分化前 大人分化後

医者肝細胞

• 仮に赤が0歳のデータだとしても、圧縮空間上では分散し、経路上はずれる

Page 31: 次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacode

直接的なモデル化• 細胞の気持ちになって考える

分化進行度  年齢

  発現量   体重

1 細胞 or 1個人の経路平均的な振る舞い

Page 32: 次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacode

直接的なモデル化• 生物学的な機構を考慮したモデル化• Ornstein-Uhlenbeck process

Page 33: 次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacode

第1回wacode より再掲

Essentially, all models are wrong,

but some are useful.George E. P. Box(18 October 1919 – 28 March 2013)

Page 34: 次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacode

結果 ( 論文 )

In preparation

Page 35: 次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacode

まとめ• 教師なし学習は基本的に PCA を基盤とし

てちょっと変わってるだけ。

• 次元圧縮は優れた手法だが、万能ではない–思考停止をしてはダメ–直接的なモデル化をぜひ