次元圧縮周りでの気付き&1細胞発現データにおける次元圧縮の利用例@第3回wacode...
TRANSCRIPT
(1). 次元圧縮周りでの気付き
(2). 次元圧縮 vs 直接的なモデル化
(1). 次元圧縮周りでの気付き
(2). 次元圧縮 vs 直接的なモデル化
次元圧縮とは• 自然言語による大雑把な私の理解
• 高次元のデータを解釈できるよう、うまいこと低次元に落とし込みたい。
次元圧縮 (PCA) とは• 目的関数による理解
• 元の高次元データ Xi を、データ共通の Wと低次元 Zi を用いて上手く近似できる Wと Zi を求める。 (W は直交する )
• 可視化するときは、たいてい Zi を plot
Sparse coding• そもそも、この話をするようになったきっかけ• なんか解釈可能な特徴量 ( 辞書 ) が出てくるら
しい。という話を聞いて調べてみたところ。。。
引用: http://charles.cadieu.us/?p=184
Sparse coding• 目的関数は
• W の直交性の条件はない• Zi にスパース性を含めただけ• PCA とほとんど同じではないか。。。• 確率論的には– PCA : zi の事前分布がガウス分布– SC : zi の事前分布がラプラス分布
Topic model• Topic ごとに単語の使われる頻度が異な
り、文章ごとに topic の頻度が違う。
引用: http://www.scottbot.net/HIAL/?p=221
Topic model• topic の出現確率が、文章ごとに違う mixture
model の拡張だと私は最初に思った
• 混合モデル: topic の出現確率は一定
Topic model
• でも確率的に解釈すると、次元圧縮に Wが B 、 πi が Zi とみなすと、ほぼprobabilistic PCA
• 要は Zi に、 Zi>0 かつ足したら1という条件が加わっただけ
topic model -> mixture model -> k-means
• トピックモデル–出現確率がデータごとに異なる。
• 混合モデル–出現確率はデータで共通
• K-means–混合ガウスのある極限
Diffusion map• PCA を非線形に拡張したものに diffusion map
というものがある
芳村さんのスライドから拝借
Diffusion map• 手順
• 高次元空間上でのデータ間の遷移確率行列をガウスカーネルから作る ( ある種のグラフラプラシアン )
• 遷移確率行列を固有値分解してえられる固有ベクトルが Zi に相当
Spectral clustering• グラフラプラシアンといえばこいつ• グラフラプラシアンを固有値分解して、固有ベ
クトルで k-means など
引用: http://d.hatena.ne.jp/mr_r_i_c_e/20121214/1355499195
Diffusion map vs spectral clustering
• グラフラプラシアンを固有値分解して固有ベクトルを見るところまで同じ– ※ 正確には許容できるグラフラプラシアンが違うはず
• 固有ベクトルを、連続量として扱うか、離散的なクラスタに分類するかの違いでしかない。
個人的な俯瞰図 (scatter plot)
PCA Diffusion map
Sparse coding
スパース性非線形
グラフラプラシアンの固有値分解
クラスタリングK-means Spectral clustering混合モデル
混合ガウストピックモデル正則化条件
次元圧縮
個人的感想• いろいろかっこいい名前をつけているが、基盤
はたいてい同じである。
• 次元圧縮もクラスタリングも混合モデルもたいてい同じようなことをしている– 機械学習は案外浅い研究分野?(※学習理論ではなく、
モデルの多様性という意味で)– いろいろ機械学習の手法を勉強してきたつもりだけ
ど、実はたいして学んでいない!!???
• もっとディープな新しい何かが欲しい。– ※ ただし決してそれはディープラーニングではない
(1). 次元圧縮周りでの気付き
(2). 次元圧縮 vs 直接的なモデル化
Single cell expression data• Bulk data–ある程度細胞数が含まれたサンプルをまとめ
て計測する–異なる分化進行度、細胞運命の細胞が混ざっ
ており、データは平均像でしかない
• Single cell data–各細胞のデータを取得できるようになった
Single cell expression data• Bulk data
• Single cell data
平均身長平均体重平均年収
身長体重年収身長体重年収
Motivation• 高解像度データを用いて、細胞の分化過
程を理解したい。
幼稚な例えをしますがご容赦ください
1細胞を1個人で考える• 1細胞を1個人。遺伝子の発現量を身長や年収などの特性と考える。
1細胞
発現量遺伝子 1 : 0.3 遺伝子 2 : 1.9
1 個人
値身長 : 170 年収 : 300
細胞分化を知る、人の成長を知る
• 幹細胞→心筋細胞の分化過程を知りたい• 子供→大人の成長過程を知りたい
1細胞
発現量遺伝子 1 : 0.3 遺伝子 2 : 1.9
1 個人
値身長 : 170 年収 : 300
具体的に知りたいのは?• 各細胞の分化進行度や細胞運命は未知• 各個人の年齢や職業は未知
1細胞
発現量遺伝子 1 : 0.3 遺伝子 2 : 1.9
1 個人
値身長 : 170 年収 : 300
次元圧縮を用いた経路再構築• 発現量または身長などに対する次元圧縮
1 細胞 or 1 個人
次元圧縮を用いた経路再構築とは?• 分化過程 or成長過程を推定する• MST, principal curve, ….子供
iPS 警察官心筋細胞
医者肝細胞
次元圧縮を用いた経路再構築とは?• 経路上の位置から、分化進行度 (年齢 )や
細胞運命 (将来の職業 ) を推定する。子供 iPS 警察官心筋細胞
医者肝細胞
次元圧縮の問題点• 圧縮空間上での経路の生物学的な意味の
解釈が困難
• 必ずしも第1、第2成分が見たいものを表すわけではない–ノイズに弱く、いろいろぶれる–第何成分まで見れば良いのか?
ぶれる端的な例
子供分化前 大人分化後
医者肝細胞
• 仮に赤が0歳のデータだとしても、圧縮空間上では分散し、経路上はずれる
直接的なモデル化• 細胞の気持ちになって考える
分化進行度 年齢
発現量 体重
1 細胞 or 1個人の経路平均的な振る舞い
直接的なモデル化• 生物学的な機構を考慮したモデル化• Ornstein-Uhlenbeck process
第1回wacode より再掲
Essentially, all models are wrong,
but some are useful.George E. P. Box(18 October 1919 – 28 March 2013)
結果 ( 論文 )
In preparation
まとめ• 教師なし学習は基本的に PCA を基盤とし
てちょっと変わってるだけ。
• 次元圧縮は優れた手法だが、万能ではない–思考停止をしてはダメ–直接的なモデル化をぜひ