論文輪読資料「a review of unsupervised feature learning and deep learning for time-series...

32
那須野 薫 2015年4月16日 東京大学松尾研究室

Upload: kaoru-nasuno

Post on 11-Aug-2015

1.502 views

Category:

Data & Analytics


0 download

TRANSCRIPT

�����

������������������������������������� ������������� ����������������������� ��

那須野 薫

2015年4月16日

東京大学松尾研究室

紹介する論文について •  タイトル:

–  A review of unsupervised feature learning and deep learning for time-series modeling

–  時系列モデリングのための教師なし表現学習とディープラーニングに関する調査

•  著者: –  Martin L., Lars K., Amy L. –  Örebro University in Sweden

•  被引用回数:12 •  引用件数:135 •  公開年:2014

2015年4月16日 東京大学松尾研究室 那須野薫 2

アジェンダ 1.  イントロダクション 2.  時系列データの特徴 3.  教師なし表現学習と深層学習 4.  時系列問題の典型的な事例 5.  まとめ

2015年4月16日 東京大学松尾研究室 那須野薫 4

アジェンダ 1.  イントロダクション 2.  時系列データの特徴 3.  教師なし表現学習と深層学習 4.  時系列問題の典型的な事例 5.  まとめ

2015年4月16日 東京大学松尾研究室 那須野薫 5

東京大学松尾研究室 那須野薫 2015年4月16日 6

1. イントロダクション •  これまで時系列データについて多くの研究がなされてきたものの更なる改善が必要である。 –  従来手法は時間の扱いが浅い。

•  従来のFeature Engineerngの代替手法として教師なし表現学習が利用され始めた。 –  Feature Engineringはコストが高い。 –  ラベルなしデータは大量に存在。 –  多層にすることで、より複雑なデータのモデリングが可能に。

•  時系列データからの表現学習に関する研究は多くない。

•  本論文の目的 –  時間関係を捉える為に開発された表現学習アルゴリズムの整理 –  それらが適用される様々な時系列問題の事例の整理

アジェンダ 1.  イントロダクション 2.  時系列データの特徴 3.  教師なし表現学習と深層学習 4.  時系列問題の典型的な事例 5.  まとめ

2015年4月16日 東京大学松尾研究室 那須野薫 7

東京大学松尾研究室 那須野薫 2015年4月16日 8

2. 時系列データの5つの特徴 •  ノイズが多く高次元であること。

•  データにパタン全体が含まれているとは限らないこと。

•  時間変数に明示的な依存関係が存在すること

•  非定常性がある(平均、分散、頻度が常に変化する)こと

•  時間方向の移動に対する普遍性があること –  画像データでは回転普遍性や移動普遍性がある

アジェンダ 1.  イントロダクション 2.  時系列データの特徴 3.  教師なし表現学習と深層学習 4.  時系列問題の典型的な事例 5.  まとめ

2015年4月16日 東京大学松尾研究室 那須野薫 9

東京大学松尾研究室 那須野薫 2015年4月16日 10

3. サマリー

•  特定の問題へのモデル選択の要点 –  生成モデル or 識別モデル?

•  t+1のデータを復元するなどの予測やデータの統合を行う場合は生成モデルを利用する。分類問題を行う場合は識別モデルで十分。

•  生成モデルはロバストで異常値に強いが、計算量が大きい。 –  データの特徴はなにか?

•  データが時系列の構造を持つ場合、本質的に時間の関係をモデリングしたり、時間の一貫性を組み込んだりするモデルを利用する。単純に特徴ベクトル化すべきではない。

–  入力の大きさは? •  画像処理等の多次元問題には、convolutionやpoolingを利用することで次元を減らした

り、時間方向に対して多少の移動普遍性を獲得することができる。

東京大学松尾研究室 那須野薫 2015年4月16日 11

3. 教師なし表現学習と深層学習の要素技術 1.  Restricted Boltzman Machine 2.  Conditional RBM 3.  Gated RBM 4.  Auto-encoder 5.  Recurrent neural network 6.  Deep Learning 7.  Convolution and pooling 8.  Temporal coherence 9.  Hidden Markov Model

東京大学松尾研究室 那須野薫 2015年4月16日 12

3-2. Conditional RBM

東京大学松尾研究室 那須野薫 2015年4月16日 13

3-2. Gated RBM •  2入力ベクトルの遷移をモデリングするRBM。

東京大学松尾研究室 那須野薫 2015年4月16日 14

3-4. Auto-encoder

東京大学松尾研究室 那須野薫 2015年4月16日 15

3-8. Temporal Coherence •  時間の関係性を捉えるための構造を変える以外の方法。

•  隠れ層への活性化の変化を最小化する制約 –  min(|h(t) ‒ h(t-1)|)

アジェンダ 1.  イントロダクション 2.  時系列データの特徴 3.  教師なし表現学習と深層学習 4.  時系列問題の典型的な事例 5.  まとめ

2015年4月16日 東京大学松尾研究室 那須野薫 16

東京大学松尾研究室 那須野薫 2015年4月16日 17

4. サマリー

•  Multi-variate: –  多変量か、単変量か。

•  Raw data: –  生データからの学習か。TDNN, cRBM, convRBMが適している。

•  Frequency rich: –  周波領域帯が重要か否か。

•  Common features: –  一般的に利用される素性。

•  Common method: –  一般的に利用される手法。

•  Benchmark set: –  ベンチマークに利用されるデータセット。

東京大学松尾研究室 那須野薫 2015年4月16日 18

4. 典型的な事例 1.  動画 2.  株式市場予測 3.  音声認識 4.  音楽認識 5.  モーションキャプチャデータ 6.  eノーズデータ 7.  生理学的データ

東京大学松尾研究室 那須野薫 2015年4月16日 19

4-1. 動画 •  多次元時系列データ •  伝統的な研究

–  フレームを静的データとして処理し、特徴点を検知する方法 •  最近な研究

–  Gated RBM •  フレーム(t)の全体画像を入力とし、フレーム(t+1)の全体画像を出力するモデル。全結合のため大きなサイズの画像への適用は難しい。

–  Convolutional GRBM with probabilistic max-pooling –  Convolutional Stacked ISA

•  大きな入力へうまくスケールしない独立部分空間分析(Independent Spacial Analysis)をConvolutionalに積み上げる手法。ハイパーパラメタが少ない。

–  Space-Time Deep Belif Network(ST-DBN) •  ConvRBMの構造に対して、まずSpacial poolingし、spaciel pooling unitsにtemporal poolingを行うモデル。convRBMより精度がかなり良いらしい。

–  Auto-Encoder on the temporal difference on the pooling units •  今後の方向性

–  より長い時間方向の依存関係を学習できるモデルの開発。

東京大学松尾研究室 那須野薫 2015年4月16日 20

4-1. 時系列データ a person running at frame 100, 105, 110, and 115

東京大学松尾研究室 那須野薫 2015年4月16日 21

4-2. 株式市場予測 •  外部要因の大きい一次元データ

–  non-linear, uncertain, non-stationary。 •  伝統的な研究

–  ニュース、ソーシャルメディア、チャットの情報より予測 –  ANN、

•  最近な研究 –  recurrent versions of TDNN –  wavelet transformed fetures with RNN –  echo state network

•  今後の方向性

–  情報源を増やし結合し利用する。 –  モデル開発をがんばる。 –  (改善の余地がかなりある)

東京大学松尾研究室 那須野薫 2015年4月16日 22

4-2. 時系列データ Dow Jones Industrial Average (DJOI) over a period of 10 years

東京大学松尾研究室 那須野薫 2015年4月16日 23

4-3. 音声認識 •  音声認識の問題

–  音源判定、性別判定、文字起こし, 音響モデリング –  DLで大きく進展した領域。 –  MFCCsというpre-madeな素性を用いることが主流。

•  伝統的な研究 –  Gaussian mixture models(GMM)で離散化し、Hidden Markov Models(HMMs)

を用いる手法が従来では最も優れていた。(features-GMM-HMM) •  最近な研究

–  features-RBM-HMMs –  convDBN、cRBMなどなどが試された。 –  features-DeepLSTMRNN

•  state-of-the-art。系列化処理がない。HMMs使わない。 –  MFCCs(features)を置換する

•  RBM-HMMに生データを入れる。 –  動画と音声を利用する

•  動画とそれに映る数字を読み上げた音声を利用する研究。 •  今後の方向性

–  生データよりよい素性を作成するアルゴリズムでpre-madeな素性を置換すること。

東京大学松尾研究室 那須野薫 2015年4月16日 24

4-3. 時系列データ “The quick brown fox jumps over the lazy dog”

東京大学松尾研究室 那須野薫 2015年4月16日 25

4-4. 音楽認識 •  音楽認識

–  音声認識と似ているが、多変量データという点で異なる。 –  問題:アノテーション(清月、和音、楽器、ムード)、検索(テキストベースコンテン

ツ検索、コンテンツベース類似検索、)、テンポ特定 •  伝統的な研究

–  一般的な素性:MFCCs, chroma、constant-Qなど。 •  最近な研究

–  音楽ジャンルの特定にsparse codingを利用する事例。 –  自己教示学習を利用して、音楽ジャンルを分類する事例。

•  整理と今後の方向性 –  教師なし表現学習はよく利用されている。 –  深層ネットワークを利用するモチベーションとして、音楽自体がモチーブ、フレー

ズ、セクションと全体を形成する和音、メロディー、リズムの階層構造からなることが挙げられる。

–  生データからの表現学習は今後の課題。 –  Convolutional networkがいい精度出しているが改善の余地はある。

東京大学松尾研究室 那須野薫 2015年4月16日 26

4-5. モーションキャプチャデータ •  ヒューマンモデリング

–  応用:トラッキング、活動認識、スタイル-コンテンツ分割、人物特定、アニメーション等。

–  データ取得方法 •  マーカーの利用 or 画像からアルゴリズムで抽出。

–  データの特徴:多次元。ノイズ多い。多変量。音楽や音声データ比べると振動数は低い。

•  伝統的な研究 –  人間の動作のスタイルとコンテンツをHMMsや線形力学系でモデリングする事例。

•  HMMsや線形力学以外の手法 –  ガウス仮定を用いて、「歩く、走る、おおまたに歩く」をモデリング。 –  動作の最初の数フレームをTRBMやcRBMにかけてモーションキャプチャ。 –  cRBMの多層化やrecurrent TRBM、factored cRBMを利用することで、動作の

つなぎ目をスムーズにする事例。 –  Dynamic Factor Graphを利用したモーションキャプチャデータの欠損補完。

•  整理と今後の方向性

–  深層学習は、教師なしで、生データから動作のテンプレートを学習し、それらに基づいて複雑な人間の動作を形成できるはず。

–  今後の課題は生データからの表現学習。

東京大学松尾研究室 那須野薫 2015年4月16日 27

4-5. 時系列データ A sequence of human motion

東京大学松尾研究室 那須野薫 2015年4月16日 28

4-6. eノーズデータ •  機会嗅覚

–  eノーズを用いた匂いの質の分析。 –  eノーズ:ガスセンサーを並べたものからなる。 –  データの特徴:多変量、非直感的、専門的知識の少ないデータ。 –  応用:飲食物や空気の質、ガス判別、ガスの出所判定、バクテリア判定、診断など。

•  伝統的な研究 –  静的データのパタン分析手法(PCA, clusteringなど)を利用する。 –  よく利用される素性:static sensor response, transient drivatives, AUCなど。 –  TDNN:スパイスの匂い、3成分混合物、黒茶最適発酵時間、ビンテージワイン –  RNN:匂いの発生源の特定。

•  最近な研究 –  ガス識別&発生源特定問題に於いて、1) 生データにSVMを適用、2) Auto-

Regressiveと線形力学系より抽出された素性にSVMを適用、3) 構造化データに特化したkernelを利用するSVM の3つのうち3) が最も性能がよく、2) よりもいい結果となった。

–  Auto-encoder, RBM, cRBMがバクテリアの判定や肉の腐敗度の分類に利用された。 •  課題の整理と今後の方向性

–  各ガス単体や混合されたガスに適したセンサーをつくるのは難しい。 –  素性を考えるのも現実的ではない。 –  今後も動的モデリングを利用するトレンドに沿ってやるべき?

東京大学松尾研究室 那須野薫 2015年4月16日 29

4-6. 時系列データ Normalized data from an array of electronic nose sensors

東京大学松尾研究室 那須野薫 2015年4月16日 30

4-7. 生理学的データ •  生理学的データ

–  脳波検査(EEG)、脳磁気図検査(MEG)、心電図検査(ECG)、健康管理のためのウェアラブルセンサ

–  単一経路も複数経路もありうる。専門家が要るためラベリングが高コスト。 •  伝統的な研究

–  頭蓋内の脳波検査データからの手作り素性を用いてConvolutional network、ロジスティック回帰、SVMなどでてんかん性発作の予測する研究など。

•  最近な研究 –  RBMベースの手法により表現学習を行い、睡眠段階を分類する事例。 –  脳波検査や脳磁気図検査信号データの前処理の手法として、短時間フーリエ変換に

かけた後にICAに突っ込む事例がある。時間相関がよく考慮された結果になったらしい。

–  自己教示学習を利用する事例もある。

•  整理 –  生理学的データは大規模で、多くの多様な手法が利用されている。 –  生データからの表現獲得が可能であるため、特にディープラーニングコミュニティ

にとっては興味深い領域のはずである。

東京大学松尾研究室 那須野薫 2015年4月16日 31

4-7. 時系列データ EEG (top two signals), EOG (third and fourth signal), EMG(bottom signal),

アジェンダ 1.  イントロダクション 2.  時系列データの特徴 3.  教師なし表現学習と深層学習 4.  時系列問題の典型的な事例 5.  まとめ

2015年4月16日 東京大学松尾研究室 那須野薫 32

東京大学松尾研究室 那須野薫 2015年4月16日 33

5. まとめ •  教師なし表現学習では、単純に特徴ベクトル化するのではなく時系列の構造を保持できるモデルを利用すべきである。

•  モデル選択に加えて選択すべき要素が多く、時系列データへの適用は多くの課題がある。また、有用な素性を構築した多くの研究は入力データから表現を学習する際に、そのデータを前処理しているということも重要である。 –  選択すべき要素:結合、構造、ハイパーパラメータ

•  今後の方針 –  多変量入力データのシグナル選択 –  学習時に内部の構造を変えるモデルの開発 –  短期と長期の依存を捉える為のモデル平均化の利用?