高次元データの非線形スパースモデリングmns.k.u-tokyo.ac.jp/~sparse2017/pdf/10.pdf成変化解析に適用した事例を発表した[16]....

6
高次元データの非線形スパースモデリング 赤穂昭太郎 1 産業技術総合研究所 人間情報研究部門 1 はじめに 近年の計測技術の発展によって大量の高次元データが得られるようになっている.そうしたデータのモデリ ングには従来単純な線形モデルが広く用いられてきたが,現実のデータは複雑で非線形なプロセスを経て 観測されるため,線形モデルでは本質を捉えきれないことが多い (Fig. 1).そこで本研究課題では,線形モ デルでは扱うのが困難であるような対象に対してスパースモデリングを拡張することを目的とし,マルチ モーダルデータや時空間データ,さらには階層構造や論理的な構造が内在するデータから本質的な構造を抽 出することのできる新たなスパースモデリング手法の確立を目指して研究を進めてきた.本発表では,こ れまで得られた研究成果を概観する. 2 マルチモーダルスパースモデリング 本研究課題は,複数のモダリティをもつ情報を統合する非線形手法の確立を目指している. ここでは,そ の主な成果として,複数情報源からの共通情報抽出と,複数の学習結果を用いた転移学習に関する研究を 紹介する. 2.1 カーネル法による複数情報源からの共通情報抽出 複数の情報源があったときに,それらに共通して含まれる情報を抽出することによって,単独の情報源で はノイズに埋もれてしまうような情報を抽出することができる可能性がある.そのための線形の多変量解 析手法として正準相関分析 (CCA) と呼ばれる手法が知られている.CCA を非線形に拡張する方法として カーネル CCA と呼ばれる手法が提案された [1]. カーネル法は,高次元写像を考えることによってアルゴリ ズムを複雑にすることなく非線形性を導入することができる方法論である.しかしながら,カーネル CCA では必ずしも内在する潜在構造をうまく抽出できないことが知られていた. 高次元データ x y のそれ ぞれを変換して内在する低次元構造 u を抽出したいとしよう. v = f (x) w = g(y) の相関が高くなれば それは真の潜在構造 u になっていてほしいが,実際には u に非線形変換をほどこして情報を無駄に失った h(u) が取り出される可能性が高い.これを防ぐために, Figure 1: 非線形性 1 E-mail: [email protected] 1 科学研究費補助金 新学術領域研究「スパースモデリングの深化と高次元データ駆動科学の創成」 最終成果報告会 (2017/12/18-20)

Upload: others

Post on 05-Mar-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 高次元データの非線形スパースモデリングmns.k.u-tokyo.ac.jp/~sparse2017/pdf/10.pdf成変化解析に適用した事例を発表した[16]. 3 ダイナミカルスパースモデリング

高次元データの非線形スパースモデリング

赤穂昭太郎 1

産業技術総合研究所 人間情報研究部門

1 はじめに

近年の計測技術の発展によって大量の高次元データが得られるようになっている.そうしたデータのモデリングには従来単純な線形モデルが広く用いられてきたが,現実のデータは複雑で非線形なプロセスを経て観測されるため,線形モデルでは本質を捉えきれないことが多い (Fig. 1).そこで本研究課題では,線形モデルでは扱うのが困難であるような対象に対してスパースモデリングを拡張することを目的とし,マルチモーダルデータや時空間データ,さらには階層構造や論理的な構造が内在するデータから本質的な構造を抽出することのできる新たなスパースモデリング手法の確立を目指して研究を進めてきた.本発表では,これまで得られた研究成果を概観する.

2 マルチモーダルスパースモデリング

本研究課題は,複数のモダリティをもつ情報を統合する非線形手法の確立を目指している. ここでは,その主な成果として,複数情報源からの共通情報抽出と,複数の学習結果を用いた転移学習に関する研究を紹介する.

2.1 カーネル法による複数情報源からの共通情報抽出

複数の情報源があったときに,それらに共通して含まれる情報を抽出することによって,単独の情報源ではノイズに埋もれてしまうような情報を抽出することができる可能性がある.そのための線形の多変量解析手法として正準相関分析 (CCA)と呼ばれる手法が知られている.CCA を非線形に拡張する方法としてカーネル CCAと呼ばれる手法が提案された [1]. カーネル法は,高次元写像を考えることによってアルゴリズムを複雑にすることなく非線形性を導入することができる方法論である.しかしながら,カーネル CCAでは必ずしも内在する潜在構造をうまく抽出できないことが知られていた. 高次元データ x と y のそれぞれを変換して内在する低次元構造 u を抽出したいとしよう. v = f(x) と w = g(y) の相関が高くなればそれは真の潜在構造 u になっていてほしいが,実際には u に非線形変換をほどこして情報を無駄に失ったh(u) が取り出される可能性が高い.これを防ぐために,

Figure 1: 非線形性

1E-mail: [email protected]

1

科学研究費補助金 新学術領域研究「スパースモデリングの深化と高次元データ駆動科学の創成」最終成果報告会 (2017/12/18-20)

Page 2: 高次元データの非線形スパースモデリングmns.k.u-tokyo.ac.jp/~sparse2017/pdf/10.pdf成変化解析に適用した事例を発表した[16]. 3 ダイナミカルスパースモデリング

1. 相関係数を一般化した相互情報量で評価する

2. v と w の間だけではなく,v と x, w と y の間の相互情報量も最大化することによって,できるだけ情報を失わないようにする

という 2 点を導入することによって,真の潜在構造を抽出する方法を提案した [5](Fig.2).

Figure 2: カーネル法による複数情報源からの情報抽出

そこで主要な役割を果たしたのは,データ点から相互情報量をロバストに推定する手法 [11],および,マルコフ連鎖モンテカルロ法による適応的な最適化 [6]である.相互情報量のベースとなるエントロピーの推定については,さらにモデルを精緻化した手法を開発した [10].また,適応的な最適化手法については,ベイズ変数選択法に適用した [7].

2.2 情報幾何的アプローチによる転移学習

複数の類似の学習結果を参考にして,現在のタスクの学習精度を上げるという枠組みは,転移学習やマルチタスク学習として注目されている.我々は情報幾何学の観点から,転移学習へのアプローチ法を提案した[13, 15].いま,複数の類似の学習結果として p1, p2, . . . , pk というものがあったとし,そこに現在のデータ q と

いうものが与えられたとする.p1, . . . , pk で張られる部分空間に q を射影することによって q の精度を上げると考える. ただし,p1, p2, . . . , pk および q は情報幾何学で考える確率分布の空間で表現されるとする.情報幾何で重要な概念として平坦性があり,指数型 (e: exponential) と混合型 (m: mixture)という二つの互いに双対な座標系での線形空間を考えることにより,e平坦とm平坦という 2 種類の平坦性を考えることができる.ここでは,エントロピー最大化規準を満たす e平坦性に基づいた部分空間を考え,そこへの射影を取る.

また,柔軟なモデル化を実現するために p1, p2, . . . , pk, q として経験分布をそのまま扱うノンパラメトリックな枠組みを考えた (Fig.3).情報幾何学において,射影はダイバージェンスを最小化することによって得られるが,ノンパラメトリックな設定では,ダイバージェンスの最小化が困難であるため,ダイバージェンスのみに基づく反復的な幾何学的アルゴリズムを提案した.また,ダイバージェンスの推定には前述のエントロピー推定法を用いた.この幾何学的アルゴリズムは,非負値行列分解 (NMF)に対しても有効であり [3], それを岩石の化学組

成変化解析に適用した事例を発表した [16].

3 ダイナミカルスパースモデリング

3.1 多変量時系列からのネットワーク推定

脳の多点同時計測や多くの企業の株価データなど多変量の時系列が得られた時,それらの変量の間の依存関係を知ることは重要な問題である.これまで提案されてきた手法では,以下のような問題を抱えていた.

• 擬相関の存在: 情報の伝播は直接結合しているユニットだけではなく,比較的短時間で2ステップ,3ステップと拡散的に伝わっていく.すると,直接結合がないユニット同士も相関を持ってしまうと

2

Page 3: 高次元データの非線形スパースモデリングmns.k.u-tokyo.ac.jp/~sparse2017/pdf/10.pdf成変化解析に適用した事例を発表した[16]. 3 ダイナミカルスパースモデリング

Figure 3: e-mixtureによる転移学習

いう問題がある.これは時間的な伝播であって,偏相関を取るだけでは一般には除去することはできない.

• 観測できないユニットの影響:脳の多点同時計測で計測したとしても,膨大な脳細胞のごく一部分を計測しているに過ぎない.すると,計測にかからないユニットからの影響を考慮したモデルを作らなければ正しい推定はできないと考えられる.

これらの問題を解決するため,単純な生成モデルによるモデル化によってユニット間の直接結合の推定法の構築を試みた.まず最初はネットワーク上の有効グラフラプラシアンによって拡散過程をモデル化し,観測からの逆推

論によってネットワークの構造を推定するアルゴリズムを提案した [14].この研究では,株価データを解析し,東日本大震災の前後で企業間の依存関係が変化していることを見出した.また,実際にラットの物体認識学習タスクに関して脳計測データについても適用を試みた [12].ただし,上記の研究では拡散過程なので,神経伝播で言えば興奮性シナプス結合のみが許容されていた.

そこで,抑制性の結合,すなわち負の重みをもつ結合も許容する枠組みへと発展させ,人工データでの有効性を確認した [2].

Figure 4: シェアデータからのユーザー嗜好の遷移抽出

3.2 定常分布列からの状態遷移推定

前節に述べたのと類似の問題だが,異なる応用として,マーケットシェアの時系列データから,消費者の嗜好の遷移を推定する問題を扱った [9].まず,マーケットシェアというのは比率のデータなので,確率ベクトルで表現される.ここで,二つの異なる時間スケールを考える.一つは各ユーザが企業を遷移する短い時間スケールである.個々人の買い替えは長いスパンで行われるが,多くのユーザの集団としてみれば短いタ

3

Page 4: 高次元データの非線形スパースモデリングmns.k.u-tokyo.ac.jp/~sparse2017/pdf/10.pdf成変化解析に適用した事例を発表した[16]. 3 ダイナミカルスパースモデリング

Figure 5: スロースリップイベント時空間分布のロバスト推定

イムスパンで行動しているとみなすことができる.もうひとつの時間スケールはシェアの統計を取る四半期といった比較的長い時間スケールである. ここで,前者の短い時間スケールの遷移は,後者の長い時間スケールの期間一定の遷移行列 Gt (t は四半期ごとのタイムステップ) で推移するとする. 短いスケールと長いスケールに十分開きがあれば,計測したシェアのデータは Gt の不変分布とみなせると考えられる.ただし,それだけだと不変分布(ベクトル)から Gt (行列)を求める劣決定問題となる.そこで,スパースモデリングの考え方から,Gt の変化は小さいという仮定をおき |Gt+1 −Gt| (絶対値は要素の絶対値和)を正則化項とする fused lasso の考え方を用いた推定を行う.これを実際の自動車メーカーのシェアデータに適用し,ユーザーの嗜好の遷移を抽出し(Fig. 4),いろいろな事象が起きるたびに遷移の構造が変化する様子が観察された.

3.3 スロースリップイベント時空間分布のロバスト推定

通常の地震に比べてゆっくりしたタイムスケールで起きるスロースリップイベント (SSE) は重要な地殻変動現象として注目されている.本研究では,埋め込み式歪計や傾斜計といった感度は高いが外乱要因を受けやすい測定機器から SSEの時空間分布をロバストに推定する手法を開発した.具体的には,従来 SSEのあるなしに関わらず同一のダイナミクスモデルを仮定していた NIFという枠組みに対し,断層すべりが起きる前,断層すべりが起きている期間,断層すべりが終了した期間のそれぞれでダイナミクスが変化するスイッチングモデルをあてはめた [8](Fig. 5).モデルの切り替え時点とパラメータは最尤法で推定し,その推定アルゴリズムとして EMアルゴリズムを用いた.このモデルにより,より精度の高い時空間分布が得られるのみならず,切り替え時点の推定によって SSEの期間を統計的に客観的な形で推定することが可能になった.

3.4 動的因子分析モデル推定

高次元の時空間データでは,次元圧縮が重要な役割を果たす.次元圧縮としては単純な主成分分析なども適用可能ではあるが,それではダイナミクスの構造を抽出することはできない.そこで,ダイナミクスを仮定した時空間データの新たな次元圧縮手法を開発した [4](Fig. 6).

4

Page 5: 高次元データの非線形スパースモデリングmns.k.u-tokyo.ac.jp/~sparse2017/pdf/10.pdf成変化解析に適用した事例を発表した[16]. 3 ダイナミカルスパースモデリング

Figure 6: 動的因子分析モデル

Figure 7: 連想記憶の想起パターンの構造抽出

4 構造的スパースモデリング

4.1 連想記憶モデルデータの構造抽出

自然科学や社会科学の分野においてデータを解析する場合,データに潜在する構造を仮定した上で解析を行い,データに適合するモデルパラメータの値を推定することが多い.これに対して,潜在構造をもデータから推測する問題は「モデル選択」と呼ばれて研究されている.しかし,この場合でも,データが,たとえばクラスタ形式のような特定の構造形式に従うことは依然として仮定されており,その他の構造形式との比較・選択は行われていない.この問題に対して,Kemp らは,ベイズモデル選択の枠組みに従って,異なる種類の構造形式に共通し

て用いることのできる評価指標を定式化し,複数の構造形式(Form)の中から最適な構造形式を推定するとともに,その構造形式に従う詳細な構造 (Structure) を推定できることを示した.彼らの手法は,構造形式が未知であるデータの解析に有効であると期待される.そこで,我々は,Kempらの手法の有効性を検証するために,既知の潜在構造を持つ人工データとして,連想記憶モデルを用いて生成したデータに対してKempらの手法を適用した.連想記憶モデルは理論解析によりデータの持つ潜在構造が明らかであり,パラメータの調整により,潜在構造の形式を変化させることができることが知られている.この性質を利用し,構造形式として,木構造,階層構造,クラスタ構造を持つ想起データを生成し,それらに対して Kemp らの解析手法を適用した.その結果,Fig. 7 に示すように,それぞれの温度のデータに対して適切な構造形式が選択されることが確認できた.

5 まとめ

高次元データの非線形スパースモデリングについて計画班として取り組んだ主な課題について紹介した.

5

Page 6: 高次元データの非線形スパースモデリングmns.k.u-tokyo.ac.jp/~sparse2017/pdf/10.pdf成変化解析に適用した事例を発表した[16]. 3 ダイナミカルスパースモデリング

References

[1] S Akaho. A kernel method for canonical correlation analysis. In In Proceedings of the InternationalMeeting of the Psychometric Society (IMPS2001. Citeseer, 2001.

[2] Shotaro Akaho, Sho Higuchi, Taishi Iwasaki, Hideitsu Hino, Masami Tatsuno, and Noboru Murata.Graph structure modeling for multi-neuronal spike data. In Journal of Physics: Conference Series,volume 699, page 012012. IOP Publishing, 2016.

[3] Shotaro Akaho, Hideitsu Hino, Neneka Nara, Ken Takano, and Noboru Murata. A projection al-gorithm based on the pythagorian theorem and its applications. In Information Geometry and itsApplications IV, 2016.

[4] Takamitsu Araki and Shotaro Akaho. Sparse spatial dynamic factor model with basis expansion. InThe Joint Statistical Meetings, 2016.

[5] Takamitsu Araki, Hideitsu Hino, and Shotaro Akaho. A kernel method to extract common featuresbased on mutual information. In International Conference on Neural Information Processing, pages26–34. Springer, 2014.

[6] Takamitsu Araki and Kazushi Ikeda. Adaptive markov chain monte carlo for auxiliary variablemethod and its application to parallel tempering. Neural Networks, 43:33–40, 2013.

[7] Takamitsu Araki, Kazushi Ikeda, and Shotaro Akaho. An efficient sampling algorithm with adapta-tions for bayesian variable selection. Neural Networks, 61:22–31, 2015.

[8] Takamitsu Araki, Tadafumi Ochi, Norio Matsumoto, and Shotaro Akaho. Simultaneous estimationof the spatio-temporal slip distribution and duration of the slow slip event by a switching model.Journal of Signal Processing, 21(6):297–308, 2017.

[9] Tomoaki Chiba, Hideitsu Hino, Shotaro Akaho, and Noboru Murata. Time-varying transition prob-ability matrix estimation and its application to brand share analysis. PloS one, 12(1):e0169981,2017.

[10] Hideitsu Hino, Shotaro Akaho, and Noboru Murata. An entropy estimator based on polynomialregression with poisson error structure. In Neural Information Processing - 23rd International Con-ference, ICONIP 2016, Kyoto, Japan, October 16-21, 2016, Proceedings, Part II, pages 11–19, 2016.

[11] Hideitsu Hino, Kensuke Koshijima, and Noboru Murata. Non-parametric entropy estimators basedon simple linear regression. Computational Statistics & Data Analysis, 89(0):72 – 84, 2015.

[12] Hideitsu Hino, Atsushi Noda, Masami Tatsuno, Shotaro Akaho, and Noboru Murata. An algorithmfor directed graph estimation. In International Conference on Artificial Neural Networks, pages145–152. Springer, 2014.

[13] Hideitsu Hino, Ken Takano, Shotaro Akaho, and Noboru Murata. Non-parametric e-mixture of den-sity functions. In International Conference on Neural Information Processing, pages 3–10. Springer,2016.

[14] Atsushi Noda, Hideitsu Hino, Masami Tatsuno, Shotaro Akaho, and Noboru Murata. Intrinsic graphstructure estimation using graph laplacian. Neural computation, 26(7):1455–1483, 2014.

[15] Ken Takano, Hideitsu Hino, Shotaro Akaho, and Noboru Murata. Nonparametric e-mixture estima-tion. Neural computation, 28(12):2687–2725, 2016.

[16] Kenta Yoshida, Tatsu Kuwatani, Takao Hirajima, Hikaru Iwamori, and Shotaro Akaho. Progres-sive evolution of whole-rock composition during metamorphism revealed by multivariate statisticalanalyses. Journal of Metamorphic Geology, pages n/a–n/a.

6