データ空間の解析と学習 - di.mi.uec.ac.jp · deep learning deep...

25
株式会社富士通研究所 知識情報処理研究所人工知能研究センター 梅田 裕平 データ空間の解析と学習 Coryright 2017 FUJITSU LABORATORIES LTD. 1回設計情報駆動研究会@葉山 湘洋閣 2017/3/5

Upload: others

Post on 18-Aug-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

株式会社富士通研究所知識情報処理研究所人工知能研究センター梅田裕平

データ空間の解析と学習

Coryright 2017 FUJITSU LABORATORIES LTD.

第1回設計情報駆動研究会@葉山湘洋閣2017/3/5

人・企業・社会センシング アクチュエーション

知覚・認識

画像処理

音声処理

感情・状況認識

知識化

自然言語処理

知識処理・発見

パターン発見

判断・支援

推論、計画

予測、最適化

対話、推薦

先端研究

社会受容性 シミュレーション脳科学

学習 機械学習 強化学習Deep Learning

Coryright 2017 FUJITSU LABORATORIES LTD.

Zinrai: 富士通が保有するAI技術を体系化

1

人工知能といっても

対象となるのは・・・

結局はデータ処理⇒データについて見直してみよう

まずは教師ありの機械学習を対象として見直してみます

Coryright 2017 FUJITSU LABORATORIES LTD.2

データ空間

Coryright 2017 FUJITSU LABORATORIES LTD.

分類したいデータの空間Ex.:画像

データを構成するデータの空間Ex.:各ピクセルの値

圏対象

3

データ空間

Coryright 2017 FUJITSU LABORATORIES LTD.

分類したいデータの空間Ex.:画像

データを構成するデータの空間Ex.:各ピクセルの値

圏対象

まずはこちらの話

4

統計的データ解析

平均・分散

データ空間が距離空間であることが前提となっている

Coryright 2017 FUJITSU LABORATORIES LTD.5

距離とは

距離の定義

2点x,y,zに対して

正定値性:

非退化性:

対称性 :

三角不等式:

Coryright 2017 FUJITSU LABORATORIES LTD.6

データ空間は距離空間なのか?

たとえば時系列データ

よく使われる距離:DTW(=Dynamic Time Warping)

DTWは一方の時系列から見た,その他の時系列の類似度⇒順番があり,対称性がない

三角不等式が成り立たない例は多く存在

正定値・非退化性のみ・・・

Coryright 2017 FUJITSU LABORATORIES LTD.

DTW

• 2系列の点の対応の距離の合計で最小となるもの

• 時間方向のサイズや位相のずれを吸収して計測できる

距離空間が前提にある統計解析は使ってはいけない!

7

距離とは

距離の定義

2点x,y,zに対して

正定値性:

非退化性:

対称性 :

三角不等式:

正定値/非退化性程度の仮定でやれるのか?

coarse幾何学

Coryright 2017 FUJITSU LABORATORIES LTD.

満たさないデータは数多い

8

距離空間と機械学習

機械学習はデータ空間が距離空間が前提

SVM

決定木/ランダムフォレスト

Coryright 2017 FUJITSU LABORATORIES LTD.

サポートベクターからの距離の中間に直線を引く⇒距離空間であることが必要

データがラベルに従って分離し固まっている⇒距離空間であることが必要

9

距離空間でない場合

最近傍法・k-Nearest Neighbor

ただし,データ間の距離が大きくなると,問題が出てくる

Coryright 2017 FUJITSU LABORATORIES LTD.

一番近いデータと同じラベルにする

正定値性・(弱い)非退化性だけで成立する

10

Deep Learning

Deep Learningは特徴量を自動抽出するというけれど・・・

Coryright 2017 FUJITSU LABORATORIES LTD.

例えばSVMは Deep Learningは

例:交差エントロピー

正解ラベル

データの距離空間で目的関数を定義

ラベル空間で目的関数を定義

データ空間の距離を考えるのではなく,汎用的なラベル空間の距離を使っているのがポイント

11

Deep Learningならいいのか?

何でDeep Learningがうまくいった例は画像くらいなのか?

Convolutional Neural Networkがはまっただけ?

仮説

少し回転/拡大縮小/平行移動はあるけど,同じ種類のデータ自体だいたい同じような位置に同じ形がある→実際に画像はDLの前にうまくクリッピングする必要がある!

入力データにもある程度基準がそろっている必要はあるということでは?→DLもある種の数理モデルである以上,基準が必要

Coryright 2017 FUJITSU LABORATORIES LTD.12

データ空間

Coryright 2017 FUJITSU LABORATORIES LTD.

分類したいデータの空間Ex.:画像

データを構成するデータの空間Ex.:各ピクセルの値

圏対象

つまりこちらの話

13

データの基準をどうそろえるのか?

1つのデータの中にある情報の基準をそろえる方法は?

キーとなるいくつかの点をそろえることが多いのでは?

•画像であれば対象がきれいに入るように四隅を決定

•スマホを見比べるとき画面が正面を向くように・・・

基準をそろえる方法として,特徴的な”形”をそろえることでうまく比べられることが多い→データの”形”を見ることができればうまくいくかも→“幾何学”を利用する

Coryright 2017 FUJITSU LABORATORIES LTD.

Shape of DATA

14

Shape of Data

近年一部で流行しているTopological Data Analysis

位相幾何学の手法を利用してデータの形状を把握

位相幾何学の手法だけでなく微分幾何学の手法も使えるはず

Coryright 2017 FUJITSU LABORATORIES LTD.15

時系列データの学習

Coryright 2017 FUJITSU LABORATORIES LTD.16

「時系列データ」の種類と対象とする領域

ある対象の時間変化•画像の時間変化≒動画

•文字・単語の時間変化≒自然言語(文章など)

値の時間変化

動きの軌跡

•文字を書く際のペンの位置の変化

•目的地までの移動経路

•音声

ある自然法則などルールに基づく変化

•心拍・脈拍・血圧などの生体データ

•ジャイロセンサーなど各種センサーデータ

•環境センサー(震度計など)

•株価など経済指標

Coryright 2017 FUJITSU LABORATORIES LTD.

50

70

90

110

1

16

31

46

61

76

91

106

121

136

心拍数

今回の技術の対象領域

17

時系列解析

時系列データの生のデータは基準がそろっていない

位相ずれが存在

ベクトルとして違うように見えても,同じものとして認識しなければならない

画像でいえば…

Coryright 2017 FUJITSU LABORATORIES LTD.

1 2 1 0 1 2 1 0 1 2

2 1 2 1 0 1 2 1 0 1

位相が1

ずれている

この2つを同じものと認識する必要があるということと同じ.画像のDLでもまだ困難

「基準」が必要

18

開発した技術

力学系理論と位相幾何学の概念を活用し,時系列データの幾何学的な特徴を抽出することで時系列データを高度に分類

Coryright 2017 FUJITSU LABORATORIES LTD.

ルールを基準とする

19

グラフデータの学習

Coryright 2017 FUJITSU LABORATORIES LTD.20

「グラフ」データとは

Coryright 2017 FUJITSU LABORATORIES LTD.

棒グラフ、折れ線グラフ… 数学のグラフ理論の「グラフ」

「頂点」と「辺」の集合

人、モノ、コトのつながりを抽象的に表現したもの(関係を表現)

頂点 辺

21

Deep Learningはグラフの入力が困難

Coryright 2017 FUJITSU LABORATORIES LTD.

1

0

1

0

0

1

0

1

0 1 1 1 1 0

1 0 0 0 0 1

1 1 1 1 1 1

1 0 1 1 0 1

1 1 1 1 1 1

0 1 0 0 1 0

0 1 0 1 0 0

1 0 1 1 0 0

0 1 0 0 1 1

1 1 0 0 0 0

0 0 1 0 0 0

0 0 1 0 0 0

0 0 1 0 1 1

0 0 1 0 0 0

1 1 0 1 0 0

0 0 1 0 0 0

1 0 0 0 0 1

1 0 0 0 1 0

座標番号の振り方で結果が異なる

画像データ

グラフデータ

3

61

5

2

4

3

46

2

1

5

入力

入力

入力

座標番号の振り方が数多く存在

画素の座標番号は固定

3

6

1

5

2

4

3

6

1

5

2

4

3 61 52 4

3 61 52 4

1

2

3

4

5

6

1 2 3 4 5 60

1

1

1

(1,1)

(1,2)

(1,3)

(1,4)

21

31

41

51

21

31

41

51

… … …

ノード数が10なら362万通りノード数が100なら9×10157通り

22

グラフデータの学習:新技術「Deep Tensor」

Coryright 2017 FUJITSU LABORATORIES LTD.

【独自技術1】構造マッピング技術

グラフ全体構造を含んだ統一的表現テンソル表現

グラフデータを直接入力し、自動で特徴を抽出する新技術

従来の誤差逆伝搬法拡張誤差逆伝搬法

【独自技術2】コアテンソル学習技術

23

24 Copyright 2010 FUJITSU LIMITED