広島画像情報学セミナ 2011.9.16

67
多変量解析の一般化と その画像/映像認識への応用 木村 昭悟 日本電信電話() コミュニケーション科学基礎研究所 協創情報研究部 知能創発環境研究グループ

Upload: akisato-kimura

Post on 15-Jan-2015

2.020 views

Category:

Technology


0 download

DESCRIPTION

ようやく公開しました。一部スライドが削除されていますが、ご容赦ください。 (2014.5.15 全スライドを公開しました.)

TRANSCRIPT

Page 1: 広島画像情報学セミナ 2011.9.16

多変量解析の一般化と その画像/映像認識への応用

木村 昭悟 日本電信電話(株) コミュニケーション科学基礎研究所 協創情報研究部 知能創発環境研究グループ

Page 2: 広島画像情報学セミナ 2011.9.16

今日のtalk の あらまし

広島画像情報学セミナ (2011.9.16) 2

数多くの多変量解析を俯瞰する シンプル かつ コンパクトな表現を示します 【標準的手法】 PCA,判別分析,線形回帰,CCA etc.

【局所性導入】 MDS,局所性保存射影 etc.

【正則化】 L2ノルム正則化,graph Laplacian etc.

【カーネル導入】 カーネルPCA,normalized cuts etc.

【半教師化】 SELF,SemiCCA etc.

Designing various analysis at will !! データマイニングの実施者が,それぞれの目的に 応じたテーラーメードな解析手法を設計できる.

Page 3: 広島画像情報学セミナ 2011.9.16

もくじ

広島画像情報学セミナ (2011.9.16) 3

1. 多変量解析とは? 2. 多変量解析の一般化 3. 新しい解析手法の作り方 4. 画像/音楽/映像認識への応用 5. まとめ

Page 4: 広島画像情報学セミナ 2011.9.16

もくじ

広島画像情報学セミナ (2011.9.16) 4

1. 多変量解析とは? まずは直感的な理解を どういう使い道があるの? 本発表で取り扱う多変量解析の範囲

2. 多変量解析の一般化 3. 新しい解析手法の作り方 4. 画像/音楽/映像認識への応用 5. まとめ

Page 5: 広島画像情報学セミナ 2011.9.16

多変量解析とは? in ja.wikipedia.org

広島画像情報学セミナ (2011.9.16) 5

何が言いたいのか さっぱりわかりません orz

Page 6: 広島画像情報学セミナ 2011.9.16

多変量解析とは? in www.macromill.com

広島画像情報学セミナ (2011.9.16) 6

わかりやすいですね

Page 7: 広島画像情報学セミナ 2011.9.16

代表的な多変量解析手法

広島画像情報学セミナ (2011.9.16) 7

「予測」型 回帰分析 (MLR): 複数の数量から別の数量を予測

判別分析 (FDA): 複数の変量から変量の分類を予測

「要約」型 主成分分析 (PCA): 多量の数量を要約した数量を導出

多次元尺度構成法 (MDS): 個体間距離を要約した数量群を導出

Page 8: 広島画像情報学セミナ 2011.9.16

パターン認識で多変量解析を使う

広島画像情報学セミナ (2011.9.16) 8

多次元尺度構成法(の拡張)で低次元埋め込み 実際にはISOMAPを使っています.

Page 9: 広島画像情報学セミナ 2011.9.16

パターン認識で多変量解析を使う

広島画像情報学セミナ (2011.9.16) 9

判別分析で文字認識 筋電データから実際に筆記した文字を認識

Linderman+ “Recognition of Handwriting from Electromyography,” PLoS One, 2009

Page 10: 広島画像情報学セミナ 2011.9.16

Computer visionで多変量解析を使う

広島画像情報学セミナ (2011.9.16) 10

奥行きの推定に回帰分析 画像特徴量と奥行きとの関係を回帰分析で推定

Saxena+ “Learning Depth from Single Monocular Images,” Proc. NIPS2005

Page 11: 広島画像情報学セミナ 2011.9.16

まずは主成分分析 (PCA) から

広島画像情報学セミナ (2011.9.16) 11

多次元ベクトルとして表現される多数のサンプルから, それらの分散が大きくなる正規直交軸を見つける手法.

サンプルが多次元ガウス分布に従うときは非常に有効 そうでないときも、サンプル表現に寄与しない成分を捨てる 目的で使用されることが多い。

Page 12: 広島画像情報学セミナ 2011.9.16

PCAの定式化 1

広島画像情報学セミナ (2011.9.16) 12

多次元ベクトルのサンプル 簡単のため,以降はサンプル平均=0を仮定.

射影後の分散が最大になる基底 を求める

共分散行列

射影後の分散

Page 13: 広島画像情報学セミナ 2011.9.16

PCAの定式化 2

広島画像情報学セミナ (2011.9.16) 13

各基底が単位ベクトルとなるように正規化

Lagrange未定定数法で問題を書き直す

基底での微分 = 0 とすると

共分散行列の固有値問題を解けば良い!

Page 14: 広島画像情報学セミナ 2011.9.16

PCAにおける基底の選択

広島画像情報学セミナ (2011.9.16) 14

PCAの目的関数に固有値問題の解を代入…

固有値=射影後のサンプルの分散 → 固有値が大きい順に固有ベクトルを選択

寄与率: 基底が表現できるサンプルの分散 (第 i 番目の基底の寄与率)

(第 i 番目までの基底の累積寄与率)

Page 15: 広島画像情報学セミナ 2011.9.16

次は判別分析 (FDA) について

広島画像情報学セミナ (2011.9.16) 15

多次元ベクトルとそのカテゴリで表現される 多数のサンプルから,カテゴリをよりよく分類する (正規直交ではないかもしれない)軸を見つける方法

各カテゴリのサンプルの平均を結ぶ軸 判別分析で見つけた軸

Page 16: 広島画像情報学セミナ 2011.9.16

FDAの定式化 1

広島画像情報学セミナ (2011.9.16) 16

カテゴリ内分散を小さく, カテゴリ間分散を大きくする基底を求めたい

カテゴリ間共分散行列

カテゴリ内共分散行列

Page 17: 広島画像情報学セミナ 2011.9.16

FDAの定式化 2

広島画像情報学セミナ (2011.9.16) 17

カテゴリ内共分散を単位化するように正規化 要するに,目的関数の分母を1にしたい.

Lagrange未定乗数法で問題を書き直す.

基底での微分 = 0 とすると

一般化固有値問題を解けば良い!

Page 18: 広島画像情報学セミナ 2011.9.16

一般化レイリー商で表現される多変量解析

一般化固有値問題で表現される多変量解析

本発表で扱う多変量解析 の定式化

広島画像情報学セミナ (2011.9.16) 18

ラグランジュ 未定乗数法

強調したい 抑制したい

Page 19: 広島画像情報学セミナ 2011.9.16

この枠組に含まれる多変量解析 1

広島画像情報学セミナ (2011.9.16) 19

標準的な手法 主成分分析 (PCA) 線形判別分析 (FDA) 線形回帰分析 (MLR) [参考] MIRU2011予稿

正準相関分析 (CCA) [参考] MIRU2011予稿

局所性を重視した手法 局所性保存射影 (LPP) [He+ NIPS2003]

局所線形判別分析 (LFDA) [Sugiyama JMLR2007]

Page 20: 広島画像情報学セミナ 2011.9.16

この枠組に含まれる多変量解析 2

広島画像情報学セミナ (2011.9.16) 20

カーネル化すると… カーネルhogehoge (hogehoge=標準的手法) クラスタリング系 Kernel k-means [Zha+ NIPS2011]

Normalized cuts [Shi+ PAMI2001]

Spectral clustering [Yu+ NIPS2002]

低次元埋め込み系 ISOMAP [Tenenbaum+ Science 2000]

Locally linear embedding [Saul+ Science 2000]

Laplacian eigenmap [Belkin+ NIPS2002]

Page 21: 広島画像情報学セミナ 2011.9.16

もくじ

広島画像情報学セミナ (2011.9.16) 21

1. 多変量解析とは? 2. 多変量解析の一般化 一般化の必要性: 新しい解析を簡単に作りたい どうやって一般化するの?

3. 新しい解析手法の作り方 4. 画像/音楽/映像認識への応用 5. まとめ

Page 22: 広島画像情報学セミナ 2011.9.16

これまで述べたこと

広島画像情報学セミナ (2011.9.16) 22

行列 を使うことで, 多変量解析が以下の形式で記述できます.

一般化固有値問題

Page 23: 広島画像情報学セミナ 2011.9.16

これまで述べたこと

広島画像情報学セミナ (2011.9.16) 23

行列 を使うことで, 多変量解析が以下の形式で記述できます. 射影軸が2本の場合には,以下のようになります.

Page 24: 広島画像情報学セミナ 2011.9.16

これから述べたいこと

広島画像情報学セミナ (2011.9.16) 24

行列 を 拡張ペアワイズ表現 で書くと, 多変量解析の一般的枠組が作れます.

データ依存項 データ独立項 拡張ペアワイズ表現

Page 25: 広島画像情報学セミナ 2011.9.16

一般化すると何がうれしいの?

広島画像情報学セミナ (2011.9.16) 25

新しい手法がざくざく作れる 行列を足すだけで良い.楽ちん. 特殊な場合には,行列のかけ算もできる.

各項の果たす役割が明確になる サンプル間の類似性をどのように考慮するか? どのような正則化を行うか?

Page 26: 広島画像情報学セミナ 2011.9.16

相互共分散行列 (平均=0 を仮定)

共分散行列は相互共分散行列の特殊例

サンプル間類似性を考慮した2次統計量

: 相互共分散行列と一致

共分散行列とその拡張

広島画像情報学セミナ (2011.9.16) 26

Page 27: 広島画像情報学セミナ 2011.9.16

サンプル間類似性を考慮した2次統計量

2次統計量のペアワイズ表現 [Sugiyama+ 2010]

ペアワイズ表現 (PE)

広島画像情報学セミナ (2011.9.16) 27

和の中の積を展開

【注】 詳細な導出は 「Masashi Sugiyama SELF」 で検索!

Page 28: 広島画像情報学セミナ 2011.9.16

ペアワイズ表現の自然な拡張

形式上は類似度行列を意識する必要はない

上記の表現を, 2次統計量の拡張ペアワイズ表現 と呼ぶ.

拡張ペアワイズ表現 (EPE)

広島画像情報学セミナ (2011.9.16) 28

Qに独立な項を導入

データ依存項 データ独立項

Page 29: 広島画像情報学セミナ 2011.9.16

標準的手法の拡張ペアワイズ表現

広島画像情報学セミナ (2011.9.16) 29

主成分分析 (PCA)

線形回帰分析 (MLR)

正準相関分析 (CCA)

データ依存項の典型例

データ独立項の典型例

Page 30: 広島画像情報学セミナ 2011.9.16

データ依存項が持つ意味

広島画像情報学セミナ (2011.9.16) 30

サンプル間類似性をどう評価するか? を決定 類似度行列を明示的に設定する必要はない

既存手法では,類似度行列を明示的に設定 例: 局所性保存射影 (LPP) [He,Niyogi 2004]

類似度: 近くはより近くに,遠くはより遠くに

Page 31: 広島画像情報学セミナ 2011.9.16

データ独立項が持つ意味

広島画像情報学セミナ (2011.9.16) 31

正則化を取り込むことが主要な目的 例: リッジ回帰 (MLR with L2ノルム正則化)

MLRと異なるのは ここだけ!

Page 32: 広島画像情報学セミナ 2011.9.16

もくじ

広島画像情報学セミナ (2011.9.16) 32

1. 多変量解析とは? 2. 多変量解析の一般化 3. 新しい解析手法の作り方 簡単です.行列を足すだけですから… 半教師付き解析も簡単にできます. 試しに,今までになかった解析を作ってみます.

4. 画像/音楽/映像認識への応用 5. まとめ

Page 33: 広島画像情報学セミナ 2011.9.16

新しい解析手法の作り方

広島画像情報学セミナ (2011.9.16) 33

既存の2次統計量を重み付き加算するだけで, 所望の性質を持つ多変量解析を作れる!

例: SELF (半教師付き局所線形判別分析)

LFDA

PCA

Page 34: 広島画像情報学セミナ 2011.9.16

新しい解析手法の作り方

広島画像情報学セミナ (2011.9.16) 34

既存の2次統計量を重み付き加算するだけで, 所望の性質を持つ多変量解析を作れる!

例: SELF (半教師付き局所線形判別分析)

LFDA

PCA

2次統計量の和 ⇒ 拡張ペアワイズ表現の和!!

Page 35: 広島画像情報学セミナ 2011.9.16

半教師付き学習への拡張

広島画像情報学セミナ (2011.9.16) 35

各統計量を計算する母集団を操作することで半教師付き学習への拡張が容易に!

例: SELF ラベル付きデータだけから計算

ラベルなしデータも含めて計算

ラベルなしデータに対応する要素が全て0

Page 36: 広島画像情報学セミナ 2011.9.16

しかし,よく考えてみると

広島画像情報学セミナ (2011.9.16) 36

ペアワイズ表現を用いなくても 新しい手法が作れているような… 実は何の意味もない…?

…そんなことはありません!

カーネル法を導入すると, ペアワイズ表現が不可避になります! (詳細は省略します… [MIRU2011予稿])

Page 37: 広島画像情報学セミナ 2011.9.16

例えば,で作ってみた手法 1

広島画像情報学セミナ (2011.9.16) 37

半教師付き正準相関分析 SemiCCA [ICPR2010]

SELFではできなかった マルチラベル分類への半教師付き学習を実現

XだけあってYがない,という場合だけでなく, YだけあってXがない,という場合も同様に扱える

↑CCA (supervised)

↑PCA (unsupervised)

Page 38: 広島画像情報学セミナ 2011.9.16

例えば,で作ってみた手法 2

広島画像情報学セミナ (2011.9.16) 38

正準相関分析 + 線形判別分析 クラスラベル付きの多次元ベクトル対(x, y)を対象 例: 画像 = x, 音声 = y, ラベル = c ⇒ 映像認識・検索

クラスごとに異なる相関関係も抽出可能

↑CCA (unsupervised)

↑FDA (supervised)

Page 39: 広島画像情報学セミナ 2011.9.16

実験

広島画像情報学セミナ (2011.9.16) 39

MIT-CBCL顔データの低次元埋め込み 下照明 (6方向: 0,15,…,90)

横照明 (6方向 0,15,…90)

顔向き (9方向: 0,4,…,24)

人物(10人)

・ サンプル数 = 3240枚 (10人×6下方向×6横方向×9顔向き) ・ クラス = 人物 ・ 特徴 X = 画像 (32×32 pixs)

・ 補助情報 Y = 照明情報・顔向き(3次元)

Page 40: 広島画像情報学セミナ 2011.9.16

実験結果: FDA

広島画像情報学セミナ (2011.9.16) 40

Page 41: 広島画像情報学セミナ 2011.9.16

実験結果: CCA

広島画像情報学セミナ (2011.9.16) 41

Page 42: 広島画像情報学セミナ 2011.9.16

実験結果: CCA+FDA

広島画像情報学セミナ (2011.9.16) 42

CCA/FDA両者の特性を併せ持つ 解析を簡易に実現!

クラス分離

暗い

明るい

暗い

明るい

Page 43: 広島画像情報学セミナ 2011.9.16

もくじ

広島画像情報学セミナ (2011.9.16) 43

1. 多変量解析とは? 2. 多変量解析の一般化 3. 新しい解析手法の作り方 4. 画像/音楽/映像認識への応用 一般物体認識への応用 音楽の自動アノテーションへの応用

5. まとめ

Page 44: 広島画像情報学セミナ 2011.9.16

画像認識検索って何? 画像認識と画像検索を統一的な枠組で解こう 画像認識: クエリ=画像、 出力=入力を説明するラベル 画像検索: クエリ=ラベル、 出力=入力に適合する画像

緑 川 蛇行 草原 湿原 釧路

画像認識

画像検索

44 広島画像情報学セミナ (2011.9.16)

Page 45: 広島画像情報学セミナ 2011.9.16

普通はどうやってるの? 識別的なアプローチが圧倒的に多く、性能も良い

[Lavrenko 2003][Grauman 2005][Bosch 2007]

ラベルごとに識別器(SVMなど)を設計

ラベル間の共起関係を考慮することが難しい 一緒に出やすい/出にくいラベルの組み合わせがある

45 広島画像情報学セミナ (2011.9.16)

緑 川 蛇行 草原 湿原 釧路

Yes

Yes

Yes

Yes

Yes

Yes

Yes

Yes

Yes

Page 46: 広島画像情報学セミナ 2011.9.16

生成的アプローチ: トピックモデル 右図で描かれる統計モデルの総称

代表例 (p)LSA, Translation model

NLP: [Landauer 1988] [Hofmann 1999] CV/PR: [Barnard 2001] [Sivic 2005]

LDA NLP: [Blei 2003] CV/PR: [Li 2005]

メリット ラベルの共起関係を陽に記述できる 認識も検索も事後確率最大化として書ける 複数種特徴への拡張が容易: 認識検索 特徴量推定

Z

X Y

トピック

ラベル特徴 画像特徴

46 広島画像情報学セミナ (2011.9.16)

Page 47: 広島画像情報学セミナ 2011.9.16

画像認識・検索における共通の悩み 統制の取れたラベル付画像の大量収集は困難 一般的な画像検索/一般物体認識ベンチマークは 画像数=1万枚程度がせいぜい 量が不足

画像共有サイト・検索サイト等で回収した画像には 当てにならないラベルがたくさんついている 質が不足

教師付き学習だけでは、いずれ性能限界に直面。

47 広島画像情報学セミナ (2011.9.16)

Image examples from Flickr.com

コンテンツに無関係

存在するのにラベルがない

コンテンツに 存在しないラベル

Page 48: 広島画像情報学セミナ 2011.9.16

提案手法 SSCDE のポイント

広島画像情報学セミナ (2011.9.16) 48

トピックモデルの半教師付き学習法です

非常に簡単に使えます 学習: 固有値問題 + 行列の積和演算の繰返し 認識・検索: 近傍探索 + 特徴量変換

故に計算も非常に高速です 学習: (N = 学習サンプル数) 認識・検索:

Ad-hocな方法ではありません 半教師付き学習法として理に適った方法になっています

Page 49: 広島画像情報学セミナ 2011.9.16

モデル学習 (前半)

広島画像情報学セミナ (2011.9.16) 49

1. 特徴量抽出 (画像・テキスト) 2. 正準相関分析で潜在変数空間を形成

3. 画像特徴・テキスト特徴を潜在変数空間に射影、 画像の「トピック」(=潜在変数)を生成。

半教師付き正準相関分析 SemiCCA (第1のポイント)

(Baseline: [中山 MIRU2009])

Image ID 1 2 3 4 5 Airplane 0 1 0 0 0 Bottle 1 0 0 0 1 Cat 0 0 0 1 0 Cup 1 0 0 0 0 Computer 0 0 0 0 1 Dog 0 0 0 1 0 Person 1 1 0 0 0 Train 0 0 1 0 0

Person Bottle Cup

Airplane Person

Train Dog Cat

Computer Bottle Dataset テキスト

ラベル

学習画像

ラベルなし画像

テキスト特徴

画像特徴

潜在変数 SemiCCA

2 3

Page 50: 広島画像情報学セミナ 2011.9.16

モデル学習 (後半)

広島画像情報学セミナ (2011.9.16) 50

4. 画像-潜在変数モデル生成 (カーネル密度推定)

5. 言語-潜在変数モデル生成 (サンプルベースで決定)

6. トピックモデル完成 半教師付きカーネル密度推定 SSKDE (第2のポイント)

Image ID 1 2 3 4 5 Airplane 0 1 0 0 0 Bottle 1 0 0 0 1 Cat 0 0 0 1 0 Cup 1 0 0 0 0 Computer 0 0 0 0 1 Dog 0 0 0 1 0 Person 1 1 0 0 0 Train 0 0 1 0 0

テキスト特徴 潜在変数

Latent Airplane 0.005 0.005 0.005 0.9 0.005 0.005 0.005 0.005 0.9

Bottle 0.9 0.01 0.01 0.01 0.9 0.01 0.9 0.9 0.01

Cat 0.005 0.9 0.005 0.005 0.005 0.005 0.005 0.005 0.005

Cup 0 0.005 0.005 0.005 0.9 0.005 0.9 0 0.005

Computer 0.9 0.005 0.005 0.005 0.005 0.005 0.005 0.9 0.005

Dog 0.005 0.9 0.005 0.005 0.005 0.005 0.005 0.005 0.005

Person 0.06 0.06 0.06 0.9 0.9 0.06 0.9 0.06 0.9

Train 0.005 0.005 0.9 0.005 0.005 0.9 0.005 0.005 0.005

画像-潜在変数モデル

画像-潜在変数モデル

SSKDE

Page 51: 広島画像情報学セミナ 2011.9.16

認識: 与えられた画像 → 適合するラベル

検索: 類似の考え方で実行可能 (省略)

認識・検索

広島画像情報学セミナ (2011.9.16) 51

と との近さをパラメータとする カーネルで重み付け

を観測特徴と見なした ときのラベル の事後確率

実数空間での最適化に緩和、

Page 52: 広島画像情報学セミナ 2011.9.16

提案手法 SSCDE の構成

広島画像情報学セミナ (2011.9.16) 52

SSCDE = SemiCCA + multi-label SSKDE

SemiCCA (線形)潜在変数空間を半教師付き学習で求める 画像とラベルとの共起関係を大まかに求める 計算: 固有値問題を解く

Multi-label SSKDE 潜在変数内の(非線形)構造を半教師付き学習で求める 画像とラベルがなす複雑な共起関係を事例ベースで表現 計算: 行列積和の反復

Page 53: 広島画像情報学セミナ 2011.9.16

第1ポイント: SemiCCA

広島画像情報学セミナ (2011.9.16) 53

ラベルなし画像も使えるようにしよう! ラベル付き画像 のみ用いたCCA

ラベルなし画像も用いたPCA

[木村 IBIS2009]

ラベル付き画像 ラベルなし画像 非観測のラベル

ラベル付き画像の正準相関軸

データの本来の正準相関軸

SemiCCAで得る正準相関軸

Page 54: 広島画像情報学セミナ 2011.9.16

潜在変数空間の設計だけでは不十分!

広島画像情報学セミナ (2011.9.16) 54

ラベルがなくても潜在変数は確かに計算できる。 しかし…

ラベルなしサンプルが使えない → 学習サンプル数が不足 → カーネル密度推定の精度に悪影響を及ぼす

ラベル-潜在変数モデル にもラベルなし画像の情報を組み込みたい!!

ラベルなし画像に対応する潜在変数 から ラベル-潜在変数モデルを計算できない!!

Page 55: 広島画像情報学セミナ 2011.9.16

第2ポイント: Multi-label SSKDE

広島画像情報学セミナ (2011.9.16) 55

潜在変数空間内でラベル伝播をしよう! 初期状態

ラベル修正

教師情報を信頼して補正

ラベル付きサンプル

ラベルなしサンプル

ラベル伝播

サンプル間 隣接行列

ラベル情報

Page 56: 広島画像情報学セミナ 2011.9.16

記憶容量が減る! SSKDE = graph spectral method! [Joachims 2003]

同様の考え方を認識・検索にも 認識・検索の問題が、 潜在変数空間内の近傍探索の問題に! → 高速動作可能

隣接行列をスパースにしてみよう

広島画像情報学セミナ (2011.9.16) 56

近傍3サンプルとエッジで連結

の近傍にある 学習済の潜在変数だけを考慮する

入力画像の潜在変数

Page 57: 広島画像情報学セミナ 2011.9.16

実験条件

広島画像情報学セミナ (2011.9.16) 57

データセット: PASCAL VOC2008,2009 学習用画像 一般物体認識用の標準的なベンチマーク 20種類の物体のいずれか1つ以上を含む画像からなる 物体の存在位置を示す教師情報は利用しない

評価条件 ラベル付き学習用画像: VOC2008 から 1000枚 ラベルなし学習用画像:

VOC2008 から 3596枚、VOC2009 から 2722枚 = 6318枚 評価用画像: VOC2008 から 500枚

Page 58: 広島画像情報学セミナ 2011.9.16

実験結果

広島画像情報学セミナ (2011.9.16) 58

Precision-recall曲線

・ ラベル付き画像だけでは高い精度が得られない ・ ラベルなし画像をフル活用することで高精度を達成

Page 59: 広島画像情報学セミナ 2011.9.16

音響信号自動タグ付け・検索

自動タグ付け 検索

自分でタグ付け するのは面倒!

ショパン ピアノ クラシック …

魂にぐっとくる ソウルフルな ロックが聞きたいな♪

この音楽が いいよ!

59

テキストタグ 音響信号 テキストクエリ 音響信号

広島画像情報学セミナ (2011.9.16)

Page 60: 広島画像情報学セミナ 2011.9.16

音響特徴抽出

MFCC: メル周波数ケプストラム係数

特徴:音色情報を含んでいる!

60

0 50 100 150 200 250

スペクトル

0 50 100 150 200 250

包絡成分 短時間フレームの波形

FFTなど

メルスケール上のフィルタバンク分析 DCT変換など

今回使うMFCC

広島画像情報学セミナ (2011.9.16)

Page 61: 広島画像情報学セミナ 2011.9.16

音響特徴抽出 音響信号を短いフレームに分割 各フレームからMFCC、ΔMFCC、ΔΔMFCCを抽出

61

・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・ x 1 x 2 x 3 x a・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・

一つの音響信号から大量の特徴ベクトルが抽出される

SSCDEでは一つの音響信号は一つの特徴ベクトルで表わされる必要がある

(合計39次元,Δ成分は微分量を線形回帰係数で近似した。)

広島画像情報学セミナ (2011.9.16)

Page 62: 広島画像情報学セミナ 2011.9.16

音響信号のヒストグラム特徴 Bag-of-features特徴 短時間の特徴ベクトルをベクトル量子化し、 ヒストグラムを作成する。

62

音響1

音響2

音響3

ヒストグラム作成

音響信号全体の 特徴を表す

(※時間情報は使わない) 音響1 音響2 音響3

x 11 x 1

2; x 1i 1

x 2i 2

x 22; x 3

2; x 3i 3x 3

1 … … x 21 …

広島画像情報学セミナ (2011.9.16)

Page 63: 広島画像情報学セミナ 2011.9.16

実験条件 データセット: Freesoundの音響信号 音楽素材の無料共有サイト (http://www.freesound.org/)

フィールドレコーディングなどの短い音響信号が多い 多量のタグ付き音響信号が存在する

評価条件 データ形式等が同じファイル2012個を使用 タグ付き音響信号:1000個 タグ無し音響信号: 912個 評価用音響信号: 100個 タグ:付いている音響信号が多いものから230種類

63 広島画像情報学セミナ (2011.9.16)

Page 64: 広島画像情報学セミナ 2011.9.16

実験結果:教師付き学習との比較

64

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

0.5

0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6

Pre

cis

ion

Recall

最大F値: SSCDE: 0.345 SemiCCA: 0.310 CCA: 0.287

CCA

SSCDE

SemiCCA

SemiCCAのみ行うとここまでの性能向上

SSKDEを行うとさらに ここまで精度が上がる

広島画像情報学セミナ (2011.9.16)

Page 65: 広島画像情報学セミナ 2011.9.16

実験結果:既存手法との比較

65

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

0.5

0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6

Pre

cis

ion

Recall

SSCDEはタグ付き音響信号が約半分でも、 既存手法と同等の精度を達成している!

SSCDE

H-GMM(N=1912) 最大F値: SSCDE: 0.345 H-GMM: 0.344

注: 既存手法(H-GMM)は完全教師付き学習

広島画像情報学セミナ (2011.9.16)

Page 66: 広島画像情報学セミナ 2011.9.16

もくじ

広島画像情報学セミナ (2011.9.16) 66

1. 多変量解析とは? 2. 多変量解析の一般化 3. 新しい解析手法の作り方 4. 画像/音楽/映像認識への応用 5. まとめ

Page 67: 広島画像情報学セミナ 2011.9.16

まとめ

広島画像情報学セミナ (2011.9.16) 67

2次統計量を拡張ペアワイズ表現を用いて 表現することで,多変量解析を俯瞰できます.

簡単に所望の性質を持つ多変量解析を実現 2次統計量の重み付き加算 統計量計算のための母集団の操作 (それ以外の方法でももちろんOKです)

データ依存項 データ独立項 拡張ペアワイズ表現