現代工学基礎Ⅰ 物理情報システム工学saruwatari/...independent component analysis,...
TRANSCRIPT
現代工学基礎Ⅰ
物理情報システム工学 工学部 計数工学科
猿渡 洋,妹尾 拓,近藤正章
情報理解と実世界インテリジェントシステムへの応用(2)
猿渡 洋:計測工学と信号処理の基礎:
講義資料と成績評価
講義資料
http://www.sp.ipc.i.u-tokyo.ac.jp/~saruwatari/
※計数工学科/情報理工学系研究科・システム情報第一研究室(猿渡研)からたどれるようにしておきます
成績評価
レポート課題
出席
日程
• 9/26 ガイダンス 担当:猿渡、近藤、妹尾
• 10/3 休講
• 10/10 計測工学と信号処理の基礎:情報理解と実世界インテリジェント システムへの応用(1) 担当:猿渡
• 10/17 計測工学と信号処理の基礎:情報理解と実世界インテリジェント システムへの応用(2) 担当:猿渡
• 10/24 計測工学と信号処理の基礎:情報理解と実世界インテリジェント システムへの応用(3) 担当:猿渡
• 11/ 1 制御工学の基礎:横断的制御理論とロボット制御への応用(1) 担当:妹尾
• (11/7 10/9↓へ振り替え)
• 11/ 9(金) 本郷研究室見学 (夕方~ 駒場5限後でも参加可能)
日程
• 11/21 制御工学の基礎:横断的制御理論とロボット制御への応用(2) 担当:妹尾
• 11/28 制御工学の基礎:横断的制御理論とロボット制御への応用(3) 担当:妹尾
• 12/ 5 情報の認識と計算システムの基礎:人工知能技術とそれを可能にする 高性能計算技術 (1) 担当:近藤
• 12/12 先端科学技術研究センター生田・池内研究室見学会(仮)
• 12/19 情報の認識と計算システムの基礎:人工知能技術とそれを可能にする 高性能計算技術 (2) 担当:近藤
• 1/ 9 情報の認識と計算システムの基礎:人工知能技術とそれを可能にする 高性能計算技術 (3) 担当:近藤
目次
独立成分分析について
定式化,歴史,応用
信号の統計的性質
信号を混ぜる- 中心極限定理
独立成分分析のアルゴリズム
最尤推定法
本日の話題
ブラインド音源分離
複数のマイクロホンで取得した観測信号から同時に鳴っている複数の音源信号を分離獲得する技術
独立成分分析(Independent Component Analysis: ICA)
ブラインド音源分離を行うための統計的手法
参考資料
A. Hyvärinen, J. Karhunen, E. Oja, Independent Component Analysis, John Wiley & Sons, 2001.
村田昇, 入門 独立成分分析, 東京電機大学出版局, 2004.
G. Naik and W. Wang,
Blind Source Separation: Advances in
Theory, Algorithms and Applications,
Springer, 2013.
実音響環境の 独立成分分析に ついて猿渡が執筆
ICAとその発展
歴史:1990年代から世界的な広がり 1989 Cardoso
1990 Jutten (高次無相関化)
1994 Comon (ICAという言葉を定義)
1995 Bell (infomaxによる定式化)
1998 Smaragdis, Ikeda-Murata, Saruwatari …(音響信号へICAを導入)
2003 Saruwatari, Araki-Makino, Parra, etc. (空間逆フィルタとICAの融合)
2004 Sawada (ロバストパーミュテーションソルバの開発)
2006 Kim, Hiroe (独立ベクトル分析の提唱)
2009 Takahashi-Saruwatari (雑音推定ICA+非線形BSS;世界初の商用化)
2010 Ono (補助関数法による独立ベクトル分析)
2010 Ozerov, Sawada (多チャネルNMFとしての定式化)
2015 Kitamura-Ono-Sawada-Kameoka-Saruwatari(独立低ランク行列分析)
国際会議ICA(現在はLVA/ICA)を1999年より連続して開催 (第4回ICA2003は日本で開催された)
ICAとその発展
歴史:1990年代から世界的な広がり 1989 Cardoso
1990 Jutten (高次無相関化)
1994 Comon (ICAという言葉を定義)
1995 Bell (infomaxによる定式化)
1998 Smaragdis, Ikeda-Murata, Saruwatari …(音響信号へICAを導入)
2003 Saruwatari, Araki-Makino, Parra, etc. (空間逆フィルタとICAの融合)
2004 Sawada (ロバストパーミュテーションソルバの開発)
2006 Kim, Hiroe (独立ベクトル分析の提唱)
2009 Takahashi-Saruwatari (雑音推定ICA+非線形BSS;世界初の商用化)
2010 Ono (補助関数法による独立ベクトル分析)
2010 Ozerov, Sawada (多チャネルNMFとしての定式化)
2015 Kitamura-Ono-Sawada-Kameoka-Saruwatari(独立低ランク行列分析)
補助関数独立ベクトル分析
IS-NMF、 複素NMF
IS基準 多チャネルNMF
音響信号BSS、周波数領域ICA
東大 NII NTT 東大 NTT NAIST 東大
• 音の方向・声質・音量など、事前に何も分かっていなくても、瞬時に音を「聞き分ける」ことの出来る賢いコンピュータ聴覚システムを実現する。
• ICAという数理アルゴリズムに基づいて、音の波を「確率的」に表現し、別々の音信号を見つけだす。
つまりは「10人の声を一度に聞き分けた
聖徳太子の人工知能版」を作る。
ブラインド音源分離 とは?
互いに独立
既知
ブラインド音源分離 とは?
妨害音
目的ユーザ
マイク 1
マイク 2
おはよう
#&%¥ 観測信号 2
我々が知り得るのはこれだけ
観測信号 1 ICAによる
音源分離
出力同士が最も関係なくなるように最適化
混ざり合った信号 から元の信号(未知)を逆に取り出す
どのように混ざったかに関する空間情報 は利用できない
実は上記は2つのことを同時に実行している
[空間] 音源が通過する「空間情報H」の推定問題
[音源] 各音源を「確率で眺めた時」における分布推定問題
分からないものが同時に2つもある⇒大変解くのが難しい!
W
何が難しいのか?
混ざり合った信号 から元の信号(未知)を逆に取り出す
どのように混ざったかに関する空間情報 は利用できない
音は波である⇒波は回折したり反射したりする
壁や床で反射しながらマイクに到達する⇒それが
その影響を打ち消すようなものを逆システム( )という
W
空間情報とは?
W
混ざり合った信号 から元の信号(未知)を逆に取り出す
どのように混ざったかに関する空間情報 は利用できない
各音源は波であると同時に「どんな値(大きい・小さい)をとる傾向にあるか」という固有の性質を持っている(それは音源によって異なる)
それを「統計的な性質」と言い、確率で表現する
音を確率で表現することによって格段に技術が進歩した!
W
音源の確率情報とは?
例1: ガウス性信号(いわゆる雑音)
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
x 104
-5
-4
-3
-2
-1
0
1
2
3
4
5
時間
振幅
例1: ガウス性信号の確率
-5 -4 -3 -2 -1 0 1 2 3 4 50
1000
2000
3000
4000
5000
6000
7000
8000
9000
音の大きさ
出現する頻度
正規分布
例2: 人の声
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
x 104
-0.3
-0.2
-0.1
0
0.1
0.2
0.3
0.4
0.5
時間
振幅
例2: 人の声の確率
-0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.60
1
2
3
4
5
6
7x 10
5
音の大きさ
出現する頻度
正規分布よりも尖った分布 ↓
スーパーガウシアン
例3: 楽器の音(フルートの音)
例3: 楽器の音(フルートの音)の確率
サブガウシアン
例4: 雑踏での雑音
例4: 雑踏での雑音
-0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.50
2
4
6
8
10
12
14x 10
4
音の大きさ
出現する頻度
あれ、また正規分布?
↓ そう、色々な音が混じると正規分布になる
↓ 「正規分布から外れる」 ことが音の個性であり、個性を伸ばすように音
源を決める
-0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.60
1
2
3
4
5
6
7x 10
5
-0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.60
1
2
3
4
5
6
7x 10
5
W
ICAの原理
-0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.50
2
4
6
8
10
12
14x 10
4
-0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.50
2
4
6
8
10
12
14x 10
4
逆システムWを決める⇒ 出力の確率分布を見る⇒ 非ガウスか確認
(これを計算機の中でグルグル繰り返すと最後は音が分離される!)
応用紹介:「聖徳太子マイク」 リアルタイムBSS
4chマイクとDSP(TI社製C67)から構成される独立成分分析BSS専用モジュールを2005年に開発
2009年に世界初の商用化(警察備品に採用)
[Saruwatari, et al. 2009]
音源分離機能を持つ音声対話ロボシステム
・各種モジュールを統合した実環境動作可能な音声対話システム
8チャンネル
マイクアレー
キタちゃんロボ
ディスプレー
リアルタイム
ブラインド音源分離
音声発話検出&
音声認識デコーダ
対話管理処理
応答音声生成
各種情報提示処理
典型的な駅騒音の中で
遠隔発話した場合でも
90%以上 の単語認識率を達成
ユーザへ
音源分離機能を持つ音声対話ロボシステム
人工知能研究会優秀賞・平成23年度 RIEC Award を受賞
目次
独立成分分析について
定式化,歴史,応用
信号の統計的性質
信号を混ぜる- 中心極限定理
独立成分分析のアルゴリズム
最尤推定法
-0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.60
1
2
3
4
5
6
7x 10
5
-0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.60
1
2
3
4
5
6
7x 10
5
W
ICAの原理(再掲)
-0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.50
2
4
6
8
10
12
14x 10
4
-0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.50
2
4
6
8
10
12
14x 10
4
逆システムWを決める⇒ 出力の確率分布を見る⇒ 非ガウスか確認
(これを計算機の中でグルグル繰り返すと最後は音が分離される!)
独立成分分析によるブラインド音源分離
個の音源信号 が混合行列 により混ざり合い, 個の 観測信号 が 個得られたとする。
分離行列 により分離信号 を生成する。
の計算は観測信号 のみから行う。 個の分離信号 が互いに独立になるようにする。
音の統計的性質
音声の波形 振幅値のヒストグラム
振幅値
音を混ぜてみる
音源数
振幅値
混ぜた音の統計的性質
振幅値のヒストグラム
振幅値 →赤い線に近づいてくる
中心極限定理 (Central Limit Theorem)
元々の信号がどのような統計的性質をもったものであれ,多くの信号を足し合わせると,その振幅値の分布は正規分布に近づく。
平均0 分散1の 正規分布
中心極限定理 (Central Limit Theorem)
確率変数 が独立に同一な確率密度関数 に従うならば, の 確率密度関数は でガウス分布に近づく
ただし, の平均は0とする
中心極限定理の略証 (1/2)
の特性関数を とする
の特性関数
の確率密度関数
の特性関数
(∵重畳積分定理)
中心極限定理の略証 (2/2)
のマクローリン展開
のマクローリン展開
3次以上のキュムラントは で 0 に収束 ⇒分布がガウス分布に収束 (∵ガウス分布に従う確率変数の3次以上のキュムラントはすべて0)
n次キュムラント
zのキュムラントを xのキュムラントで表したもの
正規分布(Gauss分布)
確率密度関数
統計学における最も重要な分布の一つ
さまざまな性質がある
平均 と分散 によって確率密度関数が一意に決まる
最も「ランダム」な分布
同じ分散をもつ分布の中でエントロピーが最大
中心極限定理
エントロピー(平均情報量)
ある事象の情報量
エントロピー
各事象の情報量の平均値
事象のランダムさを表す指標
正規分布の場合
めったに起こらないこと ほど情報量は大きい
エントロピーが最大になる確率密度関数
問題:
Maximize with respect to Subject to
ラグランジュ未定乗数法
ラグランジアンをpに関して偏微分して0と置く
⇒ たしかに正規分布型になっている!
混ぜた音のエントロピー
分散を1に正規化
音源の統計的性質
我々の身の回りにある音(音声や楽音等) の波形は振幅値0の頻度が高い
Laplace分布によるモデル化
Laplace分布
Gauss分布
平均: 分散:
エントロピーの近似計算
真の分布を良く近似する分布を用いてエントロピーを計算
良好→
分散正規化の ため変化無し
目次
独立成分分析について
定式化,歴史,応用
信号の統計的性質
信号を混ぜる- 中心極限定理
独立成分分析のアルゴリズム
最尤推定法
最尤推定法によるパラメータ推定
分離行列 を直接推定
観測信号 に対する の尤度関数
線形変換と確率密度関数
音源信号の独立性と非Gauss性を仮定
:Laplace分布など
最尤推定法によるパラメータ推定
目的関数:
勾配法により を反復的に更新
( はステップサイズ)
勾配法とは?
目的関数 に対する
変数 の更新則:
ステップサイズ
適切なステップサイズを
設定することが必要である
目的関数が単調減少とは限らない
目的関数の勾配(偏微分)の逆方向に進む
最尤推定法によるパラメータ推定
目的関数:
勾配法により を反復的に更新
( はステップサイズ)
の具体形
Laplace分布の場合:
近似分布の場合:
エントロピーとしての解釈
独立⇒Kullback Leibler Divergenceの最小化問題
一般にKullback Leibler Divergenceとは2分布間の距離
分離信号 の同時分布密度関数 )(ty),,()( 1 Kyypp z
K
k kypvp 1 )()(
yy
y dyp
ppWKL
K
k k
1 )(
)(log)()(
周辺分布密度関数の積
最小化
zv
zzzv d
p
ppKL
)(
)(log)(),(
上式において…
とおき,これらのKLを分離行列Wに関して最小化すれば独立
エントロピーとしての解釈(cont’d)
WX
xWxx
yyyWY
log)(
)log)((log)(
)(log)();(
H
dpp
dppH
xx
yyW
dypp
dyppYH
k
kk
)(log)(
)(log)();(
K
kk
K
k k
WYHWH
dyp
ppWKL
1
1
);();(
)(
)(log)()(
Y
yy
y
1. 結合エントロピー 2. 周辺エントロピー和
|)|/)()(( Wxy pp
))()(( yyxx dpdp
エントロピーとしての解釈(cont’d)
WX
xWxx
yyyWY
log)(
)log)((log)(
)(log)();(
H
dpp
dppH
xx
yyW
dypp
dyppYH
k
kk
)(log)(
)(log)();(
K
kk
K
k k
WYHWH
dyp
ppWKL
1
1
);();(
)(
)(log)()(
Y
yy
y
1. 結合エントロピー 2. 周辺エントロピー和
|)|/)()(( Wxy pp
))()(( yyxx dpdp
この値を最大化 ⇒ 音源間の関連を無くす
この値を最小化 ⇒ 個々の音を非ガウス化
教師無し最適化としてのICA
従来の教師有り最適化:目標値が与えられる
• 子育てで言えば「医者にするにはどうするか?」
• 最小化関数=∫ (医者 ー 子供の現在)2
• コスト関数が可計算、その微分勾配も可計算
ICA等の教師無し最適化:目標値が無い!
• 子育てで言えば「良い大人になりなさい!(でも具体的には?)」
• 最小化関数=div(???||子供の現在) ⇒陽に計算不可
• コスト関数は可計算ではないが、その勾配は可計算
• 独立性自体をデータから測ることは困難であるが、どの方向に動けば独立性が高まるかは計算可能
• 「勉強しよう」、「運動しよう」、「約束は守る」、「友達は大切に」…
自然勾配(Natural Gradient)法
勾配法では の逆行列計算が厄介
自然勾配(Natural Gradient)
逆行列計算が不要
Equivariance Property 混合行列Hの影響(特異点に近くて不安定,etc.)を受けない
アルゴリズムは以下のとおり
自然勾配の導出 (1/2)
最急降下方向
を に変化させたときに最も を 小さくする が最急降下方向
モデルの接空間がユークリッド的でない場合は 「偏微分方向 最急降下方向」
のノルムの定義
における変化を単位行列 に移し変えて
と変形し,実質的な変化分を と捉える
のFrobeniusノルム
を のノルムと定義
自然勾配の導出 (2/2)
最急降下方向の導出
という制約の下で を最小化する を 求める最適化問題として定式化
Lagrangeの未定乗数法
⇒ ⇒
Lagrangeの未定乗数
の変化を単位行列に移し変えて考えているため, に依らず一定の収束特性を示す ⇒等価性(Equivalence)
逆行列をキャンセルしてくれる
自然勾配法による推定の様子
赤(□): を初期値に設定
緑(△): を初期値に設定
観測信号の白色化をせずとも良好な解に収束
最近の成果:独立低ランク行列分析によるデモ
• ドラム、弦楽器、音声からなる複合音の分離
2
m
Source
1
Source
2
2.83
cm
70
Source
3
2.83
cm
50
20
災害時の倒壊家屋に入り込んで被災者発見
環境音認識による状況把握・救助支援
最近の研究:内閣府ImPACT災害対応タフロボット
いかなる曲がりくねった形状においてもマイク同士が協調して騒音の中から被災者の声を見つけ出す
被災者はいるのか? 人の声を発見!