第5回音声ドキュメント処理ワークショップ ( 2011/3/7 )

31
第第第第第第第第第第第第第第第第第第 (2011/3/7) 神神神神神神神神神神神神神神 神神神神 神神神神神 神神神神 ,, Confusion Network 第第第第 CRF 第第第第第第第第第第第

Upload: alfonso-gilbert

Post on 31-Dec-2015

61 views

Category:

Documents


0 download

DESCRIPTION

Confusion Network を用いた CRF による音声認識誤り訂正. 第5回音声ドキュメント処理ワークショップ ( 2011/3/7 ). 神戸大学工学部情報知能工学科 中谷良平,滝口哲也,有木康雄. 研究背景. 音声認識精度 ニュースなどの正しい書き言葉→およそ 95 % 学会講演音声などの自由な話し言葉→およそ 80 % 話し言葉でストレスのない音声認識を行うために、さらなる音声認識精度の向上が期待される. 従来の音声認識. Acoustic Model. Language Model. Search. Feature Extraction. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 第5回音声ドキュメント処理ワークショップ  ( 2011/3/7 )

第5回音声ドキュメント処理ワークショップ (2011/3/7)

神戸大学工学部情報知能工学科中谷良平,滝口哲也,有木康雄

Confusion Network を用いたCRF による音声認識誤り訂正

Page 2: 第5回音声ドキュメント処理ワークショップ  ( 2011/3/7 )

www.***.com

研究背景

音声認識精度ニュースなどの正しい書き言葉→およそ 95 %学会講演音声などの自由な話し言葉→およそ 80 %

話し言葉でストレスのない音声認識を行うために、さらなる音声認識精度の向上が期待される

Page 3: 第5回音声ドキュメント処理ワークショップ  ( 2011/3/7 )

www.***.com

従来の音声認識

Search

Language Model

Feature Extraction

Acoustic Model

X w

)|( wXP )(wP

)()|(maxargˆ wPwXPww

Input speech

Page 4: 第5回音声ドキュメント処理ワークショップ  ( 2011/3/7 )

www.***.com

従来の音声認識の問題点

従来の音声認識では、言語モデルとして自然なbigram 、 trigram を学習する例)「神戸 / 大学」、「研究 / を / する」

問題点1  スムージングにより不自然な N-gram が発生してしまう

問題点2   N-gram が自然でも、文章として不自然な場合がある

 例)    冷蔵庫の中に、目薬を入れてある。    冷たいものが食べたくなったからだ。

Page 5: 第5回音声ドキュメント処理ワークショップ  ( 2011/3/7 )

www.***.com

問題点の解決法

問題点1 : スムージングによる問題⇒ あらかじめ不自然な N-gram を学習しておく

問題点2 : N-gram ではわからない不自然さ⇒ bi/trigram よりも広範囲の文脈情報(長距離文脈情報)

を取り入れる

Page 6: 第5回音声ドキュメント処理ワークショップ  ( 2011/3/7 )

www.***.com

提案手法

長距離文脈情報を用いた CRF による音声認識誤り訂正

自然 / 不自然な N-gram を CRF を用いて学習する あらかじめ各単語には正誤ラベリングを行っておく

素性のひとつとして長距離文脈情報を追加することで、音声ドキュメントの話題を考慮する

誤りと識別された語を Confusion Network を用いて訂正する

Page 7: 第5回音声ドキュメント処理ワークショップ  ( 2011/3/7 )

www.***.com

Confusion Network

誤り訂正を行うための仮説集合として Confusion Network を用いるWord Lattice をクラスタリング、圧縮することで得られるまたその過程で各リンクには信頼度が付与される

CRF による誤り検出を用いて Confusion Set から正解を探す

Page 8: 第5回音声ドキュメント処理ワークショップ  ( 2011/3/7 )

www.***.com

CRF (Conditional Random Field)( 1/2 )

誤り検出モデルに用いる

渡し は 神戸 から 来 た  E   C    C    C   C C

学習には単語列に正誤ラベルが貼られたものが必要

正誤それぞれの特徴を学習するために、多くの素性を自由に追加できる⇒ 自然な N-gram とともに不自然な N-gram が学習可能

Page 9: 第5回音声ドキュメント処理ワークショップ  ( 2011/3/7 )

www.***.com

CRF (Conditional Random Field)( 2/2 )

入力 x について、ラベル y が付与される確率

a

aa fZ

p ),(exp)(

1)|( xy

xxy

i

iipL )|(log xy

 を最大にするように計算する

fa : 素性関数 Z(x) : 分配関数

学習データ (xi , yi) について条件付確率の対数尤度

E

Cy

Page 10: 第5回音声ドキュメント処理ワークショップ  ( 2011/3/7 )

www.***.com

CRF の学習

正解部分,誤り部分を特徴づける素性の重みを学習特徴的な素性→重み大

例:「神戸 / 県」:明らかに誤りだとわかる    →誤り部分のみでよく出現

特徴的でない素性→重み小例:「これ / は」:ここだけでは正解か誤りかを識別できない

    →正解、誤りのどちらでも出現

素性を柔軟に設計できる  ⇒長距離文脈情報も素性として取り入れられる

Page 11: 第5回音声ドキュメント処理ワークショップ  ( 2011/3/7 )

www.***.com

長距離文脈情報

長距離文脈情報周辺の認識結果単語を参照したときに、識別対象単語

が不自然でないかという情報

音声 大根 対話会話 話者

出現単語の自然さを意味スコアとして算出する

bi/trigram よりも広範囲の文脈情報を考慮できる動詞、形容詞、名詞に意味スコアを与える

Page 12: 第5回音声ドキュメント処理ワークショップ  ( 2011/3/7 )

www.***.com

意味スコアの算出

周辺の単語集合 c(w) との類似度を求める

i

iavg wSCK

wSC )(1

)(

音声 大根 対話会話 話者

wi

))(,()( wcwsimwSC

K 単語

w)(wc

周辺の単語の c(w) 内での類似度の平均を計算する

正規化を行い、それを意味スコア SS(w) とする

)()()( wSCwSCwSS avg

sim(w,c(w)) の計算には LSA (Latent Semantic Analysis) を用いる

Page 13: 第5回音声ドキュメント処理ワークショップ  ( 2011/3/7 )

www.***.com

LSA (Latent Semantic Analysis) (1/3)

LSA は大量のテキストにおける単語の共起関係を統計的に解析することで、学習データに直接の共起がない単語間の類似度についても求めることができる

文書\トピック 野球 食事 数学 ・・・

二 打席 連続 ホームラン を 打っ た

0.93 0.01 0.01 ・・・

肉 と 野菜 を バランス よく 食べる

0.04 0.79 0.03 ・・・

分母 が 二 倍 に なる と 0.05 0.01 0.71 ・・・

文書\単語 打席 ホームラン

肉 野菜 分母 二 ・・・

二 打席 連続 ホームラン を 打っ た

1 1 0 0 0 1 ・・・

肉 と 野菜 を バランス よく 食べる

0 0 1 1 0 0 ・・・

分母 が 二 倍 に なる と 0 0 0 0 1 1 ・・・

LSA

巨大でスパース

次元圧縮

次元圧縮により、関連性の強い単語は同一次元に圧縮される

出現頻度

Page 14: 第5回音声ドキュメント処理ワークショップ  ( 2011/3/7 )

www.***.com

LSA (Latent Semantic Analysis) (2/3)

N 個の文書から作る単語文書行列 W の要素 wij として tf-idf を用いる

tf : 単語の出現頻度 idf : 単語の逆出現頻度

iijij idftfw

j

ijij

c

ntf

ii df

Nidf log

nij : 文書 cj における単語 ri の出現頻度

| cj | : 文書 cj に含まれる単語の総数

dfi : 単語 ri が出現する文書の総数

idfi は単語 ri の単語重みと考えることができ、多くの文書で出現する単語では小さく、特定の文書でしか出現しない単語では大きくなる

Page 15: 第5回音声ドキュメント処理ワークショップ  ( 2011/3/7 )

www.***.com

LSA (Latent Semantic Analysis) (3/3)

語彙数を M とすると W は M×N のスパースな行列になる 特異値分解により、特異値の大きなものから R だけ用いて近似を行う

W U

S V T

c1 ・・・ c

j ・・・ cNr1・・・ri・・・rM

u1・・・ui・・・uM

v1T ・・・ vj

T ・・・ vNT

M×N M×R

R×R R×N

2/12/1),(

SvSu

Svucrsim

ji

Tji

ji

単語 ri と文書 cj の類似度は以下のように求める

この値が 1 に近いほど類似度が高く、 -1 に近いほど類似度が低くなる

Page 16: 第5回音声ドキュメント処理ワークショップ  ( 2011/3/7 )

www.***.com

提案手法の流れ

従来の音声認識器により Confusion Network を出力 長距離文脈情報としての意味スコアの付与 書き起こし文書を用いて正誤ラベリング CRF による誤り検出モデルの学習 Confusion Network 上での音声認識誤り訂正

Page 17: 第5回音声ドキュメント処理ワークショップ  ( 2011/3/7 )

www.***.com

提案手法の流れ

従来の音声認識器により Confusion Network を出力 長距離文脈情報としての意味スコアの付与 書き起こし文書を用いて正誤ラベリング CRF による誤り検出モデルの学習 Confusion Network 上での音声認識誤り訂正

“ 私”: 0.8

“ 渡し”: 0.2

“ 達”: 0.3

“ が”: 0.2

“ 価値”: 0.5“-” : 0.9

“ い”: 0.1

“ は”: 0.5

“ が”: 0.4

“-” : 0.1

「私達は」

0.77

0.01

0.30

0.65

0.01

学習

C C

C

C

E E

E

E

E

E

Page 18: 第5回音声ドキュメント処理ワークショップ  ( 2011/3/7 )

www.***.com

音声認識誤り訂正( 1/2 )

この最尤候補列に対して誤り検出を行う

Confusion Network の候補から CRF をもとに正解を探す

“ 私”: 0.8

“ 渡し”: 0.2

“ 達”: 0.3

“ が”: 0.2

“ 価値”: 0.5“-” : 0.9

“ い”: 0.1

“ は”: 0.5

“ が”: 0.4

“-” : 0.1

私 – 価値 は C C E C

訂正

Page 19: 第5回音声ドキュメント処理ワークショップ  ( 2011/3/7 )

www.***.com

音声認識誤り訂正( 2/2 )

「価値」を第二候補である「達」と置き換えて誤り検出を行う

Confusion Network の候補から CRF をもとに正解を探す

“ 私”: 0.8

“ 渡し”: 0.2

“ 達”: 0.3

“ が”: 0.2

“ 価値”: 0.5“-” : 0.9

“ い”: 0.1

“ は”: 0.5

“ が”: 0.4

“-” : 0.1

私 – 達 はC C C C 訂正完了

Page 20: 第5回音声ドキュメント処理ワークショップ  ( 2011/3/7 )

www.***.com

評価実験

比較対象

CN-best : 信頼度最大の単語列(ベースライン)

NonSemantic : 提案手法の素性として意味スコアを用いない場合

Proposed method : 提案手法

Oracle : Confusion Network 上の正解単語を全て選んだ場合(上限)

        

Page 21: 第5回音声ドキュメント処理ワークショップ  ( 2011/3/7 )

www.***.com

評価指標

単語誤り率( WER )

正解:「私 は 豊橋 に 行く」

認識:「渡し  豊橋 に へ 行く」

SUB : 置換誤りDEL : 削除誤りINS : 挿入誤り

SUB DEL INS

全単語数SUBDELSUB

WER

Page 22: 第5回音声ドキュメント処理ワークショップ  ( 2011/3/7 )

www.***.com

実験条件( 1/2 )

コーパス日本語話し言葉コーパス( CSJ )様々な講演音声を収録したコーパス

音声認識器Julius-4.1.4音響モデル: CSJ 講演音声 953 講演から学習言語モデル: CSJ 書き起こし文書 2,596 講演から学習

Page 23: 第5回音声ドキュメント処理ワークショップ  ( 2011/3/7 )

www.***.com

実験条件( 2/2 )

誤り検出モデル学習

CSJ の 150 講演

評価CSJ の 13 講演

学習に用いた素性表層単語 unigram , bigram , trigramConfusion Network 上の信頼度意味スコア

Page 24: 第5回音声ドキュメント処理ワークショップ  ( 2011/3/7 )

www.***.com

実験結果

誤り種類別の評価と単語誤り率置換誤

り削除誤

り挿入誤

り正解単語 WER

Oracle 1,855 2,467 831 35,491 12.94 %

CN-best 7,246 2,141 3,423 30,453 32.17 %

NonSemantic 6,531 2,633 2,242 30,658 28.64 %

Proposed method

6,451 2,631 2,253 30,740 28.46 %

意味スコアを用いない場合でも 3.53ポイントの改善意味スコアを追加した提案手法は 3.71ポイントの改善

Page 25: 第5回音声ドキュメント処理ワークショップ  ( 2011/3/7 )

www.***.com

まとめ

まとめConfusion Network を用いて CRF による誤り訂正を

行った素性として意味スコアを導入した提案手法によって単語誤り率で 3.71ポイント改善

意味スコアは主に削除誤りに有効Oracle と比べて改善の余地が多く残っているのは削除誤り

今後の課題誤り検出精度の改善

品詞情報の追加、パラメータ推定法の変更など未知語検出手法への応用

Page 26: 第5回音声ドキュメント処理ワークショップ  ( 2011/3/7 )

www.***.com

ご清聴ありがとうございました

Page 27: 第5回音声ドキュメント処理ワークショップ  ( 2011/3/7 )

www.***.com

改善例 (1/2)

不自然な N-gram の改善

正解文 実際 の 発話 にCN-best 実際 の あ 発話 に

NonSemantic

実際 の 発話 に

Proposed method

実際 の 発話 に

Page 28: 第5回音声ドキュメント処理ワークショップ  ( 2011/3/7 )

www.***.com

改善例 (2/2)

意味的に不自然な誤りの改善イルカの特徴に関する講演で

正解文 イルカ の 頭部 表面 にCN-best イルカ の 東部 表面 に

NonSemantic

イルカ の 東部 表面 に

Proposed method

イルカ の 頭部 表面 に

N-gram で改善できなかった誤りが周辺のトピックから訂正できた

Page 29: 第5回音声ドキュメント処理ワークショップ  ( 2011/3/7 )

www.***.com

提案手法の流れ

SpeechData

Correct Recognition Result

ConfusionNetwork

Error Detection Model

Labeling

Learning

InputSpeech

SpeechRecognition

Error Correction

Recognition Result

ConfusionNetwork

Corresponding

SpeechRecognition

Learningof error

tendencyby CRF

CalculateSemantic

Score

CalculateSemantic

Score

Maximum likelihood wordsof Confusion

Network

ConfusionNetwork

LatentSemanticAnalysis

Large Corpus

Page 30: 第5回音声ドキュメント処理ワークショップ  ( 2011/3/7 )

www.***.com

入力音声:“私 達 は”

従来の音声認識技術

“ 私”

“ 渡し”

“ 達”

“ が”

“ 価値”

“ い”

“ は”

“ が”

N-best 単語ラティス

1. 私 価値 は2. 私 価値 が 3. 渡し 価値 は4. 渡し 達 は5. 私 い が

Page 31: 第5回音声ドキュメント処理ワークショップ  ( 2011/3/7 )

www.***.com

従来手法

パーセプトロンアルゴリズムを用いた誤り訂正モデル

音声認識結果を仮説集合 (N-best など ) として出力し、対応する書き起こしデータと比較する正解部分で現れやすい N-gram → α は正の方向へ誤り部分で現れやすい N-gram を学習する → α は負の方向へ

学習した誤り訂正モデルを用いて誤認識を訂正する

)}(),RecScore({maxarg*ii

wwwaw

i