・大量のテキストを統計的に解析することで特徴空間を得る...
Post on 31-Dec-2015
23 Views
Preview:
DESCRIPTION
TRANSCRIPT
・大量のテキストを統計的に解析することで特徴空間を得る ・学習データに存在しなかった単語の共起関係も予測できる
文書
単 語
・ vjS を文書の特徴ベクトルと考えることができる
・書き起こし文書を適切な文書とし,その特徴ベクトルを One-Class SVM により学習 ・仮説文が学習で求まったクラスに含まれるかどうかで 適切な文書か識別
1-Q-26 LSA に基づく One-Class SVM を用いた音声認識仮説の検証松本 智彦, 佐古 淳, 滝口 哲也, 有木 康雄 ( 神戸大 )
アプローチ
音声認識タスク 対話 CSJ
音声認識器 Julius
LSA の学習データ 7 対話+片方の話者 2697 講演
語彙数 1700 語程度 30128 語
文書数 1300 発話程度 208194 発話
LSA の次元数 30 次元 30 次元
評価データ 1 対話 5 講演
WER 講演 A 講演 B 講演 C 講演 D 講演 E 合計1-best 61.08 42.21 26.88 50.29 39.38 41.84
提案手法 60.67 41.71 26.62 49.12 39.38 41.43
音声
認識結果
WER 対話 A1-best 85.34
提案手法 87.46
音声認識
適切な文書か検証
ふさわしい仮説文を選択
LSA 空間に射影
複数の仮説文
×j
ijiijw
)1(
i
ijN
j i
iji N
1
loglog
1
κij :文書 c jにおける単語 ri の出現回数λ j :文書 c jに含まれる全単語数τi :全文書中での単語 ri の出現回数N :全文書数
W U
S V T
=
c1 ・・・ c
j ・・・ cN
r1
・・・
ri
・・・
rM
u1
・・・
ui
・・・
uM
v1T ・・・ vj
T ・・・ vNT
M×N M×R
R×R R×N
特異値分解による次元圧縮
・音声認識器による不適切な文書の湧き出し ・現在の音声認識は音響モデルと言語モデルのみに基づく ・自動的に不適切な文書を検出し,訂正する手法を提案
研究背景・目的
O
学習により求まった境界
学習データ仮説文
不適切な文書
適切な文書
Latent Semantic Analysis (LSA)
・認識率の低いタスクにおいて提案手法は有効ではない ・文書数が膨大になると LSA によりトピックを捉えきれない ・ n-best ではキーワードとなる単語の変化が少ない ・挿入誤りの湧き出し
考察
・読み上げ音声に対する提案手法の適用 ・ Confusion Network を用いた検証 ・音声認識スコアと One-Class SVM スコアの統合
今後の予定
Julius の出力した 1-best と,提案手法により得られた 認識結果を,ストップワードとしなかった単語のみの 単語誤り率( WER )で比較
実験条件
書き起こし文書
LSA
One-Class SVM による適切な文書の学習
学習
検証入力音声 今 の 段階 で は 犯罪 の 凶悪 性音声認識結果 今 の 段階 で は 犯罪 の 軌道 惑星
対話
対話タスクはかなりくだけた発話であるため 認識率が著しく低い CSJ
改善例正解文書 なお 組み合し た 音声 に 注目 し た 場合1-best 治っ 組み合し た 音声 に 注目 し た 場合
提案手法 なお 組み合し た 音声 に 注目 し た 場合
実験結果
ストップワードの指定にも利用
top related