人間とのインタラクションにより言葉と行動を学習するロボット(岩橋...

Post on 10-Aug-2015

142 Views

Category:

Engineering

1 Downloads

Preview:

Click to see full reader

TRANSCRIPT

人間とのインタラクションにより言葉と行動を学習するロボット

岡山県立大学

岩橋直人

1

内容

1. 対話技術の現状

2. 動作と言語によるコミュニケーション学習機構L‐Core の概要

3. 動作の模倣学習

4. 連続音声からの語彙の学習

5. 状況依存的発話理解の学習

6. 確認発話生成

7. 実世界に関する質問応答の学習

8. まとめ

2

ロボット対話

実世界情報をカテゴリ化、予測し、実世界を操作可能な対話システム

日常生活支援ロボットの対話機能は、現状ではまったく不十分である

ロボットの対話技術はとても難しい!どうして?

従来の言語処理では、記号の意味は記号で記述されているユーザーと物理世界に関する共有信念を形成できない

「いつものあれ持ってきて」「これを引き出しにもどしておいて」

3はじめに

共有信念はコミュニケーションの基盤4はじめに

翔太: コーヒーを飲むかい

美咲: コーヒーを飲むと目が覚めるわ

美咲は、目を覚ましたいので申し出を受けたい。美咲は、目を覚ましたくないので申し出を断りたい。翔太は、美咲が目を覚ましたいので申し出を受けたい、と思った。翔太は、美咲が目を覚ましたくないので申し出を断った、と思った。

共有信念はコミュニケーションの基盤5はじめに

翔太: コーヒーを飲むかい

美咲: コーヒーを飲むと目が覚めるわ

美咲は、目を覚ましたいので申し出を受けたい。

翔太は、美咲が目を覚ましたいので申し出を受けたい、と思った。

実世界

ロボット信念

拡張性

グラウンディング

ユーザ信念

共有

6

ロボット対話の三つの要件

対話処理の記号創発的アプローチ

L‐Core幼児のようにコミュニケーションを自律的に学習する手法

7

L‐Coreの信念システム8

共有信念関数Ψ(s,a) 個別確信度

ベクトル

動作-オブジェクト

関係行動

コンテキスト音声言語 動作物体

L‐Coreの信念システム

全体確信度関数 f(d)

発話と行動の生成と理解

9

L‐Core の機能

ロボットに向けられた発話の検出

状況依存的発話理解

確認発話生成

実世界に関する質問応答

役割反転模倣

自律的オンライン物体学習

音韻学習

物体概念学習

動作模倣学習

語彙学習

文法学習

語用法学習

10

11

動作の模倣学習

課題:単語音声と物体操作の ペア から動詞とそ

の意味を学習する

難しさ: 非観測情報の推測参照点

座標系

*羽岡, 岩橋, “言語獲得のための参照点に…,” IEICE技研報告 PRMU2000‐105, pp.39‐46, 2000.

ランドマークと座標系の例12

飛び越えさせる

近づかせる乗せる

持ち上げる

HMMによる動作の学習13

HMM

0

0

動作「のせる」

出力正規分布

HMMは時系列信号の確率モデル

複数軌道を入力して一つのHMMを学習する

「のせる」の学習データ

参照点に依存したHMMによる軌道生成

軌道は、HMMの尤度(確率)が最も高くなるように生成する

入力: 動作ID, 参照点

出力: 最尤軌道

14

0

0

動作「のせる」

参照点

元の位置

問 題 設 定15

ここは スマートルーム です

ここの名前はスマートルームここの名前はスマートルーム

この場所は スマートルーム

2

1対象IDこの場所は 会議室の前

指示

1対象ID

単語や文法の 知識を持たない ロボットが

文音声と指示対象の ペア から単語とその意味を学習する

言い回し

キーワード

このばしぇおあかいでぃひつのまえ

提案手法の原理

発話と指示対象の共起確率モデルの学習

統計的モデル構造選択

語彙の学習

16

3

発話と指示対象の共起確率モデル

三種類の確率モデル(音響,文法,語意)を統合

W1 WLW0 WL+1 S

発話

A

対象

O

始端 単語 単語 終端 単語列

ss L

lll

L

lllNBests

S

WOPWWPSAP

SOPSPSAPOAP

13

0121 )|(log)|(log);|(logmax

)|()()|(log),(log

文法音響 語意

17

提案手法の流れ

18

学習

デー

対象

音声

モデル選択による単語リスト最適化

初期単語リストの構築

語意モデル文法モデル

文法モデルと語意モデルの学習

音素列

w1 k/o/k/o/w/a

w2 g/a/k/u/s/e

w3 b/e/y/a・・・

部分音素列の種類:約6000種類(60発話)

単語リストの項目数:約200単語

各部分列の

前後1モーラの情報量が閾値以上なら追加

単語リスト

かいぎし

かいぎしつ

?? ??

????

モデル選択による単語リスト最適化19

MDL基準に従って不要な単語を削除する

記述長=-(モデル尤度)+ log(データ数)

データのあてはまりの良さとモデルの自由度とのバランスを取る

自由度2

モデル尤度= データ数

iii OAP ),(log

自由度={ 単語数2+2 ×単語数 }+{ 対象数×単語数 }

モデル1 の単語

w1 k/o/k/o/w/aw2 h/o/k/o/w/aw3 g/a/k/u/s/e・・・

モデル2 の単語

w1 k/o/k/o/w/a

w3 g/a/k/u/s/e・・・

Bigramの確率が高い2単語を連結1

提案手法の流れ

20

学習

デー

対象

音声

モデル選択による単語リスト最適化

初期単語リストの構築

語意モデル文法モデル

文法モデルと語意モデルの学習

単語リスト

実験用収録音声21

対象 キーワード 対象 キーワード

1 会議室の前 6 竹内さんのブースの南

2 辻野さんのブース 7 工作室

3 フロアの真ん中 8 アシモの部屋

4 学生部屋の前 9 スマートルーム

5 お茶飲み場 10 スマートルームの入り口

言い回しのパターンこの場所は~ ここは~です ここの名前は~

~の所に行って ~へお願い 今から~へ行って

言い回し6種類 60発話を収録キーワード10種類

音素正解精度は平均 81 %

実験結果( 16名分の平均)22

203

99

74

51 37

29 25 24 23 23 23

81%

50%

85%

40%

50%

60%

70%

80%

90%

100%

0

50

100

150

200

0 1 2 3 4 5 6 7 8 9 10

音素

正解

精度

(折れ

線グ

ラフ

)

単語

数(棒

グラ

フ)

単語リスト最適化の回数

獲得単語数 発話の音素正解精度 出力キーワードの音素正解精度

実験結果:提案手法で獲得されたキーワード例23

正解キーワード 最適化なし 最適化10回

会議室の前 かいすのまえ かいすのまえ

辻野さんのブース つじのさ つじのさうのぶす

フロアの真ん中 なか ふろあどまんなか

学生部屋の前 がくせえべや がくせえべやのまえ

お茶飲み場 おちょ おちゃのいま

竹内さんのブースの南 み たきょいつさんのぶすのみなみ

工作室 こおさくしつ こおさくひつ

アシモの部屋 あしものへや あしものへや

スマートルーム む すもあとるむ

スマートルームの入り口 ち すまとるむのいいぐち

平均音素正解精度 43 % 85%平均 音素正解精度

単語リストの最適化によって分節誤りが修正される

学習中の認識結果の例

発話 「この場所はフロアの真ん中」音素認識結果: こどばしぇおあふろあのまんがか

(k o d o b a sh e o a h u r o a n o m a ng g a k a)

初期モデル :/  こど /  ば /  しょわ /  ふろあ /  ど /  まんなか /

モデル選択1回:/  この /  ばしょわ /  ふろあどまん /  なか /

モデル選択2回: /  このばしょわ /  ふろあどまんなか /

24

共有信念関数

25

1,

2

3

4

5

( , ) max log ( | ; , )

log ( | ; ) log ( | ; )

log ( | ; )

log ( , | ; )

log ( , | ; )

l z

T L

M

M

s a p s z L G

p t W L p l W L

p u W L

p t l W R

p t l q H

個別確信度ベクトル

MCE 学習 ML/MAP 学習

信念モジュール

音声言語 HMMs

物体画像Gaussians

動作 HMMs

動作‐オブジェクト関係Gaussians

行動のコンテキストMultinominal distribution

発話理解26

arg max ( , ) A

a s A

最適動作 入力音声

可能な動作

最適化の過程

0

20

40

60

80

100

120

140

1 2

系列5

系列4

系列3

系列2

系列1

音声認識結果:1st: カーミット 青い 箱 持ち上げて2nd:カーミット 青い 箱 のせて

発話:“カーミット 青い 箱 のせて”

行動コンテキスト

動作‐オブジェクト関係

動作

物体

音声言語

OptimalSecond

Ψ(s,a)

実験

96 発話‐シーン サンプルペア

詳細な発話と、曖昧で断片的な発話を含む

語彙

50物体に対して60 単語, 7動作に対して7単語

学習エピソード数の影響を評価

Leave‐one‐out cross validation

28

オンライン MCE 学習

‐0.2

0

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

0 10 20 30 40 50 60 70 80 90

Local con

fiden

ce value

系列1系列2系列3系列4系列5系列6

Speech

Object

Motion‐object relationship

Motion

Holding

Previously moved

The number of episodes

29

個別

確信

度ベ

クト

エピソード数

理解率の改善

30

40

50

60

70

80

90

100

0 10 20 30 40 50 60 70 80 90

Und

erstanding

 rate (%

)

系列1

The number of episodes 

38%

30

エピソード数

音声

理解

率(%

2ステップ意思決定過程

1. ロボットは、ただちに動作を開始するか、または、確認発話を生成するか、決定する(whether to)

2. ロボットは、確認発話として何を生成するか、決定する(what to)

31

最適化過程のマージン

0

20

40

60

80

100

120

140

1 2

系列5

系列4

系列3

系列2

系列1

音声認識結果:1st: カーミット 青い 箱 持ち上げて2nd:カーミット 青い 箱 のせて

発話:“カーミット 青い 箱 のせて”

行動コンテキスト

動作‐オブジェクト関係

動作

物体

音声言語

OptimalSecond

Ψ(s,a)

マージン

33

全体確信度関数Prob

ability  

1.0

0.5

‐50        0       50     100    150     200Margin d

0.0

strong

weak

‐ +

入力: マージン

出力:ユーザ発話がロボットによって正しく理解された確率の推定値ロボット発話がユーザによって正しく理解される確率の推定値

ベイジアンロジスティック回帰で学習共有信念関数とユーザの共有信念の一致度を評価

確率的意思決定

最大期待効用を生む閾値 0 に基づく意思決定

34

正解反応

1 0

動作

確認発話

効用

動作 , + 1 ,

確認発話 , + 1 ,

期待

効用

推定正解確率 ,0 1

動作

確認発話

35

理解される確率を制御する発話生成

arg min f ,s

s d s a

最適発話 動作

可能な発話

ターゲット確率

単語の追加による確認発話生成

f(d(s,a)) が を越えるまで単語を追加

36

箱持ち上げて.

f(d’)

“大きい赤い四角い箱” 0.98

“大きい赤い箱” 0.92

“箱” 0.47

“小さい青い箱” 0.08

“青い箱” 0.01

大きい赤い箱持ち上げて、いいですか?

リスク低減の評価37

Failure rateRejection rateConfirmation rate# of confirmation utt

Baseline  1/4 に減少

発話行為の認識38

38

コミュニケーション

物理世界

3つのタイプの発話行為1. ロボットにオブジェクトを記述させる質問

2. ロボットにオブジェクトを指差させる質問

3. オブジェクト操作の命令

青い箱持ち上げてカーミットどれ?なに?

今後の展開

ユーザの行動習慣の学習

時間の概念 「きのう見せたペンを持ってきて」

ペット、フルーツ、道具などの、抽象度の高い意味を持つ語彙の学習

動作学習と言語学習の統一原理追求

39

まとめ

L‐Coreユーザ信念と物理世界状況に依存した信念システム

認知的言語理解の達成

多機能統合に成功

頑健性、実用性の向上が必要

40

top related