実時間探索 (real-time search)

20
実実実実実 (Real-Time Search) 実実実実実 RTA* 実実実実実実 LRTA* 実実実実実実 実実実実実実実 実実4 実実実実実実実実実実実実実実実実実実実実実

Upload: quana

Post on 17-Jan-2016

25 views

Category:

Documents


0 download

DESCRIPTION

認知システム論 探索( 4 ) 先を読んで知的な行動を選択するエージェント. 実時間探索 (Real-Time Search).  実時間探索  RTA* アルゴリズム LRTA* アルゴリズム. 準備:探索エージェント. とるべき行為を 決定する. 知覚 (percepts). エージェント. センサー 目,耳. 問題解決器 知能. 環 境. 意思決定 (decision). 行為 (action). アクチュエータ 手,足. 1.実時間探索 (1/3). これまで学んだ探索( オフライン探索 )は, 時間をかけて解を見つけた後に実行する. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 実時間探索 (Real-Time Search)

実時間探索 (Real-Time Search)

 実時間探索   RTA* アルゴリズム  LRTA* アルゴリズ

認知システム論 探索( 4 )先を読んで知的な行動を選択するエージェント

Page 2: 実時間探索 (Real-Time Search)

環 境

準備:探索エージェント

エージェント

知覚(percept

s)

行為(action)

センサー 目,耳

アクチュエータ 手,足

問題解決器 知能

意思決定(decision)

とるべき行為を

決定する

Page 3: 実時間探索 (Real-Time Search)

1.実時間探索 (1/3)

実時間探索(オンライン探索)は,一定時間内の先読み探索と実行を交互に繰り返す

これまで学んだ探索(オフライン探索)は,時間をかけて解を見つけた後に実行する

探   索 実 行 時間

探 索 実  行 探 索 実 行 探 索 実 行

一定時間内 一定時間内 一定時間内

Page 4: 実時間探索 (Real-Time Search)

実時間探索 (2/3)ミニミニ探索によって,一定時間の間,先読みをし,行動を

決定

a

b c

gh

e

d

f

3

5

2

84

42

4

8 33

157

356

8 0

14

12

12 1

6

111

1

スタート

ゴール

ヒューリスティック関数 h の値

Page 5: 実時間探索 (Real-Time Search)

実時間探索 (3/3)

最適性はない:最適な行動を探索できないリアルタイム性:迅速に行動を選択できる環境適応性:未知の環境,動的に変化する環境に適している

未経験の行動をとる(探索空間を探査する)することによって,現在の状態の周辺の情報がわかってくる

Page 6: 実時間探索 (Real-Time Search)

2. RTA* アルゴリズム (1/4)Real-Time Heuristic Search

Step 1.現在の状態 x の各隣接状態 n に対して, 以下の関数 f(n) を計算する. ただし, g(x,n) は x から n へのコストとする.

     f(n) = g(x,n) + h(n)

x

3

4

h=7

h=5

h=8

f=9

f=10

簡単のため,先読みは1ステップ先ま

でと仮定する

Page 7: 実時間探索 (Real-Time Search)

RTA* アルゴリズム (2/4)

Step 2. h(x) の値を以下のように更新する.

     h(x) ←  2番目に小さい f(n)

x

3

4

h=7

h=5

h=8

f=9

f=10

x

3

4

h=7

h=5

h=10

f=9

f=10

最小の  f  値を持つノードへ進む前にもとのノードに戻ってくるときのた

めにh  の値を更新する

最小の f(n)

2番目に小さいf(n)2番目に小さい

f(n)

Page 8: 実時間探索 (Real-Time Search)

RTA* アルゴリズム (3/4)

Step 3.最小の f(n) を与える状態 n に遷移する. 候補が複数存在するときはランダムに選択する.

x

3

4

h=7

h=5

h=10

f=9

f=10

最小の f(n) x

3

4

h=7

h=5

h=10

f  はもう不要.後戻りするときのコストは, 4+10=14

となる.

Page 9: 実時間探索 (Real-Time Search)

RTA* アルゴリズム (4/4)

b dc

g h

ea

f

3

5

5

4

2

8

4

2

383 0

157

356

811

11 910

11

1514

9

11

9

8

準最適解

初期状態 目標状態

h の値

Page 10: 実時間探索 (Real-Time Search)

RTA* の計算量

空間計算量:移動回数に対して線形    訪問済みの状態のリスト、 miniminは深さ優先探索

時間計算量:移動回数に対して線形    探索の深さが定数、一回の移動のための探索も定数

Page 11: 実時間探索 (Real-Time Search)

RTA* の完全性 (1/3)

定理  RTA* の完全性 状態空間が有限 経路コストが正 ヒューリスティック値が有限 あらゆる状態から目標状態へ到達可能

必ず解を発見する

Page 12: 実時間探索 (Real-Time Search)

RTA* の完全性 (2/3) 例外

g

0

0

0

0

0

s

g

s

1

2

目標状態へ到達可能でない状態空間が有限でない

1

1

1

1

1

1

3

Page 13: 実時間探索 (Real-Time Search)

RTA* の完全性 (3/3) 例外

s g00

0 0

2 1

1

1

11 01

s g

経路コストが正でない

ヒューリスティック値が有限でない

Page 14: 実時間探索 (Real-Time Search)

RTA* の性能評価 (1/3)

n- パズル

5 486 127 3

初期状態

1 2 38 4

57 6

目標状態

5 4 86 1

27 3

5 486 127 3

推定コスト:各タイルの正しい位置までのマンハッタン距離の和

Page 15: 実時間探索 (Real-Time Search)

RTA* の性能評価 (2/3)

0 5 10 15 20 250

200

400

600

800

1000

8 puzzle

15 puzzle

24 puzzle

Search Horizon

Solution

Length

最適解の長さ 8 puzzle  : 2215 puzzle  : 5324 puzzle  : 100 程度

先読みの深さ

発見した解の長さ

Page 16: 実時間探索 (Real-Time Search)

RTA* の性能評価 (3/3) 計算と実行のトレードオフ

ミニミニ探索を深くすると1回の移動のための計算量は増大、移動回数は減少

最適な探索の深さは問題に依存する

スライディングタイルパズルの場合 実行時間 ( ミニミニ探索+移動 ) は探索の過程で

生成した状態数に比例 ミニミニ探索の最適な深さは

8 パズルが 1 、 15 パズル・ 24 パズルが 2 実際の実行時間はそれぞれ0.1 秒、 0.5 秒、 2.5 秒以下( 20MHz )

Page 17: 実時間探索 (Real-Time Search)

3. LRTA* アルゴリズム (1/4)

同じ問題を連続して解く 同じ問題空間、同じ目標状態の集合 訪問済みの状態の推定コスト (h) を次の試行に保

RTA* では… 問題を一度だけ解く場合には適している 推定コストとして2番目に小さい評価値を格納 h の値が,過大評価となってしまう

Learning RTA*

Page 18: 実時間探索 (Real-Time Search)

LRTA* アルゴリズム (2/4)

1.現在の状態 x の各隣接状態 n に対して、以下の関数 f(n) を計算する。ただし、 g(x,n) は x から x’へのコスト。

     f(n) = g(x,n) + h(n)

2. h(x) の値を以下のように更新する。     h(x) ← min f(n)

3.最小の f(n) を与える状態 n に遷移する。  (候補が複数存在するときはランダムに選択す

る)

n

Page 19: 実時間探索 (Real-Time Search)

LRTA* アルゴリズム (3/4)

a b c d5 1 1 5

6 7

11 1

RTA*

a b c d5 1 1 5

11 1

32LRTA*

Page 20: 実時間探索 (Real-Time Search)

LRTA* アルゴリズム (4/4)

収束性 問題空間が有限 経路コストが正 初期ヒューリスティック値が許容的 あらゆる状態から目標状態へ到達可能

試行を繰り返すことにより、最適経路上の各状態の推定コストは正確な値に収束する

完全性 解が存在すれば必ず発見できる

楽観的