実時間探索 (real-time search)

実時間探索 (Real-Time Search)

　実時間探索　　 RTA* アルゴリズム　 LRTA* アルゴリズ

ム

認知システム論　探索（ 4 ）先を読んで知的な行動を選択するエージェント

環　境

準備：探索エージェント

エージェント

知覚(percept

s)

行為(action)

センサー目，耳

アクチュエータ手，足

問題解決器知能

意思決定(decision)

とるべき行為を

決定する

１．実時間探索 (1/3)

実時間探索（オンライン探索）は，一定時間内の先読み探索と実行を交互に繰り返す

これまで学んだ探索（オフライン探索）は，時間をかけて解を見つけた後に実行する

探　　　索実　行時間

探　索実　行探　索実　行探　索実　行

一定時間内一定時間内一定時間内

実時間探索 (2/3)ミニミニ探索によって，一定時間の間，先読みをし，行動を

決定

a

b c

gh

e

d

f

3

5

2

84

42

4

8 33

157

356

8 0

14

12

12 1

6

111

1

スタート

ゴール

ヒューリスティック関数 h の値

実時間探索 (3/3)

最適性はない：最適な行動を探索できないリアルタイム性：迅速に行動を選択できる環境適応性：未知の環境，動的に変化する環境に適している

未経験の行動をとる（探索空間を探査する）することによって，現在の状態の周辺の情報がわかってくる

２． RTA* アルゴリズム (1/4)Real-Time　Heuristic　Search

Step １．現在の状態 x の各隣接状態 n に対して，以下の関数 f(n) を計算する．ただし， g(x,n) は x から n へのコストとする．

　　　　 f(n)　=　g(x,n)　+　h(n)

x

3

4

h=7

h=5

h=8

f=9

f=10

簡単のため，先読みは１ステップ先ま

でと仮定する

RTA* アルゴリズム (2/4)

Step ２． h(x) の値を以下のように更新する．

　　　　 h(x)　←　２番目に小さい f(n)

x

3

4

h=7

h=5

h=8

f=9

f=10

x

3

4

h=7

h=5

h=10

f=9

f=10

最小の　 f　値を持つノードへ進む前にもとのノードに戻ってくるときのた

めにh　の値を更新する

最小の f(n)

２番目に小さいf(n)２番目に小さい

f(n)


Step ３．最小の f(n) を与える状態 n に遷移する．候補が複数存在するときはランダムに選択する．

x

3

4

h=7

h=5

h=10

f=9

f=10

最小の f(n) x

3

4

h=7

h=5

h=10

f　はもう不要．後戻りするときのコストは， 4+10=14

となる．


b dc

g h

ea

f

3

5

5

4

2

8

4

2

383 0

157

356

811

11 910

11

1514

9

11

9

8

準最適解

初期状態目標状態

h の値

RTA* の計算量

空間計算量：移動回数に対して線形　　　訪問済みの状態のリスト、 miniminは深さ優先探索

時間計算量：移動回数に対して線形　　　探索の深さが定数、一回の移動のための探索も定数

RTA* の完全性 (1/3)

定理　 RTA* の完全性状態空間が有限経路コストが正ヒューリスティック値が有限あらゆる状態から目標状態へ到達可能

必ず解を発見する

RTA* の完全性 (2/3)　例外

g

0

0

0

0

0

s

g

s

1

2

目標状態へ到達可能でない状態空間が有限でない

1

1

1

1

1

1

3

RTA* の完全性 (3/3)　例外

s g00

0 0

2 1

1

1

11 01

s g

∞

∞

経路コストが正でない

ヒューリスティック値が有限でない

RTA* の性能評価 (1/3)

n- パズル

５４８６１２７３

初期状態

１２３８４

５７６

目標状態

５４８６１

２７３

５４８６１２７３

推定コスト：各タイルの正しい位置までのマンハッタン距離の和

RTA* の性能評価 (2/3)

0 5 10 15 20 250

200

400

600

800

1000

8 puzzle

15 puzzle

24 puzzle

Search Horizon

Solution

Length

最適解の長さ 8　puzzle　： 2215　puzzle　： 5324　puzzle　： 100 程度

先読みの深さ

発見した解の長さ

RTA* の性能評価 (3/3) 計算と実行のトレードオフ

ミニミニ探索を深くすると１回の移動のための計算量は増大、移動回数は減少

最適な探索の深さは問題に依存する

スライディングタイルパズルの場合実行時間 ( ミニミニ探索＋移動 ) は探索の過程で

生成した状態数に比例ミニミニ探索の最適な深さは

8 パズルが 1 、 15 パズル・ 24 パズルが 2 実際の実行時間はそれぞれ0.1 秒、 0.5 秒、 2.5 秒以下（ 20MHz ）

３． LRTA* アルゴリズム (1/4)

同じ問題を連続して解く同じ問題空間、同じ目標状態の集合訪問済みの状態の推定コスト (h) を次の試行に保

持

RTA* では… 問題を一度だけ解く場合には適している推定コストとして２番目に小さい評価値を格納 h の値が，過大評価となってしまう

Learning RTA*

LRTA* アルゴリズム (2/4)

１．現在の状態 x の各隣接状態 n に対して、以下の関数 f(n) を計算する。ただし、 g(x,n) は x から x’へのコスト。

　　　　 f(n)　=　g(x,n)　+　h(n)

２． h(x) の値を以下のように更新する。　　　　 h(x)　←　min　f(n)

３．最小の f(n) を与える状態 n に遷移する。　　（候補が複数存在するときはランダムに選択す

る）

n


a b c d5 1 1 5

6 7

11 1

RTA*

a b c d5 1 1 5

11 1

32LRTA*


収束性問題空間が有限経路コストが正初期ヒューリスティック値が許容的あらゆる状態から目標状態へ到達可能

試行を繰り返すことにより、最適経路上の各状態の推定コストは正確な値に収束する

完全性解が存在すれば必ず発見できる

楽観的

実時間探索 (real-time search)

Documents