実時間探索 (real-time search)
DESCRIPTION
認知システム論 探索( 4 ) 先を読んで知的な行動を選択するエージェント. 実時間探索 (Real-Time Search). 実時間探索 RTA* アルゴリズム LRTA* アルゴリズム. 準備:探索エージェント. とるべき行為を 決定する. 知覚 (percepts). エージェント. センサー 目,耳. 問題解決器 知能. 環 境. 意思決定 (decision). 行為 (action). アクチュエータ 手,足. 1.実時間探索 (1/3). これまで学んだ探索( オフライン探索 )は, 時間をかけて解を見つけた後に実行する. - PowerPoint PPT PresentationTRANSCRIPT
実時間探索 (Real-Time Search)
実時間探索 RTA* アルゴリズム LRTA* アルゴリズ
ム
認知システム論 探索( 4 )先を読んで知的な行動を選択するエージェント
環 境
準備:探索エージェント
エージェント
知覚(percept
s)
行為(action)
センサー 目,耳
アクチュエータ 手,足
問題解決器 知能
意思決定(decision)
とるべき行為を
決定する
1.実時間探索 (1/3)
実時間探索(オンライン探索)は,一定時間内の先読み探索と実行を交互に繰り返す
これまで学んだ探索(オフライン探索)は,時間をかけて解を見つけた後に実行する
探 索 実 行 時間
探 索 実 行 探 索 実 行 探 索 実 行
一定時間内 一定時間内 一定時間内
実時間探索 (2/3)ミニミニ探索によって,一定時間の間,先読みをし,行動を
決定
a
b c
gh
e
d
f
3
5
2
84
42
4
8 33
157
356
8 0
14
12
12 1
6
111
1
スタート
ゴール
ヒューリスティック関数 h の値
実時間探索 (3/3)
最適性はない:最適な行動を探索できないリアルタイム性:迅速に行動を選択できる環境適応性:未知の環境,動的に変化する環境に適している
未経験の行動をとる(探索空間を探査する)することによって,現在の状態の周辺の情報がわかってくる
2. RTA* アルゴリズム (1/4)Real-Time Heuristic Search
Step 1.現在の状態 x の各隣接状態 n に対して, 以下の関数 f(n) を計算する. ただし, g(x,n) は x から n へのコストとする.
f(n) = g(x,n) + h(n)
x
3
4
h=7
h=5
h=8
f=9
f=10
簡単のため,先読みは1ステップ先ま
でと仮定する
RTA* アルゴリズム (2/4)
Step 2. h(x) の値を以下のように更新する.
h(x) ← 2番目に小さい f(n)
x
3
4
h=7
h=5
h=8
f=9
f=10
x
3
4
h=7
h=5
h=10
f=9
f=10
最小の f 値を持つノードへ進む前にもとのノードに戻ってくるときのた
めにh の値を更新する
最小の f(n)
2番目に小さいf(n)2番目に小さい
f(n)
RTA* アルゴリズム (3/4)
Step 3.最小の f(n) を与える状態 n に遷移する. 候補が複数存在するときはランダムに選択する.
x
3
4
h=7
h=5
h=10
f=9
f=10
最小の f(n) x
3
4
h=7
h=5
h=10
f はもう不要.後戻りするときのコストは, 4+10=14
となる.
RTA* アルゴリズム (4/4)
b dc
g h
ea
f
3
5
5
4
2
8
4
2
383 0
157
356
811
11 910
11
1514
9
11
9
8
準最適解
初期状態 目標状態
h の値
RTA* の計算量
空間計算量:移動回数に対して線形 訪問済みの状態のリスト、 miniminは深さ優先探索
時間計算量:移動回数に対して線形 探索の深さが定数、一回の移動のための探索も定数
RTA* の完全性 (1/3)
定理 RTA* の完全性 状態空間が有限 経路コストが正 ヒューリスティック値が有限 あらゆる状態から目標状態へ到達可能
必ず解を発見する
RTA* の完全性 (2/3) 例外
g
0
0
0
0
0
s
g
s
1
2
目標状態へ到達可能でない状態空間が有限でない
1
1
1
1
1
1
3
RTA* の完全性 (3/3) 例外
s g00
0 0
2 1
1
1
11 01
s g
∞
∞
経路コストが正でない
ヒューリスティック値が有限でない
RTA* の性能評価 (1/3)
n- パズル
5 486 127 3
初期状態
1 2 38 4
57 6
目標状態
5 4 86 1
27 3
5 486 127 3
推定コスト:各タイルの正しい位置までのマンハッタン距離の和
RTA* の性能評価 (2/3)
0 5 10 15 20 250
200
400
600
800
1000
8 puzzle
15 puzzle
24 puzzle
Search Horizon
Solution
Length
最適解の長さ 8 puzzle : 2215 puzzle : 5324 puzzle : 100 程度
先読みの深さ
発見した解の長さ
RTA* の性能評価 (3/3) 計算と実行のトレードオフ
ミニミニ探索を深くすると1回の移動のための計算量は増大、移動回数は減少
最適な探索の深さは問題に依存する
スライディングタイルパズルの場合 実行時間 ( ミニミニ探索+移動 ) は探索の過程で
生成した状態数に比例 ミニミニ探索の最適な深さは
8 パズルが 1 、 15 パズル・ 24 パズルが 2 実際の実行時間はそれぞれ0.1 秒、 0.5 秒、 2.5 秒以下( 20MHz )
3. LRTA* アルゴリズム (1/4)
同じ問題を連続して解く 同じ問題空間、同じ目標状態の集合 訪問済みの状態の推定コスト (h) を次の試行に保
持
RTA* では… 問題を一度だけ解く場合には適している 推定コストとして2番目に小さい評価値を格納 h の値が,過大評価となってしまう
Learning RTA*
LRTA* アルゴリズム (2/4)
1.現在の状態 x の各隣接状態 n に対して、以下の関数 f(n) を計算する。ただし、 g(x,n) は x から x’へのコスト。
f(n) = g(x,n) + h(n)
2. h(x) の値を以下のように更新する。 h(x) ← min f(n)
3.最小の f(n) を与える状態 n に遷移する。 (候補が複数存在するときはランダムに選択す
る)
n
LRTA* アルゴリズム (3/4)
a b c d5 1 1 5
6 7
11 1
RTA*
a b c d5 1 1 5
11 1
32LRTA*
LRTA* アルゴリズム (4/4)
収束性 問題空間が有限 経路コストが正 初期ヒューリスティック値が許容的 あらゆる状態から目標状態へ到達可能
試行を繰り返すことにより、最適経路上の各状態の推定コストは正確な値に収束する
完全性 解が存在すれば必ず発見できる
楽観的