ppt umemoto g

17
屋内自律飛行船の追従行動に 対する行動戦略の学習 複合情報学専攻 複雑系工学講座 調和系工学講座 学部4年 梅本 雅之 Learning of behavioral strategies in pursuit task for Indoor Balloon Robot

Upload: harmonylab

Post on 14-Dec-2014

108 views

Category:

Documents


0 download

DESCRIPTION

 

TRANSCRIPT

Page 1: Ppt umemoto g

屋内自律飛行船の追従行動に対する行動戦略の学習

複合情報学専攻 複雑系工学講座

調和系工学講座 学部4年 梅本 雅之

Learning of behavioral strategies in pursuit task

for Indoor Balloon Robot

Page 2: Ppt umemoto g

背景複雑系

環境や飛行船の運動特性が大きく影響繰り返し行動において目的達成のための行動決定方針

屋内自律飛行船

行動戦略を自律的獲得し,実行する手法が必要

現在(制御する時刻)の状態のみから行動を決定

複数飛行船において相互作用により,全体としてエンタテイメント性のある飛行の実現が可能

従来の制御方法

戦略的行動をするのは困難

行動戦略

・・・エンタテインメントに利用

構成要素が相互作用し,系全体の振る舞いが決定される

Page 3: Ppt umemoto g

目的

追跡-逃走ゲームをシミュレータ上で構築

複数の屋内自律飛行船による行動戦略の自律的獲得

方法

環境・運動特性が行動戦略の獲得に与える影響を分析

Page 4: Ppt umemoto g

ゲームの定義

プレイヤ 追跡者,逃走者

空間 半径R,高さHの円柱空間内

環境サーバ 相手の位置座標(X,Y,Z)を通知

ゲーム時間 T時間

初期距離 dinit離れている

終了条件 捕獲orT時間経過

追跡者 逃走者

目的 短時間で捕獲 長時間逃走

利得関数

勝利条件 捕獲に成功 T時間逃走

追跡者 逃走者

環境

プレイヤ

T

ct

d

d

T

T

t init

t 1

1T

ct

d

d

T

T

t init

t 1

目的:利得関数を最大にする戦略の獲得 捕獲時間

距離

:

:

ct

d t

環境

プレイヤ

Page 5: Ppt umemoto g

屋内自律飛行船94.0[cm]

80.0

[cm]

Camera Sensor

Controller

RGB 16bit

160×144[pixel]

T-Engine System

CPU: 216MHz

Propellers

Image

information

Control

signal

モータ制御 XY方向:2chずつ・Z方向:1ch床面のランドマークから計算位置計算

Page 6: Ppt umemoto g

飛行船シミュレータ

運動方程式 FBAvvM

概要屋内自律飛行船をモデル化運動方程式により飛行船の動きを計算OpenGLにより視覚化

推力

遠心力とコリオリ力

浮力と重力による力

:

:

:

F

B

空気抵抗

加速度ベクトル

質量行列

:

:

:

A

v

M

Page 7: Ppt umemoto g

戦略を内含した制御が可能環境の変化に柔軟に対応

共進化GAによるNNの学習

相手の戦略の進化に対してより強固な戦略の学習

戦略の進化的獲得

ニューラルネットワーク

パラメータの学習やINPUTの設計が必要

共進化

GA

明確な解が無い問題の最適解を探索

戦略を反映した制御方式と戦略の学習が必要

Page 8: Ppt umemoto g

wjk …vij … θj … φk …

制御方法ニューラルネットワークによる制御

出力層:5入力層:14 中間層:12各プロペラの出力

機体間の相対座標(rx,ry,rz)

各機体の移動偏差(dx,dy,dz)

壁との相対座標(wx,wy,wz)

前回の出力

・・・

・・・・・・・・

結合係数( vij , wjk )と閾値( θj , φk )を遺伝子として持つGAを考える共進化GAを用いて最適な解を探索し,NNを学習させる

vij Wjk

Page 9: Ppt umemoto g

NNの学習方法追跡者 逃走者

T世代における逃走者100個体の評価値の算出方法を説明する逃走者1個体ずつエリート3個体と対戦させ,利得の平均を評価値とする

個体集合(100個体)

エリート3個体

T-1 世代

T世代全ての個体

Page 10: Ppt umemoto g

NNの学習方法追跡者 逃走者

個体集合(100個体)

個体集合(100個体)

エリート3個体

T-1 世代

T世代

追跡者の場合も逃走者と同様に評価値を算出対戦中に遺伝子は変化しない

全ての個体

Page 11: Ppt umemoto g

T-1 世代

T世代

NNの学習方法追跡者 逃走者

評価値に従って,選択し遺伝子操作を加えて次世代の個体を生成同様の操作を1000世代繰り返し,NNのパラメータを進化させる

交叉,変異 交叉,変異

Page 12: Ppt umemoto g

実験

設定時間T:300[sec]

半径:R[m],高さ:5[m]の円柱空間内初期距離:R[m]

ゲームバランスが均衡しているほうが戦略の有効性が高まる

ゲーム環境が行動戦略の決定に与える影響を調べる

空間サイズによりどのような行動戦略ができるかを検討Rを変更して十分に進化したプレイヤ同士によりゲーム

パラメータ設定

XY平面上の初期位置

Page 13: Ppt umemoto g

実験結果

0

20

40

60

80

100

0 5 10 15 20 25 30 35 40 45 50

空間サイズ[m]

捕獲回数

0

50

100

150

200

250

300

捕獲平均時間

捕獲回数 捕獲平均時間

異なる空間サイズで同じ運動特性の2機体

空間サイズR =(5,10…50) 最高速度 v = 0.2[m/s]

ゲームバランスが均衡しているR=15~25[m]で効果的な行動戦略を獲得し易いと考えられる.

獲得した行動戦略の例を次に示す.

Page 14: Ppt umemoto g

壁に追い込む戦略

運動性能 同じ

空間サイズR 15[m]

黄色の機体:逃走者白色の機体:追跡者

2次元軌跡(赤:追跡者,緑:逃走者)

Page 15: Ppt umemoto g

0

10

20

30

40

50

60

70

80

90

100

1 2 3 4 5 6 7 8 9 10

モータ特性比

捕獲回数(赤)

捕獲平均時間(青)

実験②

モータ特性比が逃走者:追跡者=1:0.7~0.8

にかけて追跡者と逃走者の力バランスの均衡点があり,その際に次のような戦略を創発した

モータ特性αと捕獲回数と平均時間のグラフ

空間サイズ半径;25[m]

初期距離:25[m]:逃走者の推力

:追跡者の推力

e

p

)0.12.0,1.0(

e

p

Page 16: Ppt umemoto g

フェイント行動加速度 逃走者>追跡者

最高速 逃走者=追跡者

黄色の機体:逃走者白色の機体:追跡者

2次元軌跡(赤:追跡者,緑:逃走者)

Page 17: Ppt umemoto g

まとめ

戦略を伴うゲーム環境を構築した

相手の行動に適応した行動戦略を自律的に獲得した

進化の過程で単純に追従するだけでなく,フェイント行動などの行動戦略を創発した

実機を用いた実験複数機体でのゲーム

今後の課題