強化学習の汎用化ros

sarsa( )法

強化学習汎用化知的試

2016/06/26mabonki0725

趣旨• 強化学習Sarsa( )法

– 問題応特徴量設定 – 局面毎報酬設定

• 局面位置適切報酬決困難– Alpha碁採用手法但 Sarsa 深層学習

下記設定問題汎用的解

行動設定

特徴量設定

行動後特徴量変化

初期条件

終了条件

3

強化学習現在s 行動a 価値Q(s,a) 将来将来報酬期待値報酬途中得点野球報酬途中得点碁将棋迷路最後報酬

Rt:報酬(t時点) St:状態(t時点) :割引率将来価値割引)

行動関数Q 算出方法

• 末端展開末端 BackUp 算出 • :減少率無限展開良 • 価値関数算出方法

–動的計画法 (遷移定常繰返 )– 法 ( 経路辿出現確率計算 – TD( )法 (V関数 SDG 計算)– Sarsa( )法 (Q関数 SDG 計算)– 法 (Q関数汎用化)– DQN DeepLearning 特徴量抽出計算

脳強化学習類似

大脳認識

画像

小脳行動伝達

大脳基底核強化学習

報酬

目

大脳基底核脳波強化学習価値関数変動同形示

銅谷賢治

価値関数Q 特徴量重近似繰返計算重最適化

SGD

過去微分値蓄積( 重 )

wi:重 xi 特徴量 s:状態 a:行動)

学習繰返毎最大化行動A 学習重 w 最適化

二乗誤差微分

特徴量価値関数近似非常簡単 Sarsa( )

実験• 強化学習Sarsa( )法実験

– 問題毎応特徴量設定 – 報酬設定

• 下記設定問題汎用的解行動設定

特徴量設定

行動後特徴量変化

初期条件

終了条件

(例 )馬力不足車登学習馬力不足車坂登後退前進繰返

下降時加速度利用坂登学習

汎用設定値

① 行動前進後進自由降下

② 特徴量位置P 速度V

③ 行動後特徴量前進 P=P+V 後進 P=P-V 速度 V=C1-sin(P*C2)④ 初期条件出発点

⑤ 終了条件終点達

(例 )馬力不足車登学習

最初 4000回達最後回操作登

(例2)壁障害避学習

汎用設定値

① 行動 ② 特徴量横座標X 縦座標Y

③ 行動後特徴量 x +=1 x -=1 y +=1 y -=1 但壁通 ④ 初期条件左下隅

⑤ 終了条件右上隅到着

(例2)壁障害避学習

最初 7000回最後 60回出口達

• 強化学習sarsa( ) 特徴量近似全別問題特徴量指定汎用的解示

• 逆適切特徴量指定大事– DQN=DeepLearning(特徴量抽出) 強化学習

• 報酬設定必要示 –局面毎適切報酬設定方学習早一般的困難( 得点報酬

–専門家行動記録報酬逆算逆強化学習

参考文献

• Mastering the Game of Go with Deep Neural Network and Tree Seach DeepMind

• Playing Atari with Deep Reinforcement Learning DeepMind• Reinforcement Learning Sutton• 心分子機構計算理論的銅谷賢治

• Probablistic Robtics Thurn• Maximum Entropy Deep Inverse Reinforcement Learning

ICPR2014• Inverse Reinforcement Learning with Locally Consistent Reward

Functions NIPS2015

強化学習の汎用化ros

Data & Analytics