強化学習の汎用化ros

14
sarsa()強化学習汎用化 知的試 2016/06/26 mabonki0725

Upload: masato-nakai

Post on 14-Jan-2017

399 views

Category:

Data & Analytics


0 download

TRANSCRIPT

Page 1: 強化学習の汎用化Ros

sarsa( )法

強化学習 汎用化知的 試

2016/06/26mabonki0725

Page 2: 強化学習の汎用化Ros

趣旨• 強化学習Sarsa( )法

– 問題 応 特徴量 設定 – 局面毎 報酬 設定

• 局面 位置 適切 報酬 決 困難– Alpha碁 採用 手法 但 Sarsa 深層学習

下記 設定 問題 汎用的 解

行動 設定

特徴量 設定

行動後 特徴量 変化

初期条件

終了条件

Page 3: 強化学習の汎用化Ros

3

強化学習現在s 行動a 価値Q(s,a) 将来将来 報酬 期待値 報酬 途中 得点 野球 報酬 途中 得点 碁 将棋 迷路 最後 報酬

Rt:報酬(t時点) St:状態(t時点) :割引率 将来価値 割引)

Page 4: 強化学習の汎用化Ros

行動関数Q 算出方法

• 末端 展開 末端 BackUp 算出 • :減少率 無限 展開 良 • 価値関数 算出 方法

–動的計画法 (遷移 定常 繰返 )– 法 ( 経路 辿 出現確率 計算 – TD( )法 (V関数 SDG 計算)– Sarsa( )法 (Q関数 SDG 計算)– 法 (Q関数 汎用化)– DQN DeepLearning 特徴量 抽出 計算

Page 5: 強化学習の汎用化Ros

脳 強化学習 類似

大脳 認識

画像

小脳行動伝達

大脳基底核強化学習

報酬

大脳基底核 脳波 強化学習 価値関数 変動 同形 示

銅谷賢治

Page 6: 強化学習の汎用化Ros

価値関数Q 特徴量 重 近似繰返 計算 重 最適化

SGD

過去 微分値 蓄積( 重 )

wi:重 xi 特徴量 s:状態 a:行動)

学習 繰返 毎 最大化 行動A 学習 重 w 最適化

二乗誤差 微分

Page 7: 強化学習の汎用化Ros

特徴量 価値関数近似非常 簡単 Sarsa( )

Page 8: 強化学習の汎用化Ros

実験• 強化学習Sarsa( )法 実験

– 問題毎 応 特徴量 設定 – 報酬 設定

• 下記 設定 問題 汎用的 解 行動 設定

特徴量 設定

行動後 特徴量 変化

初期条件

終了条件

Page 9: 強化学習の汎用化Ros

(例 )馬力不足 車 登 学習馬力不足 車 坂 登 後退 前進 繰返

下降時 加速度 利用 坂登 学習

汎用 設定 値

① 行動 前進 後進 自由降下

② 特徴量 位置P 速度V

③ 行動後 特徴量 前進 P=P+V 後進 P=P-V 速度 V=C1-sin(P*C2)④ 初期条件 出発点

⑤ 終了条件 終点 達

Page 10: 強化学習の汎用化Ros

(例 )馬力不足 車 登 学習

最初 4000回 達 最後 回 操作 登

Page 11: 強化学習の汎用化Ros

(例2)壁 障害 避 学習

汎用 設定 値

① 行動 ② 特徴量 横座標X 縦座標Y

③ 行動後 特徴量 x +=1 x -=1 y +=1 y -=1 但 壁 通 ④ 初期条件 左下隅

⑤ 終了条件 右上隅 到着

Page 12: 強化学習の汎用化Ros

(例2)壁 障害 避 学習

最初 7000回 最後 60回 出口 達

Page 13: 強化学習の汎用化Ros

• 強化学習sarsa( ) 特徴量近似 全 別 問題 特徴量 指定 汎用的 解 示

• 逆 適切 特徴量 指定 大事– DQN=DeepLearning(特徴量抽出) 強化学習

• 報酬 設定 必要 示 –局面毎 適切 報酬 設定 方 学習 早 一般的 困難( 得点 報酬

–専門家 行動記録 報酬 逆算 逆強化学習

Page 14: 強化学習の汎用化Ros

参考文献

• Mastering the Game of Go with Deep Neural Network and Tree Seach DeepMind

• Playing Atari with Deep Reinforcement Learning DeepMind• Reinforcement Learning Sutton• 心 分子機構 計算理論的 銅谷 賢治

• Probablistic Robtics Thurn• Maximum Entropy Deep Inverse Reinforcement Learning

ICPR2014• Inverse Reinforcement Learning with Locally Consistent Reward

Functions NIPS2015