強化学習の汎用化ros
TRANSCRIPT
sarsa( )法
強化学習 汎用化知的 試
2016/06/26mabonki0725
趣旨• 強化学習Sarsa( )法
– 問題 応 特徴量 設定 – 局面毎 報酬 設定
• 局面 位置 適切 報酬 決 困難– Alpha碁 採用 手法 但 Sarsa 深層学習
下記 設定 問題 汎用的 解
行動 設定
特徴量 設定
行動後 特徴量 変化
初期条件
終了条件
3
強化学習現在s 行動a 価値Q(s,a) 将来将来 報酬 期待値 報酬 途中 得点 野球 報酬 途中 得点 碁 将棋 迷路 最後 報酬
Rt:報酬(t時点) St:状態(t時点) :割引率 将来価値 割引)
行動関数Q 算出方法
• 末端 展開 末端 BackUp 算出 • :減少率 無限 展開 良 • 価値関数 算出 方法
–動的計画法 (遷移 定常 繰返 )– 法 ( 経路 辿 出現確率 計算 – TD( )法 (V関数 SDG 計算)– Sarsa( )法 (Q関数 SDG 計算)– 法 (Q関数 汎用化)– DQN DeepLearning 特徴量 抽出 計算
脳 強化学習 類似
大脳 認識
画像
小脳行動伝達
大脳基底核強化学習
報酬
目
大脳基底核 脳波 強化学習 価値関数 変動 同形 示
銅谷賢治
価値関数Q 特徴量 重 近似繰返 計算 重 最適化
SGD
過去 微分値 蓄積( 重 )
wi:重 xi 特徴量 s:状態 a:行動)
学習 繰返 毎 最大化 行動A 学習 重 w 最適化
二乗誤差 微分
特徴量 価値関数近似非常 簡単 Sarsa( )
実験• 強化学習Sarsa( )法 実験
– 問題毎 応 特徴量 設定 – 報酬 設定
• 下記 設定 問題 汎用的 解 行動 設定
特徴量 設定
行動後 特徴量 変化
初期条件
終了条件
(例 )馬力不足 車 登 学習馬力不足 車 坂 登 後退 前進 繰返
下降時 加速度 利用 坂登 学習
汎用 設定 値
① 行動 前進 後進 自由降下
② 特徴量 位置P 速度V
③ 行動後 特徴量 前進 P=P+V 後進 P=P-V 速度 V=C1-sin(P*C2)④ 初期条件 出発点
⑤ 終了条件 終点 達
(例 )馬力不足 車 登 学習
最初 4000回 達 最後 回 操作 登
(例2)壁 障害 避 学習
汎用 設定 値
① 行動 ② 特徴量 横座標X 縦座標Y
③ 行動後 特徴量 x +=1 x -=1 y +=1 y -=1 但 壁 通 ④ 初期条件 左下隅
⑤ 終了条件 右上隅 到着
(例2)壁 障害 避 学習
最初 7000回 最後 60回 出口 達
• 強化学習sarsa( ) 特徴量近似 全 別 問題 特徴量 指定 汎用的 解 示
• 逆 適切 特徴量 指定 大事– DQN=DeepLearning(特徴量抽出) 強化学習
• 報酬 設定 必要 示 –局面毎 適切 報酬 設定 方 学習 早 一般的 困難( 得点 報酬
–専門家 行動記録 報酬 逆算 逆強化学習
参考文献
• Mastering the Game of Go with Deep Neural Network and Tree Seach DeepMind
• Playing Atari with Deep Reinforcement Learning DeepMind• Reinforcement Learning Sutton• 心 分子機構 計算理論的 銅谷 賢治
• Probablistic Robtics Thurn• Maximum Entropy Deep Inverse Reinforcement Learning
ICPR2014• Inverse Reinforcement Learning with Locally Consistent Reward
Functions NIPS2015