1回 強化学習勉強会 - rl-tokyo · 先端研究(3) n 逆強化学習(inverse reinforcement...
TRANSCRIPT
機械学習
制御理論
強化学習教師あり学習
教師なし学習
強化学習の概要
n 強化学習機械学習と制御理論が融合したような分野
現代制御論
ポスト現代制御論
古典制御論線形システム最適制御
適応制御非線形システムH∞制御
半教師あり学習
ニューラルネットワークサポートベクター決定木線形回帰
KmeansSOM
2つの分野に関わるため専門家が少ない
非常に可能性のある分野
文献や資料が少ない
メリット デメリット
強化学習の概要(1)
4
状態 で行動 をとる確率状態 で行動 をとったとき、状態確率→MDP(マルコフ決定過程)に従う
s
Ø 目的割引率 を導入し、将来的な報
酬の総和の期待値を最大にする
方策 を求める目的関数:
状態
行動
環境次の状態
方策
呍呍呍
報酬
強化学習の概要(2)
Ø 価値関数
5
状態価値関数 行動価値関数
を求めたいがすべてのパスを計算するのは大変
最適方策 を近似する モンテカルロ法、TD法、Q学習、アクター・クリティック法etc…
最適方策
先端研究(1)
n DQN(DeepQ-Network)- 強化学習と深層学習を組み合わせた人工知能- Q関数をDeeplearningで近似- Googleの子会社Deepmindが開発- 論文
V.Mnihetal.,"Playingatariwithdeepreinforcementlearning”
V.Mnihetal.,"Human-levelcontrolthroughdeepreinforcementlearning"
先端研究(3)
n 逆強化学習(InverseReinforcementLearning)- 行動系列を教師データとして、ある環境における理想的な行動規則
を学習(報酬関数を学習)する技術- 応用例 ・ヘリコプター制御: ・自然言語処理:
人間のエキスパートの技を学習させるため、報酬関数を未知として、人間のエキスパートの行動を教師データとし報酬関数を推定する
正解デー タから得られる最適訓練行動列をもとにして,逆強化学習 によって報酬関数を設計する
先端研究(3)n 階層的強化学習- 複雑なタスクを階層的に分解し、各部分に局所的な方策を学習してから統合することによって大域的な方策を学習
- 応用例 音声対話システム:論文:YasuhideKishimotoetal.,“SpokenDialogueManagerUsingPar^allyObservableMarkovDecisionProcesseswithHierarchicalReinforcementLearning“SteveYoungetal.,”Automa^clearningofdialoguestrategyusingdialoguesimula^onandreinforcementlearning”
ユーザーの発話内容を観測し要求を明らかして対応するシステムにおいて、ノイズによって発話内容が正しく観測できない場合でも、従来のシステムに比べはるかに良い応答
参考図書
八谷 大岳, 杉山 将,強くなるロボティック・ゲームプレイヤーの作り方• 絶版?Kindle版のみ?• サンプルコードが載って
いてわかりやすい
Su`onandBerto(1998),ReinforcementLearning• 定番の一冊• わかりにくい?
Szepesvári(2010),AlgorithmsforReinforcementLearning• 100ページ未満(英語)
WieringandvanO`erlo(2012),ReinforcementLearning• 応用例が豊富
h`p://webdocs.cs.ualberta.ca/~su`on/book/ebook/the-book.html
原文(HTML)
ツール・ライブラリ
- RLCommunityh`p://rl-community.org/wiki/Main_Page強化学習の競技会のために作成された、エージェント・環境・実験プログラムの多言語インタフェース RL-Glue、そのインタフェースに沿って実装されたさまざまなアルゴリズム・環境のライブラリ RL-Libraryが入手できる。
- PolicyGradientToolbox h`p://www.robot-learning.de/Research/PolicyGradientToolbox方策勾配 (PolicyGradient)法を利用した強化学習の MATLAB用ツールボックス
- ReinforcementLearningToolboxh`p://www.igi.tugraz.at/ril-toolbox/general/overview.htmlC++で記述された強化学習のツールボックス