確率推論による順・逆 強化学習...確率推論による順・逆 強化学習...

29
確率推論による順・逆 強化学習 内部英治 ATR 脳情報通信研究所 ブレインロボットインターフェース研究室 主幹研究員

Upload: others

Post on 17-Oct-2020

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 確率推論による順・逆 強化学習...確率推論による順・逆 強化学習 内部英治 ATR 脳情報通信研究所 ブレインロボットインターフェース研究室

確率推論による順・逆強化学習

内部英治

ATR 脳情報通信研究所

ブレインロボットインターフェース研究室

主幹研究員

Page 2: 確率推論による順・逆 強化学習...確率推論による順・逆 強化学習 内部英治 ATR 脳情報通信研究所 ブレインロボットインターフェース研究室

Reinforcement learning• Computational algorithm to learn a policy

(controller) by trial and error

Page 3: 確率推論による順・逆 強化学習...確率推論による順・逆 強化学習 内部英治 ATR 脳情報通信研究所 ブレインロボットインターフェース研究室

Components• Inverted Pendulum swing-up and balancing

task

environment

state: joint angle andangular velocity

𝒙𝑡 = [𝜃𝑡, 𝜔𝑡]

action: torque withexploration noise

𝑢𝑡 = 𝜏𝑡 + 𝜀𝑡

policy (controller)

𝜋 𝑢 𝒙

Page 4: 確率推論による順・逆 強化学習...確率推論による順・逆 強化学習 内部英治 ATR 脳情報通信研究所 ブレインロボットインターフェース研究室

Components• Inverted Pendulum swing-up and balancing

task

environment state transition

𝒙𝑡+1

action: torque withexploration noise

𝑢𝑡 = 𝜏𝑡 + 𝜀𝑡

policy (controller)

𝜋 𝑢 𝒙

Page 5: 確率推論による順・逆 強化学習...確率推論による順・逆 強化学習 内部英治 ATR 脳情報通信研究所 ブレインロボットインターフェース研究室

Components• Inverted Pendulum swing-up and balancing

task

environment state transition

𝒙𝑡+1

action: torque withexploration noise

𝑢𝑡 = 𝜏𝑡 + 𝜀𝑡

policy (controller)

𝜋 𝑢 𝒙

reward (immediate evaluation)

𝑟 𝒙𝑡 , 𝑢𝑡 , 𝒙𝑡+1= cos 𝜃𝑡

value function(performance)

𝑉(𝒙), 𝑄(𝒙, 𝑢)

Page 6: 確率推論による順・逆 強化学習...確率推論による順・逆 強化学習 内部英治 ATR 脳情報通信研究所 ブレインロボットインターフェース研究室

Example• Task: to get the battery pack while avoiding

collisions with an obstacle

value function 𝑉(𝑥)environment

Page 7: 確率推論による順・逆 強化学習...確率推論による順・逆 強化学習 内部英治 ATR 脳情報通信研究所 ブレインロボットインターフェース研究室

Open Problems in RLhuge s

tate

space

feature extraction

RL algorithm

reward

act

ion

deep learning

inverse RLintrinsically motivated RL

KL-controlPath-integralEM

deterministicpolicy

Page 8: 確率推論による順・逆 強化学習...確率推論による順・逆 強化学習 内部英治 ATR 脳情報通信研究所 ブレインロボットインターフェース研究室

What is a good reward for learning agents?• Original reward for catching a

battery pack

• Visual reward calculated from image features

original reward

+ visual reward

desired

current

Page 9: 確率推論による順・逆 強化学習...確率推論による順・逆 強化学習 内部英治 ATR 脳情報通信研究所 ブレインロボットインターフェース研究室

• How should we prepare an objective function?

• Inverse Reinforcement Learning: infer the cost function from observed behaviors from the experts

immediate

reward

immediate

reward

Design of rewards for RL

environment

value

function

optimal policy

(expert)

Page 10: 確率推論による順・逆 強化学習...確率推論による順・逆 強化学習 内部英治 ATR 脳情報通信研究所 ブレインロボットインターフェース研究室

Problems of Inverse Reinforcement Learning

• We propose a data-efficient, model-free inverse reinforcement learning

forward RL

inverse RL

[Abbeel and Ng 2004][Ratliff et al. 2009]

[Boularias et al. 2011][Kalakrishnan et al. 2013]

start

goal

[Dvijotham and Todorov2010][Ziebart et al. 2009]

environmental

model

evaluation of

partition func.

Page 11: 確率推論による順・逆 強化学習...確率推論による順・逆 強化学習 内部英治 ATR 脳情報通信研究所 ブレインロボットインターフェース研究室

Standard formulation• Reward is estimated from a dataset

sampled from the optimal policy 𝜋

• Solve as a density estimation problem

Estimate a reward

𝒖𝑗,𝑡𝜋 ∼ 𝜋(⋅∣ 𝒙𝑗,𝑡

𝜋 )

𝒟𝜋 = 𝜏𝑗𝜋

𝑗=1

𝑁𝜋

𝜏𝑗𝜋 = {𝒙𝑗,1

𝜋 , 𝒖𝑗,1𝜋 , 𝒙𝑗,2

𝜋 , … , 𝑥𝑗,𝑇𝜋 }

𝒙𝑗,𝑡+1𝜋 ∼ Pr(⋅∣ 𝒙𝑗,𝑡

𝜋 , 𝒖𝑗,𝑡𝜋 )

𝑝 𝜏 ∝ exp 𝑡=1

𝑇

𝑟(𝒙𝑡𝜋, 𝒖𝑡

𝜋)

Page 12: 確率推論による順・逆 強化学習...確率推論による順・逆 強化学習 内部英治 ATR 脳情報通信研究所 ブレインロボットインターフェース研究室

Our formulation• Reward is estimated from two datasets 𝒟𝜋 from 𝜋 and 𝒟𝑏 sampled from a baseline policy 𝑏

• Solve as a density ratio estimation problem

Estimate a reward and a value function

𝒟𝑏 = 𝒙𝑗𝑏 , 𝒖𝑗

𝑏 , 𝒚𝑗𝑏

𝑗=1

𝑁𝑏

𝒟𝜋 = 𝒙𝑗𝜋, 𝒖𝑗

𝜋 , 𝒚𝑗𝜋

𝑗=1

𝑁𝜋

𝒖𝑗𝜋 ∼ 𝜋(⋅∣ 𝒙𝑗

𝜋) 𝒚𝑗𝜋 ∼ 𝑃𝑇(⋅∣ 𝒙𝑗

𝜋, 𝒖𝑗𝜋)

𝒖𝑗𝑏 ∼ 𝑏(⋅∣ 𝒙𝑗

𝑏) 𝒚𝑗𝑏 ∼ 𝑃𝑇(⋅∣ 𝒙𝑗

𝑏 , 𝒖𝑗𝑏)

Page 13: 確率推論による順・逆 強化学習...確率推論による順・逆 強化学習 内部英治 ATR 脳情報通信研究所 ブレインロボットインターフェース研究室

Reward function restricted by KL divergence

• An action cost is measured by KL divergence between the optimal policy and a baseline policy

• 𝛽: inverse temperature

• 𝑞(𝒙): state reward

• Similar constraints used inpath-integral RL, KL-control,LMDP, and so on.

𝑟 𝒙, 𝒖 = 𝑞 𝒙 −1

𝛽KL 𝜋 𝒖 𝒙 ∥ 𝑏 𝒖 𝒙

[Todorov 2009; Azar et al. 2012]

𝑏

𝜋

Page 14: 確率推論による順・逆 強化学習...確率推論による順・逆 強化学習 内部英治 ATR 脳情報通信研究所 ブレインロボットインターフェース研究室

Bellman Equation for IRL

• Under the constraint on the reward

• 𝑉(𝒙): state value func.

• 𝛾: discount factor

• 𝑃𝑇: state transition prob.

ln𝜋 𝒖 𝒙

𝑏 𝒖 𝒙= 𝛽 𝑞 𝒙 + 𝛾 𝑃𝑇 𝒚 𝒙, 𝒖 𝑉 𝒚 𝑑𝒚 − 𝑉 𝒙

𝑉 𝒙 = max𝜋

𝜋 𝒖 𝒙 𝑞 𝒙 −1

𝛽ln

𝜋(𝒖 ∣ 𝒙)

𝑏(𝒖 ∣ 𝒙)

+𝛾 𝑃𝑇 𝒚 𝒙, 𝒖 𝑉 𝒚 𝑑𝒚 𝑑𝒖

Minimize the R.H.S. by theLagrangian multiplier method

Page 15: 確率推論による順・逆 強化学習...確率推論による順・逆 強化学習 内部英治 ATR 脳情報通信研究所 ブレインロボットインターフェース研究室

Bellman Equation for IRL

• When the action 𝒖 is observable

• When the action 𝒖 is unobservable

• This can be considered as a density ratio estimation problem [Sugiyama et al. 2012]

ln𝜋 𝒖 𝒙

𝑏 𝒖 𝒙= 𝛽 𝑞 𝒙 + 𝛾 𝑃𝑇 𝒚 𝒙, 𝒖 𝑉 𝒚 𝑑𝒚 − 𝑉 𝒙

ln𝜋 𝒚 𝒙

𝑏 𝒚 𝒙= 𝛽 𝑞 𝒙 + 𝛾𝑉 𝒚 − 𝑉 𝒙

Page 16: 確率推論による順・逆 強化学習...確率推論による順・逆 強化学習 内部英治 ATR 脳情報通信研究所 ブレインロボットインターフェース研究室

Comparison

Proposed OptV MaxEnt RelEnt

model-free?

Yes No No Yes

data state transition trajectory

forward RL?

No No Yes No

partitionfunction?

No Yes Yes partially yes

Page 17: 確率推論による順・逆 強化学習...確率推論による順・逆 強化学習 内部英治 ATR 脳情報通信研究所 ブレインロボットインターフェース研究室

Inverted pendulum task• The goal is to swing up and

keep the pole upright for morethan 3 [s]

• Task conditions:• length: long (73 cm), short (29 cm)

• 15 trials for each pole

• 40 [s] for each trial

• 7 subjects (5: right-handed, 2: left-handed) 𝐹𝑥

𝐹𝑦

𝜃

(𝑥, 𝑦)

• State: (𝑥, 𝑥, 𝑦, 𝑦, 𝜃, 𝜃)• Action: (𝐹𝑥, 𝐹𝑦)

long pole short pole

Page 18: 確率推論による順・逆 強化学習...確率推論による順・逆 強化学習 内部英治 ATR 脳情報通信研究所 ブレインロボットインターフェース研究室

Time to balance the pendulum

long pole

short pole

Page 19: 確率推論による順・逆 強化学習...確率推論による順・逆 強化学習 内部英治 ATR 脳情報通信研究所 ブレインロボットインターフェース研究室

Comparison among the methods

• Proposed:LogReg-IRLKLIEP-IRL

Page 20: 確率推論による順・逆 強化学習...確率推論による順・逆 強化学習 内部英治 ATR 脳情報通信研究所 ブレインロボットインターフェース研究室

Estimated reward functions

Page 21: 確率推論による順・逆 強化学習...確率推論による順・逆 強化学習 内部英治 ATR 脳情報通信研究所 ブレインロボットインターフェース研究室
Page 22: 確率推論による順・逆 強化学習...確率推論による順・逆 強化学習 内部英治 ATR 脳情報通信研究所 ブレインロボットインターフェース研究室

Analysis on rat’s behavior

• A rat learned to press an appropriate lever according to a tone stimulus

• We collected the behaviors of the rat before and after learning

estimated reward

lever

foodpellet

environment

before

after

Page 23: 確率推論による順・逆 強化学習...確率推論による順・逆 強化学習 内部英治 ATR 脳情報通信研究所 ブレインロボットインターフェース研究室

Robot Navigation Task• The task is to reach the green target

• training data: start position (A-C, E)

• test data: start position (D)

Page 24: 確率推論による順・逆 強化学習...確率推論による順・逆 強化学習 内部英治 ATR 脳情報通信研究所 ブレインロボットインターフェース研究室

Robot Navigation Task• 𝜋 and 𝑏 were given by experimenters

• For every starting point, 10 trajectories were collected to create the datasets.

𝜋: optimal𝑏: baseline

Page 25: 確率推論による順・逆 強化学習...確率推論による順・逆 強化学習 内部英治 ATR 脳情報通信研究所 ブレインロボットインターフェース研究室

Robot Navigation Task• state vector: 𝒙 =

𝜃𝑟 , 𝑁𝑟 , 𝜃𝑔, 𝑁𝑔, 𝜃𝑏 , 𝑁𝑏 , 𝜃pan, 𝜃tilt⊤

• 𝜃𝑖 (𝑖 = 𝑟, 𝑔, 𝑏): angle to the target

• 𝑁𝑖 (𝑖 = 𝑟, 𝑔, 𝑏): blob size

• 𝜃pan, 𝜃tilt: angles of the camera

• basis function for 𝑉(𝒙)

• 𝒄𝑖: center position selected from the data set

• basis function for 𝑞(𝒙)

• 𝑓𝑔: Gaussian function, 𝑓𝑠: sigmoid function

𝝍𝑞 𝒙 = 𝑓g(𝜃𝑟), 𝑓𝑠(𝑁𝑟), 𝑓g(𝜃𝑔), 𝑓𝑠(𝑁𝑔), 𝑓g(𝜃𝑏), 𝑓𝑠(𝑁𝑏)⊤

𝜓𝑉,𝑖 𝒙 = exp(− 𝒙 − 𝒄𝑖2 2𝜎2)

Page 26: 確率推論による順・逆 強化学習...確率推論による順・逆 強化学習 内部英治 ATR 脳情報通信研究所 ブレインロボットインターフェース研究室

Estimated weights• There were no significant differences

Page 27: 確率推論による順・逆 強化学習...確率推論による順・逆 強化学習 内部英治 ATR 脳情報通信研究所 ブレインロボットインターフェース研究室

Acceleration by shaping• original reward: 𝑞(𝒙)

• shaping reward: 𝑞(𝒙) + 𝛾𝑉(𝒚) – 𝑉(𝒙)

Page 28: 確率推論による順・逆 強化学習...確率推論による順・逆 強化学習 内部英治 ATR 脳情報通信研究所 ブレインロボットインターフェース研究室

Conclusion• We propose the inverse reinforcement learning

algorithm based on density ratio estimation

• Our methods successfully recovered the policies from observed behaviors as compared with previous methods

• The estimated value function can be used as a potential function for accelerating the learning process

Page 29: 確率推論による順・逆 強化学習...確率推論による順・逆 強化学習 内部英治 ATR 脳情報通信研究所 ブレインロボットインターフェース研究室

Acknowledgements• This work was supported by MEXT/JSPS

KAKENHI Grant Number 24500249 and Grant-in-Aid for Scientific Research on Innovative Areas: Prediction and Decision Making (24120527 and 26120727).

• This is based on results obtained from a project commissioned by the New Energy and Industrial Technology Development Organization (NEDO).