td(0) prediction sarsa , on-policy learning q-learning, off-policy learning

27

• TD(0) prediction • Sarsa, On-policy learning • Q-Learning, Off-policy learning

Upload: lerato

Post on 23-Feb-2016

34 views

Category:

Documents

0 download

Report

Download

Embed Size (px):

DESCRIPTION

TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning. Actor-Critic. Unified View. N-step TD Prediction. Forward View. Random Walk. 19-state random walk. n-step method is simple version of TD( λ ) Example: backup average of 2-step and 4-step returns. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

• TD(0) prediction• Sarsa, On-policy learning• Q-Learning, Off-policy learning

Page 2: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

• Actor-Critic

Page 3: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

Unified View

Page 4: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

N-step TD Prediction

Page 5: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

Page 6: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

Forward View

Page 7: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

Random Walk

Page 8: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

• 19-state random walk

Page 9: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

• n-step method is simple version of TD(λ)

• Example: backup average of 2-step and 4-step returns

Page 10: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

Forward View, TD(λ)

• Weigh all n-step return backups by λn-1

(time since visitation)• λ-return:

• Backup using λ-return:

Page 11: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

Weighting of λ-return

Page 12: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

Relationship with TD(0) and MC

Page 13: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

Page 14: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

Backward View

Page 15: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

Book shows forward and backward views are actually equivalent

Page 16: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

On-line, Tabular TD(λ)

Page 17: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

• Update rule:

• As before, λ = 0 means TD(0)• Now, when λ = 1, you get MC, but– Can apply to continuing tasks– Works incrementally and on-line!

Page 18: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

Control: Sarsa(λ)

Page 19: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

Gridworld Example

Page 20: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

Watkin’s Q(λ)

• Why isn’t Q-learning as easy as Sarsa?

Page 21: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

Watkin’s Q(λ)• Why isn’t Q-learning as easy as Sarsa?

Page 22: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

• Accumulating traces– Eligibilities can be greater than 1– Could cause convergence problems

• Replacing traces

Page 23: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

Page 24: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

• Example: why do accumulating traces do particularly poorly in this task?

Page 25: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

Page 26: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

Implementation Issues

• Could require significant amounts of computation– But most traces are very close to zero…– We can actually throw them out when they get very

small• Will want to use some type of efficient data

structure• In practice, increases computation only by a

small multiple

Page 27: TD(0) prediction Sarsa , On-policy learning Q-Learning, Off-policy learning

• AnonymousFeedback.net Send to [email protected]

1. What’s been most useful to you (and why)?

2. What’s been least useful (and why)?

3. What could students do to improve the class?

4. What could Matt do to improve the class?

Lecture 7: Policy Gradient Reinforcement... · 2017-03-06 · Lecture 7: Policy Gradient Introduction Policy-Based Reinforcement Learning In the last lecture we approximated the value

2014-15 Assessment Policy - Bloomfield Hills · 2014-15 Assessment Policy International Baccalaureate Programme ... their learning through the completion of the Primary Years Programme

ASEAN Deep Learning Policy Series Tantangan dan pendekatan

eu policy eu policy eu policy eu policy

Entrepreneurial Learning in Macedonia - Policy and Practice

Seminar on policy study on e-Learning in Formal & Open Learning contexts

Mastering the game of Go with deep neural …an action, rather than 3 network won more than 80% of games against the SL policy network. ms for the policy network. Reinforcement learning

Lecture 7: Policy Gradient - jbnu.ac.krnlp.jbnu.ac.kr/AI2019/slides_RL/pg.pdf · 2019. 10. 28. · Lecture 7: Policy Gradient Introduction Policy-Based Reinforcement Learning In the

RL5: On-policyandoﬀ-policyalgorithms · Overview Oﬀ-policyalgorithms Q-learning(lasttime) R-learning(avariantofQ-learning) On-policyalgorithms SARSA TD( ) Actor-criticmethods

Policy mining: Learning decision policies from fixed sets of data

CLINICAL GOVERNANCE: ORGANIZZAZIONE, GESTIONE E RUOLO …€¦ · Policy Accountabiliy and Performance ReliableData Researchand Development Managing Resources and Services Learning

On-Policy Concurrent Reinforcement Learningcse.unl.edu/~lksoh/Classes/CSCE475_875_Fall15/Seminar...SARSA (on-policy method) converges to a stable Q value while the classic Q-learning

LANGUAGES CONNECT - Department of Education and … · The 2008 Language Policy Profile, ... Learner Attitudes Towards Foreign Language Learning ... LANGUAGES CONNECT

21st century learning: Research, Innovation and Policy direction

ArtiﬁcialIntelligence:Project3nlp.jbnu.ac.kr/AI2019/AI_2019_project_3.pdf · ArtiﬁcialIntelligence:Project3 Seung-Hoon Na November 19, 2019 1 Sarsa@ Q-learning 1.1 Windy Gridworld

Conti Rossini, Guidi. Historia Regis Sarsa Dengel : (Malak Sagad). 1907

Learning for adopting: Technology adoption in developing country agriculture · 2018-10-07 · Learning for adopting: Technology adoption in developing country agriculture Policy

Assuring and promoting quality in e-learning policy and practice

El Neolítico antiguo cardial y la Cova de la Sarsa (Bocairent

10703 Deep Reinforcement Learning and Control · 2017. 10. 18. · Policy-Based Reinforcement Learning ‣ So far we approximated the value or action-value function using parameters

Muhamed t-ali-learning-strategic-depth-of-ahmet-davutoğlu-turkey-s-new-foreign-policy-skopje-language-albanian

LEARNING THE WEALTH OF NATIONSwebfac/gorodnichenko/primiceri.pdf · 2008-11-26 · LEARNING THE WEALTH OF NATIONS 3 60% of the policy changes within an interval of 3 years. In particular,

Reinforcement Learning - Policy Search: Actor-Critic and ...mmartin/URL/Lecture5.pdf · Mario Martin (CS-UPC) Reinforcement Learning May 7, 2020 17 / 72. Approximated Cross-Entropy

Harnessing Technology Transforming Learning and Children’s Services John Davies – DfES Post 16 e-learning policy

· The American Youth Policy Forum (AYPF) is a non-profit professional development organization based in Washington, DC. AYPF provides nonpartisan learning

[DL輪読会]Bridging the Gap Between Value and Policy Based Reinforcement Learning

Policy Execution e Transmission Policy

7. Instruments of Trade Policy Learning Objectiveschrist/intlecon/intl_7b.pdf · Instruments of Trade Policy Learning Objectives ... tariff and non-tariff barriers to trade ... consumption

Learning CPG-based Biped Locomotion with a Policy Gradient

ArtiﬁcialIntelligence:Assignment3nlp.jbnu.ac.kr/AI/AI_assignment_3.pdf · ArtiﬁcialIntelligence:Assignment3 Seung-Hoon Na November 30, 2017 1 Sarsa@ Q-learning 1.1 Windy Gridworld

Análisis de los procesos de transferencias de políticas ...ISBN: 978-987-544-705-9 policy learning donde se genera un cambio de creencias acerca de una política, de policy convergence

PRAKTIČNI VODIČ - SARSA

Healthy Schools = Healthy Kids = Learning Better OR What is the relationship between school health policy and learning? Julia Dilley PhD MES Washington

LEARNING CULTURE POLICY PRINCIPIOS PARA UNA CULTURA

Muhamed T.Ali - Learning Strategic Depth of Ahmet Davutoğlu (Turkey's New Foreign Policy) Skopje ( Language: Albanian)